طبق یک مطالعه جدید، ChatGPT در تشخیص شرایط پزشکی عملکردی متوسط دارد و تنها در ۴۹ درصد مواقع درست عمل میکند. محققان میگویند یافتههای آنها نشان میدهد که هوش مصنوعی نباید تنها منبع اطلاعات پزشکی باشد و حفظ عنصر انسانی در مراقبتهای بهداشتی را برجسته میکنند.
راحتی دسترسی به فناوری آنلاین باعث شده است که برخی افراد به جای مراجعه به پزشک متخصص، علائم خود را در گوگل جستجو کنند. اگرچه پیگیری سلامتی چیز بدی نیست، اما «دکتر گوگل» هم آنقدرها دقیق نیست. یک مطالعه از محققان استرالیایی که در سال ۲۰۲۰ بر روی ۳۶ برنامه موبایل و مبتنی بر وب بینالمللی که علائم بیماریها را بررسی میکنند، نشان داد که تشخیص صحیح بیماری تنها در ۳۶ درصد موارد ذکرشده در ابتدای لیست آنها قرار داشته است.
مطمئناً هوش مصنوعی از سال ۲۰۲۰ بهبود یافته است. ChatGPT کمپانی OpenAI به سرعت پیشرفت کرده است و در نهایت میتواند در آزمون مجوز پزشکی ایالات متحده قبول شود. اما آیا هوش مصنوعی از نظر دقت تشخیص بهتر از دکتر گوگل است؟ این سؤالی است که محققان دانشگاه وسترن در کانادا در یک مطالعه جدید به دنبال پاسخ به آن بودند.
با استفاده از ChatGPT ۳.۵، یک مدل زبان بزرگ (LLM) که بر روی مجموعه داده عظیم بیش از ۴۰۰ میلیارد کلمه از اینترنت که شامل کتابها، مقالهها و وبسایتها میشود، آموزش داده شده است، محققان تجزیه و تحلیل کیفی از اطلاعات پزشکی که این هوش مصنوعی ارائه میکند، انجام دادند. این مدل به چالشهای موردی Medscape پاسخ میدهد.
چالشهای موردی Medscape موارد پیچیده بالینی هستند که دانش و مهارتهای تشخیصی یک متخصص پزشکی را به چالش میکشند. متخصصان پزشکی موظفند با انتخاب از بین چهار پاسخ چند گزینهای، تشخیص داده یا طرح درمانی مناسب را برای یک مورد انتخاب کنند. محققان در این مورد Medscape’s Case Challenges را انتخاب کردند زیرا متن باز بوده و آزادانه در دسترس هستند. برای جلوگیری از این احتمال که ChatGPT اطلاعات قبلی از موارد داشته باشد، فقط مواردی که پس از آموزش مدل ۳.۵ در آگوست ۲۰۲۱ تألیف شده بودند، در این آزمایش گنجانده شدند.
در مجموع ۱۵۰ مورد Medscape مورد تجزیه و تحلیل قرار گرفت. با چهار پاسخ چند گزینهای در هر مورد، این بدان معناست که در مجموع ۶۰۰ پاسخ ممکن وجود داشت که تنها یک پاسخ صحیح در هر مورد وجود داشت. موارد مورد تجزیه و تحلیل طیف گستردهای از مشکلات پزشکی را با عناوینی مانند “بدتر شدن مشکلات بینی در یک فرد ۳۵ ساله مبتلا به آسم بهخاطر استفاده از آسپرین و مشروبات الکلی”، “چالش موردی معده: مرد ۳۳ سالهای که نمیتواند بزاق خود را ببلعد”، “زنی ۲۷ ساله با سردرد دائمی و همواره خسته برای مهمانی رفتن”، “چالش موردی کودکان: پسر ۷ ساله مبتلا به لنگی و چاقی که در خیابان افتاد”، و “حسابدار عاشق ایروبیک مبتلا به سکسکه و عدم تعادل” پوشش میدهد. مواردی که شامل دادههای بصری، مانند تصاویر بالینی، عکسهاذی پزشکی، و نمودارها بودند، حذف شدند.
برای اطمینان از سازگاری در ورودی ارائه شده به ChatGPT، هر چالش موردی به یک درخواست استاندارد تبدیل شد، از جمله یک اسکریپت از خروجی که چت بات باید ارائه دهد. همه موارد توسط حداقل دو ارزیاب مستقل، کارآموزان پزشکی که نسبت به پاسخهای یکدیگر بیاطلاع بودند، ارزیابی شدند. آنها پاسخهای ChatGPT را بر اساس دقت تشخیصی، بار شناختی (یعنی پیچیدگی و وضوح اطلاعات ارائهشده، از کم به بالا)، و کیفیت اطلاعات پزشکی (از جمله کامل و مرتبط بودن آن) ارزیابی کردند.
از ۱۵۰ مورد Medscape مورد تجزیه و تحلیل، ChatGPT در ۴۹٪ موارد پاسخهای صحیح ارائه کرد. با این حال، چت بات دقت کلی ۷۴ درصد را نشان داد، به این معنی که میتوانست گزینههای نادرست را شناسایی و رد کند.
محققان توضیح میدهند:
بالاتر بودن مقدار دوم به دلیل توانایی ChatGPT برای شناسایی منفیهای واقعی (گزینههای نادرست) است که به طور قابلتوجهی به دقت کلی کمک میکند و کاربرد آن در حذف انتخابهای نادرست را افزایش میدهد. این تفاوت ویژگی مهمتر ChatGPT را برجسته میکند که نشاندهنده توانایی آن برای رد تشخیصهای نادرست است. با این حال، برای شناسایی قابل اعتماد تشخیص صحیح نیاز به بهبود در دقت و حساسیت آن احساس میشود.
علاوه بر این، ChatGPT، تشخیصهای مثبت کاذب (۱۳٪) و منفی کاذب (۱۳٪) را نیز ارائه کرد که پیامدهایی برای استفاده از آن به عنوان یک ابزار تشخیصی دارد. کمی بیش از نیمی (۵۲٪) از پاسخهای ارائه شده کامل و مرتبط و ۴۳٪ دیگر ناقص اما همچنان مرتبط بودند. ChatGPT تمایل داشت تا پاسخهایی با بار شناختی کم (۵۱٪) تا متوسط (۴۱٪) تولید کند که درک آنها را برای کاربران آسان میکند. با این حال، محققان خاطرنشان میکنند که این سهولت درک، همراه با پتانسیل اطلاعات نادرست یا نامربوط، میتواند منجر به “تصورات غلط و احساس نادرست درک” شود، به خصوص اگر ChatGPT به عنوان یک ابزار آموزش پزشکی استفاده شود.
طبق گفتهی محققان:
ChatGPT همچنین برای تمایز بین بیماریها با نشانههای کمی متفاوت تلاش زیادی میکرد و گاهی اوقات اطلاعات نادرست یا غیرقابل قبولی را در این زمینه تولید میکرد که به عنوان توهمات هوش مصنوعی شناخته میشد و بر خطر اتکای صرف به ChatGPT برای راهنمایی پزشکی و لزوم تخصص انسانی در فرآیند تشخیص تأکید داشت.
البته محققان به عنوان یک محدودیت مطالعه این مسئله را ذکر کردند:
ChatGPT ۳.۵ تنها یک مدل هوش مصنوعی است که ممکن است نماینده مدلهای دیگر نباشد و در تکرارهای آینده بهبود یابد و شاید دقت آن در این مدلهای جدید بهبود پیدا کند. همچنین، موارد Medscape تجزیه و تحلیل شده توسط ChatGPT در درجه اول بر موارد تشخیص افتراقی متمرکز شده است، جایی که متخصصان پزشکی باید بین دو یا چند بیماری با نشانهها یا علائم مشابه تمایز قائل شوند.
در حالیکه تحقیقات آینده باید دقت مدلهای مختلف هوش مصنوعی را با استفاده از طیف وسیعتری از منابع موردی ارزیابی کند، با این وجود نتایج مطالعه حاضر آموزنده است.
محققان گفتند:
ترکیب مرتبط بودن با دقت نسبتاً پایین توصیه میکند برای مشاوره پزشکی به ChatGPT اعتماد نکنید، زیرا میتواند اطلاعات مهمی را ارائه دهد که ممکن است گمراهکننده باشند. در حالیکه نتایج ما نشان میدهد که ChatGPT به طور مداوم اطلاعات یکسانی را به کاربران مختلف ارائه میکند و قابلیت اطمینان بین ارزیابیکنندگان مختلف را نشان میدهد. همچنین یافتهها کاستیهای این ابزار را در ارائه اطلاعات پزشکی واقعی نشان میدهد، همانطور که با دقت تشخیصی پایین آن این نکته مشهود است.
این مطالعه در مجله PLOS One منتشر شد.
منبع: Newatlas