جستجو
Close this search box.
جستجو
Close this search box.
ChatGPT در تشخیص پزشکی به اندازه "دکتر گوگل" نادرست عمل می‌کند!

ChatGPT در تشخیص پزشکی به اندازه “دکتر گوگل” نادرست عمل می‌کند!

اشتراک‌گذاری:

طبق یک مطالعه جدید، ChatGPT در تشخیص شرایط پزشکی عملکردی متوسط دارد و تنها در ۴۹ درصد مواقع درست عمل می‌کند. محققان می‌گویند یافته‌های آن‌ها نشان می‌دهد که هوش مصنوعی نباید تنها منبع اطلاعات پزشکی باشد و حفظ عنصر انسانی در مراقبت‌های بهداشتی را برجسته می‌کنند.

راحتی دسترسی به فناوری آنلاین باعث شده است که برخی افراد به جای مراجعه به پزشک متخصص، علائم خود را در گوگل جستجو کنند. اگرچه پیگیری سلامتی چیز بدی نیست، اما «دکتر گوگل» هم آن‌قدرها دقیق نیست. یک مطالعه از محققان استرالیایی که در سال ۲۰۲۰ بر روی ۳۶ برنامه موبایل و مبتنی بر وب بین‌المللی که علائم بیماری‌ها را بررسی می‌کنند، نشان داد که تشخیص صحیح بیماری تنها در ۳۶ درصد موارد ذکرشده در ابتدای لیست آنها قرار داشته است.

مطمئناً هوش مصنوعی از سال ۲۰۲۰ بهبود یافته است. ChatGPT کمپانی OpenAI به سرعت پیشرفت کرده است و در نهایت می‌تواند در آزمون مجوز پزشکی ایالات متحده قبول شود. اما آیا هوش مصنوعی از نظر دقت تشخیص بهتر از دکتر گوگل است؟ این سؤالی است که محققان دانشگاه وسترن در کانادا در یک مطالعه جدید به دنبال پاسخ به آن بودند.

با استفاده از ChatGPT ۳.۵، یک مدل زبان بزرگ (LLM) که بر روی مجموعه داده عظیم بیش از ۴۰۰ میلیارد کلمه از اینترنت که شامل کتاب‌ها، مقاله‌ها و وب‌سایت‌ها می‌شود، آموزش داده شده است، محققان تجزیه و تحلیل کیفی از اطلاعات پزشکی که این هوش مصنوعی ارائه می‌کند، انجام دادند. این مدل به چالش‌های موردی Medscape پاسخ می‌دهد.

چالش‌های موردی Medscape موارد پیچیده بالینی هستند که دانش و مهارت‌های تشخیصی یک متخصص پزشکی را به چالش می‌کشند. متخصصان پزشکی موظفند با انتخاب از بین چهار پاسخ چند گزینه‌ای، تشخیص داده یا طرح درمانی مناسب را برای یک مورد انتخاب کنند. محققان در این مورد Medscape’s Case Challenges را انتخاب کردند زیرا متن باز بوده و آزادانه در دسترس هستند. برای جلوگیری از این احتمال که ChatGPT اطلاعات قبلی از موارد داشته باشد، فقط مواردی که پس از آموزش مدل ۳.۵ در آگوست ۲۰۲۱ تألیف شده بودند، در این آزمایش گنجانده شدند.

در مجموع ۱۵۰ مورد Medscape مورد تجزیه و تحلیل قرار گرفت. با چهار پاسخ چند گزینه‌ای در هر مورد، این بدان معناست که در مجموع ۶۰۰ پاسخ ممکن وجود داشت که تنها یک پاسخ صحیح در هر مورد وجود داشت. موارد مورد تجزیه و تحلیل طیف گسترده‌ای از مشکلات پزشکی را با عناوینی مانند “بدتر شدن مشکلات بینی در یک فرد ۳۵ ساله مبتلا به آسم به‌خاطر استفاده از آسپرین و مشروبات الکلی”، “چالش موردی معده: مرد ۳۳ ساله‌ای که نمی‌تواند بزاق خود را ببلعد”، “زنی ۲۷ ساله با سردرد دائمی و همواره خسته برای مهمانی رفتن”، “چالش موردی کودکان: پسر ۷ ساله مبتلا به لنگی و چاقی که در خیابان افتاد”، و “حسابدار عاشق ایروبیک مبتلا به سکسکه و عدم تعادل” پوشش می‌دهد. مواردی که شامل داده‌های بصری، مانند تصاویر بالینی، عکس‌هاذی پزشکی، و نمودار‌ها بودند، حذف شدند.

برای اطمینان از سازگاری در ورودی ارائه شده به ChatGPT، هر چالش موردی به یک درخواست استاندارد تبدیل شد، از جمله یک اسکریپت از خروجی که چت بات باید ارائه دهد. همه موارد توسط حداقل دو ارزیاب مستقل، کارآموزان پزشکی که نسبت به پاسخ‌های یکدیگر بی‌اطلاع بودند، ارزیابی شدند. آن‌ها پاسخ‌های ChatGPT را بر اساس دقت تشخیصی، بار شناختی (یعنی پیچیدگی و وضوح اطلاعات ارائه‌شده، از کم به بالا)، و کیفیت اطلاعات پزشکی (از جمله کامل و مرتبط بودن آن) ارزیابی کردند.

ChatGPT در تشخیص پزشکی به اندازه «دکتر گوگل» (نا)درست عمل می‌کند!
نمونه‌ای از یک پرامپت استاندارد داده شده به ChatGPT

از ۱۵۰ مورد Medscape مورد تجزیه و تحلیل، ChatGPT در ۴۹٪ موارد پاسخ‌های صحیح ارائه کرد. با این حال، چت بات دقت کلی ۷۴ درصد را نشان داد، به این معنی که می‌توانست گزینه‌های نادرست را شناسایی و رد کند.

محققان توضیح می‌دهند:

بالاتر بودن مقدار دوم به دلیل توانایی ChatGPT برای شناسایی منفی‌های واقعی (گزینه‌های نادرست) است که به طور قابل‌توجهی به دقت کلی کمک می‌کند و کاربرد آن در حذف انتخاب‌های نادرست را افزایش می‌دهد. این تفاوت ویژگی مهم‌تر ChatGPT را برجسته می‌کند که نشان‌دهنده توانایی آن برای رد تشخیص‌های نادرست است. با این حال، برای شناسایی قابل اعتماد تشخیص صحیح نیاز به بهبود در دقت و حساسیت آن احساس می‌شود.

علاوه بر این، ChatGPT، تشخیص‌های مثبت کاذب (۱۳٪) و منفی کاذب (۱۳٪) را نیز ارائه کرد که پیامد‌هایی برای استفاده از آن به عنوان یک ابزار تشخیصی دارد. کمی بیش از نیمی (۵۲٪) از پاسخ‌های ارائه شده کامل و مرتبط و ۴۳٪ دیگر ناقص اما همچنان مرتبط بودند. ChatGPT تمایل داشت تا پاسخ‌هایی با بار شناختی کم (۵۱٪) تا متوسط ​​(۴۱٪) تولید کند که درک آن‌ها را برای کاربران آسان می‌کند. با این حال، محققان خاطرنشان می‌کنند که این سهولت درک، همراه با پتانسیل اطلاعات نادرست یا نامربوط، می‌تواند منجر به “تصورات غلط و احساس نادرست درک” شود، به خصوص اگر ChatGPT به عنوان یک ابزار آموزش پزشکی استفاده شود.

طبق گفته‌ی محققان:

ChatGPT همچنین برای تمایز بین بیماری‌ها با نشانه‌های کمی متفاوت تلاش زیادی می‌کرد و گاهی اوقات اطلاعات نادرست یا غیرقابل قبولی را در این زمینه تولید می‌کرد که به عنوان توهمات هوش مصنوعی شناخته می‌شد و بر خطر اتکای صرف به ChatGPT برای راهنمایی پزشکی و لزوم تخصص انسانی در فرآیند تشخیص تأکید داشت.

البته محققان به عنوان یک محدودیت مطالعه این مسئله را ذکر کردند:

ChatGPT ۳.۵ تنها یک مدل هوش مصنوعی است که ممکن است نماینده مدل‌های دیگر نباشد و در تکرار‌های آینده بهبود یابد و شاید دقت آن در این مدل‌های جدید بهبود پیدا کند. همچنین، موارد Medscape تجزیه و تحلیل شده توسط ChatGPT در درجه اول بر موارد تشخیص افتراقی متمرکز شده است، جایی که متخصصان پزشکی باید بین دو یا چند بیماری با نشانه‌ها یا علائم مشابه تمایز قائل شوند.

در حالیکه تحقیقات آینده باید دقت مدل‌های مختلف هوش مصنوعی را با استفاده از طیف وسیع‌تری از منابع موردی ارزیابی کند، با این وجود نتایج مطالعه حاضر آموزنده است.

ChatGPT در تشخیص پزشکی به اندازه «دکتر گوگل» (نا)درست عمل می‌کند!

محققان گفتند:

ترکیب مرتبط بودن با دقت نسبتاً پایین توصیه می‌کند برای مشاوره پزشکی به ChatGPT اعتماد نکنید، زیرا می‌تواند اطلاعات مهمی را ارائه دهد که ممکن است گمراه‌کننده باشند. در حالیکه نتایج ما نشان می‌دهد که ChatGPT به طور مداوم اطلاعات یکسانی را به کاربران مختلف ارائه می‌کند و قابلیت اطمینان بین ارزیابی‌کنندگان مختلف را نشان می‌دهد. همچنین یافته‌ها کاستی‌های این ابزار را در ارائه اطلاعات پزشکی واقعی نشان می‌دهد، همانطور که با دقت تشخیصی پایین آن این نکته مشهود است.

این مطالعه در مجله PLOS One منتشر شد.

منبع: Newatlas

مقالات مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *