تحقیقات انجام شده توسط تست MoCA نشان میدهند که مدلهای پیشرفته هوش مصنوعی دچار علائمی از اختلالات شناختی، مشابه علائم اولیه زوال عقل، میشوند. این یافتهها محدودیتهای هوش مصنوعی را در کاربردهای کلینیکی، بهویژه در وظایف نیازمند مهارتهای بصری و اجرایی، برجسته میکنند.
اختلالات شناختی در هوش مصنوعی
تقریباً همه مدلهای زبانی پیشرفته، یا همان “چتباتها”، هنگام آزمایش با ارزیابیهایی که معمولاً برای تشخیص اولیه زوال عقل استفاده میشوند، علائمی از اختلال شناختی خفیف نشان دادهاند.
این مطالعه همچنین نشان داد که نسخههای قدیمیتر این چتباتها، مشابه بیماران مسن انسانی، عملکرد ضعیفتری در این آزمونها داشتند. نویسندگان مقاله پیشنهاد میکنند که این یافتهها:
فرضیهای که هوش مصنوعی بهزودی جایگزین پزشکان انسانی خواهد شد را به چالش میکشد.
پیشرفت و گمانهزنیها در هوش مصنوعی
پیشرفتهای اخیر در هوش مصنوعی هم هیجان و هم نگرانیهایی درباره احتمال برتری چتباتها بر پزشکان انسانی در وظایف پزشکی برانگیخته است.
اگرچه تحقیقات پیشین نشان دادهاند که مدلهای زبانی بزرگ (LLMs) در وظایف تشخیصی پزشکی مهارت دارند، اما آسیبپذیری احتمالی آنها در برابر اختلالات شناختی مشابه انسان، مانند افت شناختی، تا به امروز به مقدار کافی مورد بررسی قرار نگرفته بود.
ارزیابی تواناییهای شناختی هوش مصنوعی
برای پر کردن این شکاف دانشی، پژوهشگران تواناییهای شناختی مدلهای زبانی پیشرفته و عمومی را با استفاده از آزمون ارزیابی شناختی مونترال (MoCA) بررسی کردند. مدلهایی که مورد ارزیابی قرار گرفتند عبارت بودند از:
- ChatGPT نسخههای 4 و 4o (توسعهیافته توسط OpenAI)
- Claude 3.5 “Sonnet” (توسعهیافته توسط Anthropic)
- Gemini نسخههای 1 و 1.5 (توسعهیافته توسط Alphabet)
آزمون MoCA بهطور گسترده برای تشخیص اختلالات شناختی و علائم اولیه زوال عقل، معمولاً در افراد مسن، استفاده میشود. این آزمون از وظایف کوتاه و سوالات متنوعی تشکیل شده که مهارتهایی مانند توجه، حافظه، زبان، مهارتهای دیداری-فضایی، و عملکردهای اجرایی را ارزیابی میکند. حداکثر نمره در این آزمون ۳۰ است و نمره ۲۶ یا بالاتر معمولاً بهعنوان عملکرد طبیعی در نظر گرفته میشود.
عملکرد هوش مصنوعی در آزمون شناختی
به مدلهای زبانی همان دستورالعملهایی داده شد که به بیماران انسانی داده میشود. نمرهدهی بر اساس دستورالعملهای رسمی و توسط یک متخصص نورولوژی انجام شد.
- ChatGPT 4o بالاترین نمره را در آزمون MoCA بهدست آورد (۲۶ از ۳۰).
- ChatGPT 4 و Claude هر دو نمره ۲۵ از ۳۰ را کسب کردند.
- Gemini 1.0 کمترین نمره را بهدست آورد (۱۶ از ۳۰).
چالشها در عملکردهای دیداری و اجرایی
تمام چتباتها در مهارتهای دیداری-فضایی و وظایف اجرایی عملکرد ضعیفی نشان دادند. بهویژه در وظیفه ترسیم مسیر (اتصال اعداد و حروف محصورشده به ترتیب صعودی) و آزمون رسم ساعت (کشیدن یک ساعت با نمایش زمان مشخص). مدلهای Gemini در وظیفه یادآوری تأخیری (به خاطر سپردن یک توالی پنجکلمهای) شکست خوردند.
با این حال، بیشتر وظایف دیگر مانند نامگذاری، توجه، زبان و توانایی انتزاعی توسط همه چتباتها بهخوبی انجام شد.
در آزمونهای دیداری پیچیدهتر چتباتها نتوانستند همگرایی نشان دهند یا صحنههای پیچیده دیداری را بهدرستی تفسیر کنند. تنها ChatGPT 4o توانست مرحله ناهماهنگ آزمون Stroop را با موفقیت انجام دهد. این آزمون با ترکیب نام رنگها و رنگ فونتها، تأثیر تداخل را بر زمان واکنش اندازهگیری میکند.
پیامدها برای استفاده از هوش مصنوعی در محیطهای بالینی
این یافتهها مشاهداتی هستند و نویسندگان مقاله به تفاوتهای اساسی بین مغز انسان و مدلهای زبانی بزرگ اشاره میکنند.
با این حال، آنها تاکید میکنند که شکست همگانی تمام مدلهای زبانی بزرگ در وظایف نیازمند انتزاع دیداری و عملکرد اجرایی، نشاندهنده یک نقطه ضعف قابلتوجه است که میتواند کاربرد آنها را در محیطهای بالینی محدود کند.
پژوهشگران نتیجه گرفتند:
نهتنها احتمال جایگزینی متخصصان مغز و اعصاب با مدلهای زبانی بزرگ در آینده نزدیک کم است، بلکه یافتههای ما نشان میدهد که ممکن است بهزودی این متخصصان با بیماران مجازی جدیدی روبرو شوند، مدلهای هوش مصنوعی که علائمی از اختلالات شناختی نشان میدهند.
این مطالعه در شماره کریسمس مجله BMJ منتشر شده است.
منبع: Scitechdaily