پربازدید ترین‌های هفته

لنوو مدل جدید لپ‌تاپ ThinkBook 16p 2026 را معرفی کرد

این سیستم دوربین جدید به شما اجازه می‌دهد دنیا را از چشم حیوانات ببینید؛ اما چگونه؟!

سامسونگ One UI 8.5 را برای دستگاه‌های تاییدشده منتشر کرد؛ انتشار ادامه دارد!

شایعات جدید درباره گلکسی واچ اولترا ۲؛ باتری بزرگ‌تر با تراشه قوی‌تر

تصاویر افشاشده از آنر X80 پرو مکس، باتری غول‌آسای آن را تایید می‌کند

آموزش

قابلیت «صفحه نمایش همیشه روشن» سامسونگ چقدر از باتری را مصرف می‌کند؟

چرا همیشه بهتر است برنامه‌های اضافی را از گوشی اندرویدی خود پاک کنیم؟

آیا می‌توان از پاک کننده عینک برای تمیز کردن صفحه مانیتور استفاده کرد؟

با گوشی اندرویدی خود این ۴ گجت اداری را کنار بگذارید!

هر چند وقت یک‌بار باید تمام کنترل‌های دور خانه خود را تمیز کنیم؟

خانه » فناوری » هوش مصنوعی » حتی GPT-5 هم در این تست سنجش تمرکز انسان مردود شد!

هوش مصنوعی

حتی GPT-5 هم در این تست سنجش تمرکز انسان مردود شد!

تحریریه اروتک

اشتراک‌گذاری:

یک تست روان‌شناسی کلاسیک، نقطه ضعف غیرمنتظره‌ای را در برخی از پیشرفته‌ترین سیستم‌های هوش مصنوعی امروزی آشکار کرده است؛ موضوعی که نشان می‌دهد توجه و تمرکز در هوش مصنوعی ممکن است بسیار متفاوت از تمرکز در انسان عمل کند.

✅ این مطلب جذاب را از دست ندهید؛ ۵ اشتباه رایج در استفاده از وایفای که بیشتر افراد مرتکب می‌شوند! 🚀

پژوهشگرانی به رهبری سوکتو پاتل (Suketu Patel) بررسی کردند که مدل‌های زبانی بزرگ (LLMها) – یعنی همان فناوری پشت سیستم‌هایی مانند GPT-5، کلود (Claude) و جمینای (Gemini) – چگونه با یک چالش شناختیِ شناخته‌شده به نام «تست استروپ» (Stroop task) روبه‌رو می‌شوند. یافته‌ها نشان می‌دهند با وجود اینکه هوش مصنوعی می‌تواند در بسیاری از وظایف پیچیده عملکرد خیره‌کننده‌ای داشته باشد، اما وقتی در طولانی‌مدت با اطلاعات متناقض مواجه می‌شود، ممکن است برای حفظ تمرکز خود با چالش جدی مواجه شود!

تست استروپ چیست؟

تست استروپ یک آزمایش روان‌شناسی کلاسیک است که دهه‌ها برای مطالعه توجه، تمرکز و کنترل ذهنی مورد استفاده قرار گرفته است. در این تست، به شرکت‌کنندگان کلماتی نشان داده می‌شود که نام رنگ‌ها هستند (مانند «قرمز» یا «آبی»)، اما این کلمات با جوهرهای رنگی مختلف نمایش داده می‌شوند.

گاهی اوقات معنی کلمه و رنگ جوهر با هم مطابقت دارند؛ مثلاً کلمه «قرمز» با جوهر قرمز نوشته شده است. اما در مواقع دیگر، این دو با هم متناقض هستند؛ مثلاً کلمه «قرمز» با جوهر آبی نوشته می‌شود. از شرکت‌کنندگان خواسته می‌شود که رنگ جوهر را تشخیص دهند و خودِ معنی کلمه را نادیده بگیرند.

اگرچه این کار ساده به نظر می‌رسد، اما یک تداخل و درگیری ذهنی ایجاد می‌کند. بیشتر انسان‌ها مهارت بالایی در خواندن خودکار کلمات دارند، بنابراین سرکوب کردن این غریزه به چیزی نیاز دارد که روان‌شناسان به آن «کنترل اجرایی» می‌گویند. این اصطلاح به توانایی مغز برای تمرکز روی یک هدف، مقاومت در برابر حواس‌پرتی‌ها و نادیده گرفتن پاسخ‌های خودکار اشاره دارد.

انسان‌ها معمولاً وقتی کلمه و رنگ جوهر همخوانی ندارند، کمی طول می‌کشد تا پاسخ دهند که این پدیده به عنوان «اثر استروپ» شناخته می‌شود. با این حال، حتی زمانی که تست طولانی می‌شود، انسان‌ها عموماً دقت بالای خود را حفظ می‌کنند و روی دستورالعمل داده‌شده متمرکز می‌مانند.

هوش مصنوعی در ابتدا خوب عمل می‌کند!

برای اینکه مشخص شود سیستم‌های هوش مصنوعی مدرن چگونه با این چالش کنار می‌آیند، پژوهشگران چندین مدل زبانی پیشرو را با استفاده از لیست‌هایی از کلماتِ مربوط به رنگ‌ها آزمایش کردند.

وقتی لیست‌های کوتاهی شامل پنج کلمه – که معنای آن‌ها با رنگ جوهرشان متناقض بود – به مدل‌ها ارائه شد، آن‌ها به‌طرز شگفت‌انگیزی خوب عمل کردند. مدل GPT-4o در این تست‌های کوتاه‌تر به دقت ۹۱ درصدی دست یافت. مدل Claude 3.5 Sonnet نیز عملکرد قدرتمندی از خود نشان داد. در نگاه اول، این نتایج نشان می‌داد که سیستم‌های هوش مصنوعی می‌توانند با موفقیت دستورالعمل را دنبال کنند و معنای کلماتِ حواس‌پرت‌کننده را نادیده بگیرند.

سقوط عملکرد با طولانی‌تر شدن لیست‌ها

اما با افزایش طول لیست کلمات توسط محققان، اوضاع به شدت تغییر کرد. دقت GPT-4o از ۹۱ درصد در لیست‌های ۵ کلمه‌ای، به ۵۷ درصد در لیست‌های ۱۰ کلمه‌ای کاهش یافت. زمانی که طول لیست به ۴۰ کلمه رسید، دقت مدل به شکل فاجعه‌باری تا ۱۵ درصد سقوط کرد.

مدل Claude 3.5 Sonnet مقاومت بیشتری از خود نشان داد و عملکرد پایدار خود را تا لیست‌های ۲۰ کلمه‌ای حفظ کرد. با این حال، این مدل نیز دچار افت شدیدی شد و دقت آن در مواجهه با ۴۰ کلمه به ۲۴ درصد رسید. پژوهشگران الگوهای مشابهی را در GPT-5، مدل Claude Opus 4.1 و Gemini 2.5 مشاهده کردند.

وضعیت عملکرد زمانی بدتر شد که کلماتِ همخوانی‌دار و متناقض به صورت ترکیبی در یک لیست قرار گرفتند. در این شرایط، دقت مدل‌ها در تشخیص کلمات متناقض تقریباً به صفر رسید.

چرا انسان و هوش مصنوعی پاسخ متفاوتی می‌دهند؟

این نتایج به یک تفاوت مهم بین شناخت انسان و نحوه پردازش اطلاعات توسط مدل‌های زبانی بزرگ اشاره دارد. سیستم‌های هوش مصنوعی نیز مانند انسان‌ها، در طول دوران آموزش خود، تمرینات بسیار بیشتری برای تشخیص و تفسیر «کلمات» نسبت به شناسایی «رنگ‌ها» دریافت کرده‌اند. این امر یک تمایل طبیعی برای تمرکز روی متنِ نوشته‌شده ایجاد می‌کند.

با این حال، انسان‌ها به طور کلی قادرند آن پاسخ خودکار (خواندن کلمه) را سرکوب کنند و حتی در توالی‌های طولانی، روی کاری که به آن‌ها دستور داده شده تمرکز بمانند. در مقابل، مدل‌های زبانی با ادامه یافتن تست، به مرور زمان به جای نام بردن رنگ‌ها، بیشتر و بیشتر به سمت خواندن خود کلمات سوق پیدا کردند. به عبارت دیگر، به نظر می‌رسید آن‌ها هدف اصلی را گم کرده‌اند.

به گفته محققان، این فروپاشی عملکرد نشان می‌دهد مکانیزم‌های توجه و تمرکزی که در سیستم‌های هوش مصنوعی مبتنی بر معماری «ترانسفورمر» استفاده می‌شود، تفاوت بنیادی با سیستم‌های توجه بیولوژیکی در مغز انسان دارد.

دریچه‌ای به سوی محدودیت‌های هوش مصنوعی

مدل‌های زبانی بزرگ توانایی‌های فوق‌العاده‌ای در نویسندگی، استدلال، کدنویسی و گفتگو از خود نشان داده‌اند. با این حال، مطالعاتی از این دست تاکید می‌کنند که این عملکرد چشمگیر لزوماً به این معنی نیست که هوش مصنوعی اطلاعات را به همان روش انسان پردازش می‌کند.

یافته‌ها حاکی از آن است که هوش مصنوعی مدرن ممکن است در کارهایی که نیازمند تمرکز مداوم، مهار پاسخ‌های خودکار و حفظ طولانی‌مدت دستورالعمل‌های خاص هستند، نقاط ضعف پنهانی داشته باشد. هم‌زمان با ادغام هرچه بیشتر سیستم‌های هوش مصنوعی در زندگی روزمره، درک این محدودیت‌ها می‌تواند به اندازه سنجش نقاط قوت آن‌ها مهم باشد.

📌 خلاصه فشرده کپشن تصویر:
تفاوت تشخیص و اجرای کار در هوش مصنوعی (مدل Claude 3.5 Sonnet): این تصویر نشان می‌دهد که مدل، تست استروپ را به درستی تشخیص داده و روابط رنگ‌ها را تحلیل می‌کند، اما در عمل و بدون راهنمایی مستقیم، در یک لیست ۱۰ کلمه‌ایِ متناقض تنها به دقت ۷۰٪ می‌رسد. این یعنی صرفاً «شناخت ساختار یک مسئله» توسط هوش مصنوعی، برای «حل درست تعارضات آن» کافی نیست.

منبع: Scitechdaily