یک مطالعه جدید به رهبری محققان دانشگاه جانز هاپکینز نشان میدهد که مدلهای هوش مصنوعی کنونی در توصیف و تفسیر دقیق تعاملات اجتماعی در صحنههای پویا، عملکرد بسیار ضعیفتری نسبت به انسانها دارند. این قابلیت برای فناوریهایی مانند خودروهای خودران و رباتهای دستیار که به شدت به هوش مصنوعی برای پیمایش ایمن در محیطهای دنیای واقعی متکی هستند، حیاتی است.
این تحقیق نشان میدهد که سیستمهای هوش مصنوعی موجود در درک پویاییهای ظریف اجتماعی و نشانههایی که برای تعامل مؤثر با افراد ضروری هستند، با مشکل مواجهاند. علاوه بر این، یافتهها حاکی از آن است که این محدودیت ممکن است بهطور اساسی از معماری و زیرساختهای زیربنایی مدلهای هوش مصنوعی فعلی ناشی شود.
لیلا ایسیک، نویسنده اصلی این مطالعه و استادیار علوم شناختی در دانشگاه جانز هاپکینز، میگوید:
برای مثال، هوش مصنوعی یک خودروی خودران باید بتواند نیات، اهداف و اقدامات رانندگان و عابران پیاده انسانی را تشخیص دهد. شما میخواهید بداند که یک عابر پیاده چه زمانی قصد شروع به راه رفتن دارد، یا اینکه آیا دو نفر در حال گفتگو هستند یا در شرف عبور از خیابان. هر زمان که بخواهید یک هوش مصنوعی با انسانها تعامل داشته باشد، میخواهید بتواند تشخیص دهد که افراد چه کار میکنند. من فکر میکنم این موضوع نشان میدهد که این سیستمها در حال حاضر نمیتوانند این کار را انجام دهند.
کتی گارسیا، دانشجوی دکترا که در زمان انجام این تحقیق در آزمایشگاه ایسیک کار میکرد و نویسنده اول مشترک این مقاله است، اخیراً یافتههای این تحقیق را در کنفرانس بینالمللی بازنمایی یادگیری در ۲۴ آوریل ارائه کرده است.
مقایسه ادراک هوش مصنوعی و انسان
برای تعیین میزان برتری مدلهای هوش مصنوعی نسبت به ادراک انسان، محققان از شرکتکنندگان انسانی خواستند کلیپهای ویدیویی سه ثانیهای را تماشا کرده و ویژگیهای مهم برای درک تعاملات اجتماعی را در مقیاس یک تا پنج رتبهبندی کنند. این کلیپها شامل افرادی بود که با یکدیگر تعامل داشتند، فعالیتهای جانبی انجام داده یا فعالیتهای مستقل خود را به تنهایی انجام میدادند.
سپس محققان از بیش از ۳۵۰ مدل زبانی، ویدیویی و تصویری هوش مصنوعی خواستند تا پیشبینی کنند که انسانها چگونه این ویدیوها را قضاوت میکنند و مغز آنها چگونه به تماشای آنها واکنش نشان میدهد. برای مدلهای زبانی بزرگ، محققان از هوش مصنوعی خواستند تا شرحهای کوتاه نوشته شده توسط انسان را ارزیابی کند.
اکثر شرکتکنندگان در مورد تمام سؤالات با یکدیگر توافق داشتند؛ اما مدلهای هوش مصنوعی، صرف نظر از اندازه یا دادههایی که روی آنها آموزش داده شده بود، اینگونه نبودند. مدلهای ویدیویی نتوانستند بهطور دقیق آنچه را که افراد در ویدیوها انجام میدادند، توصیف کنند. حتی مدلهای تصویری که مجموعهای از فریمهای ثابت برای تجزیه و تحلیل به آنها داده شده بود، نتوانستند بهطور قابل اعتمادی پیشبینی کنند که آیا افراد در حال برقراری ارتباط هستند یا خیر. مدلهای زبانی در پیشبینی رفتار انسان بهتر عمل کردند، در حالیکه مدلهای ویدیویی در پیشبینی فعالیت عصبی در مغز بهتر بودند.
شکاف در توسعه هوش مصنوعی
به گفته محققان، نتایج این تحقیق در تضاد آشکار با موفقیت هوش مصنوعی در خواندن تصاویر ثابت قرار دارد.
گارسیا گفت:
قط دیدن یک تصویر و تشخیص اشیاء و چهرهها کافی نیست. این اولین قدم بود که ما را در هوش مصنوعی به جایگاه بسیار خوبی رساند. اما زندگی واقعی ایستا نیست. ما به هوش مصنوعی نیاز داریم تا داستانی را که در یک صحنه در حال رخ دادن است، درک کند. درک روابط، زمینه و پویاییهای تعاملات اجتماعی گام بعدی است و این تحقیق نشان میدهد که ممکن است یک نقطه کور در توسعه مدلهای هوش مصنوعی وجود داشته باشد.
محققان بر این باورند که دلیل این امر آن است که شبکههای عصبی هوش مصنوعی از زیرساخت بخشی از مغز الهام گرفتهاند که تصاویر ثابت را پردازش میکند، که با ناحیهای از مغز که صحنههای اجتماعی پویا را پردازش میکند، متفاوت است.
ایسیک گفت:
جزئیات زیادی وجود دارد، اما نکته مهم این است که هیچ یک از مدلهای هوش مصنوعی نمیتوانند پاسخهای مغز و رفتار انسان به صحنهها را به طور کلی، مانند صحنههای ثابت، مطابقت دهند. من فکر میکنم چیزی اساسی در نحوه پردازش صحنهها توسط انسان وجود دارد که این مدلها از آن غافل هستند.
منبع: Scitechdaily