شکست هوش مصنوعی در آزمون اجتماعی!

شکست هوش مصنوعی در آزمون اجتماعی!

اشتراک‌گذاری:

یک مطالعه جدید به رهبری محققان دانشگاه جانز هاپکینز نشان می‌دهد که مدل‌های هوش مصنوعی کنونی در توصیف و تفسیر دقیق تعاملات اجتماعی در صحنه‌های پویا، عملکرد بسیار ضعیف‌تری نسبت به انسان‌ها دارند. این قابلیت برای فناوری‌هایی مانند خودروهای خودران و ربات‌های دستیار که به شدت به هوش مصنوعی برای پیمایش ایمن در محیط‌های دنیای واقعی متکی هستند، حیاتی است.

این تحقیق نشان می‌دهد که سیستم‌های هوش مصنوعی موجود در درک پویایی‌های ظریف اجتماعی و نشانه‌هایی که برای تعامل مؤثر با افراد ضروری هستند، با مشکل مواجه‌اند. علاوه بر این، یافته‌ها حاکی از آن است که این محدودیت ممکن است به‌طور اساسی از معماری و زیرساخت‌های زیربنایی مدل‌های هوش مصنوعی فعلی ناشی شود.

لیلا ایسیک، نویسنده اصلی این مطالعه و استادیار علوم شناختی در دانشگاه جانز هاپکینز، می‌گوید:

برای مثال، هوش مصنوعی یک خودروی خودران باید بتواند نیات، اهداف و اقدامات رانندگان و عابران پیاده انسانی را تشخیص دهد. شما می‌خواهید بداند که یک عابر پیاده چه زمانی قصد شروع به راه رفتن دارد، یا اینکه آیا دو نفر در حال گفتگو هستند یا در شرف عبور از خیابان. هر زمان که بخواهید یک هوش مصنوعی با انسان‌ها تعامل داشته باشد، می‌خواهید بتواند تشخیص دهد که افراد چه کار می‌کنند. من فکر می‌کنم این موضوع نشان می‌دهد که این سیستم‌ها در حال حاضر نمی‌توانند این کار را انجام دهند.

کتی گارسیا، دانشجوی دکترا که در زمان انجام این تحقیق در آزمایشگاه ایسیک کار می‌کرد و نویسنده اول مشترک این مقاله است، اخیراً یافته‌های این تحقیق را در کنفرانس بین‌المللی بازنمایی یادگیری در ۲۴ آوریل ارائه کرده است.

مقایسه ادراک هوش مصنوعی و انسان

برای تعیین میزان برتری مدل‌های هوش مصنوعی نسبت به ادراک انسان، محققان از شرکت‌کنندگان انسانی خواستند کلیپ‌های ویدیویی سه ثانیه‌ای را تماشا کرده و ویژگی‌های مهم برای درک تعاملات اجتماعی را در مقیاس یک تا پنج رتبه‌بندی کنند. این کلیپ‌ها شامل افرادی بود که با یکدیگر تعامل داشتند، فعالیت‌های جانبی انجام داده یا فعالیت‌های مستقل خود را به تنهایی انجام می‌دادند.

سپس محققان از بیش از ۳۵۰ مدل زبانی، ویدیویی و تصویری هوش مصنوعی خواستند تا پیش‌بینی کنند که انسان‌ها چگونه این ویدیوها را قضاوت می‌کنند و مغز آن‌ها چگونه به تماشای آن‌ها واکنش نشان می‌دهد. برای مدل‌های زبانی بزرگ، محققان از هوش مصنوعی خواستند تا شرح‌های کوتاه نوشته شده توسط انسان را ارزیابی کند.

اکثر شرکت‌کنندگان در مورد تمام سؤالات با یکدیگر توافق داشتند؛ اما مدل‌های هوش مصنوعی، صرف نظر از اندازه یا داده‌هایی که روی آن‌ها آموزش داده شده بود، اینگونه نبودند. مدل‌های ویدیویی نتوانستند به‌طور دقیق آنچه را که افراد در ویدیوها انجام می‌دادند، توصیف کنند. حتی مدل‌های تصویری که مجموعه‌ای از فریم‌های ثابت برای تجزیه و تحلیل به آن‌ها داده شده بود، نتوانستند به‌طور قابل اعتمادی پیش‌بینی کنند که آیا افراد در حال برقراری ارتباط هستند یا خیر. مدل‌های زبانی در پیش‌بینی رفتار انسان بهتر عمل کردند، در حالی‌که مدل‌های ویدیویی در پیش‌بینی فعالیت عصبی در مغز بهتر بودند.

شکاف در توسعه هوش مصنوعی

به گفته محققان، نتایج این تحقیق در تضاد آشکار با موفقیت هوش مصنوعی در خواندن تصاویر ثابت قرار دارد.

گارسیا گفت:

قط دیدن یک تصویر و تشخیص اشیاء و چهره‌ها کافی نیست. این اولین قدم بود که ما را در هوش مصنوعی به جایگاه بسیار خوبی رساند. اما زندگی واقعی ایستا نیست. ما به هوش مصنوعی نیاز داریم تا داستانی را که در یک صحنه در حال رخ دادن است، درک کند. درک روابط، زمینه و پویایی‌های تعاملات اجتماعی گام بعدی است و این تحقیق نشان می‌دهد که ممکن است یک نقطه کور در توسعه مدل‌های هوش مصنوعی وجود داشته باشد.

محققان بر این باورند که دلیل این امر آن است که شبکه‌های عصبی هوش مصنوعی از زیرساخت بخشی از مغز الهام گرفته‌اند که تصاویر ثابت را پردازش می‌کند، که با ناحیه‌ای از مغز که صحنه‌های اجتماعی پویا را پردازش می‌کند، متفاوت است.

ایسیک گفت:

جزئیات زیادی وجود دارد، اما نکته مهم این است که هیچ یک از مدل‌های هوش مصنوعی نمی‌توانند پاسخ‌های مغز و رفتار انسان به صحنه‌ها را به طور کلی، مانند صحنه‌های ثابت، مطابقت دهند. من فکر می‌کنم چیزی اساسی در نحوه پردازش صحنه‌ها توسط انسان وجود دارد که این مدل‌ها از آن غافل هستند.

منبع: Scitechdaily

مقالات مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *