نتایج آماری اولیه نشان میدهند که نه تنها هوش مصنوعی مبتنی بر مدلهای زبان بزرگ (LLM) قادر به تولید ایدههای تحقیقاتی علمی در سطح متخصصان است، بلکه این ایدهها از نظر اصالت و هیجانانگیز بودن، نسبت به ایدههای تولیدشده توسط متخصصان انسانی برتر هستند!
پیشرفتهای اخیر در مدلهای زبان بزرگ (LLM) محققان را بهشدت در مورد پتانسیل این فناوری برای انقلاب در اکتشافات علمی هیجانزده کرده است. مدلهایی مانند ChatGPT و Anthropic’s Claude توانایی تولید و اعتبارسنجی مستقل ایدههای تحقیقاتی جدید را از خود نشان دادهاند.
تا پیش از این، تصور میشد توانایی تولید دانش جدید و اکتشافات علمی یک از قسمتهای زیادی است که هوش مصنوعی هرگز نمیتواند جای انسانها را در آن بگیرد، چرا که این تواناییها در مخالفت با ترکیب دانش موجود از دادههای آموزشی هوش مصنوعی قرار دارد!
اما همچون اظهارات هنری، موسیقی، برنامه نویسی، درک زیرمتن و زبان بدن، و بسیاری از تواناییهای نوظهور دیگر، به نظر میرسد که هوش مصنوعی امروزه قادر به تولید تحقیقات جدیدی است که بهطور متوسط از همتایان انسانی خود جدیدتر هستند.
تا همین اواخر، هیچ تحقیقی در این زمینه انجام نشده بود. اکنون، بیش از 100 کارشناس پژوهشی در پردازش زبان طبیعی (NLP) (با درجات دکتری و فوقدکتری از 36 مؤسسه معتبر) با ایدههای تولیدشده توسط مدلهای زبان بزرگ مواجه شدهاند تا ارزیابی کنند که کدام ایدهها از نظر اصالت، هیجانانگیزی و امکانسنجی برتر هستند.
رشته پردازش زیان طبیعی شاخهای از هوش مصنوعی است که به ارتباط میان انسان و هوش مصنوعی میپردازد و تلاش میکند تا درک مشترکی از نظر نحو و تفاوتهای ظریف زبانی، و اخیراً لحن کلامی و احساسی که هر کدام از آنها درک میکند، ایجاد کند.
در این مطالعه، 49 متخصص انسانی ایدههایی درباره 7 موضوع مختلف در NLP نوشتند، در حالیکه یک مدل LLM نیز ایدههایی درباره همان 7 موضوع تولید کرد. این مطالعه به ازای هر ایده 300 دلار آمریکا بهعلاوه 1000 دلار جایزه به پنج ایده برتر انسانی پرداخت تا انگیزهای برای تولید ایدههای معتبر و عملی ایجاد کند.
پس از تکمیل، برای استاندارد کردن سبکهای نوشتاری هر مدخل ارسالی و حفظ محتوای اصلی، از LLM استفاده شد تا مطالعه تا حد امکان ناشناس باقی بماند.
تمام ایدههای ارسالی توسط 79 متخصص انسانی بررسی شدند و قضاوت کورکورانهای بر روی آنها انجام شد. این هیئت 298 بررسی ارائه داد که هر ایده بین دو تا چهار بررسی مستقل دریافت کرد.
نتایج نشان داد که از نظر تازگی و هیجان، هوش مصنوعی بهطور قابلتوجهی برتر از محققان انسانی است. در زمینه امکانسنجی، هوش مصنوعی کمی پایینتر از انسانها و از نظر اثربخشی کمی بالاتر قرار گرفت، اما هیچیک از این تفاوتها از نظر آماری چشمگیر نبودند.
این مطالعه همچنین نواقص خاصی مانند عدم تنوع در تولید ایدهها توسط LLM و محدودیتهای آنها در خودارزیابی را آشکار کرد. حتی با وجود دستور صریح برای جلوگیری از تکرار، LLM بهسرعت شروع به انجام این کار کرد. LLMها همچنین قادر به ارزیابی و امتیازدهی ایدهها با قوام زیاد نبودند و در تطابق با قضاوتهای انسانی امتیاز پایینی کسب کردند.
این مطالعه همچنین تأکید میکند که جنبه انسانی قضاوت درباره «اصالت» یک ایده، حتی با حضور گروهی از متخصصان، بهطور کامل ذهنی است.
برای بررسی دقیقتر این نظریه که آیا LLMها در اکتشافات علمی مستقل بهتر عمل میکنند یا نه، محققان قصد دارند شرکتکنندگان متخصص بیشتری را استخدام کنند. آنها پیشنهاد میکنند که یک مطالعه جامعتر انجام دهند که در آن ایدههای تولیدشده توسط هوش مصنوعی و انسان بهطور کامل در پروژهها توسعه یابند و امکان بررسی عمیقتر تأثیر آنها در سناریوهای دنیای واقعی فراهم شود.
با این حال، نتایج اولیه قطعاً توجهبرانگیز هستند. بشریت خود را با یک رقیب جدید و عجیب در عرصه علمی مواجه میبیند. مدلهای زبان هوش مصنوعی به ابزارهای فوقالعادهای تبدیل شدهاند، اما هنوز بهشدت غیرقابلاعتماد و مستعد مشکلاتی هستند که شرکتهای هوش مصنوعی آن را «توهم» مینامند.
آنها قادرند کوههایی از کاغذ بازی را جابهجا کنند، اما قطعاً جایی برای «توهمات» در روش علمی سخت وجود ندارد. علم نمیتواند بر پایه “توهم” بنا شود. این موضوع به اندازه کافی رسواییآمیز است که طبق برخی برآوردها، حداقل 10 درصد از مقالات تحقیقاتی کنونی توسط هوش مصنوعی نوشته میشود.
از سوی دیگر، نمیتوان پتانسیل هوش مصنوعی برای سرعت بخشیدن به پیشرفت در حوزههای خاص را نادیده گرفت. به عنوان نمونه، سیستم GNOME DeepMind نشان داده است که میتواند در عرض چند ماه، معادل 800 سال فرآیند کشف مواد انسانی را انجام دهد. این سیستم همچنین موفق به تفکیک و ارائه دستورالعملهایی برای حدود 380,000 کریستال معدنی جدید شده است که میتواند در تمام زمینهها پتانسیل تحولاتی شگفتانگیز داشته باشد.
این فناوری، سریعترین سرعت توسعهای را دارد که تاکنون بشر شاهد آن بوده است. منطقی است که انتظار داشته باشیم بسیاری از ایرادات فعلی آن در چند سال آینده برطرف و بهبود یابند. بسیاری از متخصصان هوش مصنوعی بر این باورند که ما به نقطهی ابرهوش عمومی نزدیک میشویم، نقطهای که در آن، هوش مصنوعی عمومی از دانش متخصصان در تقریباً همهی زمینهها پیشی میگیرد.
بدون شک، این احساس عجیب و حتی تکاندهنده است که میبینیم بزرگترین اختراع ما، بهسرعت در حال تسلط یافتن بر بسیاری از ویژگیهایی است که همیشه فکر میکردیم ما انسانها را منحصر به فرد میسازند، از جمله توانایی خلق ایدههای جدید و بدیع. نبوغ انسانی، که همیشه انسانها را شبیه خدایان افسانهای تصور میکرد، حالا با شکافهایی که روزبهروز کوچکتر میشوند، رو به افول است.
با این حال، در آیندهی نزدیک، اگر بتوانیم اهداف و انگیزههای خود را با هوش مصنوعی همسو نگه داریم، میتوانیم بهترین نتیجه را از یک همزیستی میان بهترین نسخههای هوش مصنوعی و هوش ارگانیک خود بهدست آوریم.
اما اگر این یک مسابقه باشد، نتیجه فعلی در دور اول این است:
هوش مصنوعی: 1 انسانها: 0
منبع: Newatlas