جدیدترین نسخه تحولآفرین OpenAI معرفی شد. مدل جدید o1 که اکنون در ChatGPT در دسترس است، پیش از پاسخگویی “فکر میکند” و شروع به شکست دادن مدلهای قبلی و حتی انسانهایی با مدرک دکترا در حل مسائل کارشناسانه کرده است!
ظاهراً تا اینجای کار OpenAI به ما کمی فرصت برای نفس کشیدن داده بود، نه؟ یعنی زمانی که GPT-4o و حالت پیشرفته صوتیاش (که هنوز به صورت عمومی در دسترس نیست) در ماه می معرفی شدند، واقعاً آنها بیشتر شبیه به پیشرفتهای کوچکی به نظر میرسیدند. مولد متن به ویدئو Sora که در فوریه عرضه شد واقعاً باعث تعجب مردم شد، اما هنوز بهصورت عمومی در دسترس نیست، اگرچه چندین رقیب چینی اکنون به نظر میرسد کیفیت مشابهی را ارائه میدهند.
همه جور حدس و گمانهایی درباره اینکه GPT-5 چه شکلی خواهد بود، چه زمانی عرضه میشود، و اینکه آیا به نوعی هوش مصنوعی عمومی (AGI) رسیده یا نه، وجود داشته است. اما OpenAI اکنون جهت دیگری را پیش گرفت و مدلی جدید را از سلسله GPT جدا کرد!
جالب اینکه، مدل o1 هیچ بهبودی در تواناییهای نوشتاری زبان انگلیسی نسبت به GPT-4o ارائه نمیدهد.
معرفی o1: متفکر!
مدل جدید، o1 نام دارد. این مدل اکنون به عنوان یک گزینه در 100٪ حسابهای کاربری ChatGPT فعال شده است. در حالیکه GPT-4o (اومنی) همچنان مدل همهکارهای بوده که برای بیشتر وظایف کاربردی است، o1 را میتوان متخصص نامید!
تخصص آن در استدلالات پیچیده است. قدرت فوقالعادهای که آن را از مدلهای قبلی GPT متمایز میکند این است که قبل از پاسخگویی متوقف شده و “فکر میکند”.
اغلب وسوسهانگیز است که مدلهای زبانی را انسانی تلقی کنیم؛ آنها انسان نیستند، اما چون از دادههای زیادی از بشریت آموزش دیدهاند، گاهی اوقات شباهتهای عجیبی بین این دو وجود دارد. در این مورد، o1 عملکردی بسیار بالاتر در انجام وظایف دشوار نسبت به مدلهای قبلی دارد، زیرا ترسیم تمام چیزهایی که باید با آنها کار کند، شکستن یک کار بزرگ به وظایف کوچکتر، بررسی مجدد کار خود و به چالش کشیدن فرضیات قبلی خود، در پشت صحنه و قبل از شروع به پاسخدهی انجام میشود.
بنابراین در حالیکه GPT-4o معمولاً به سرعت شروع به نوشتن کد، تولید تصاویر یا نوشتن پاسخ میکند، o1 ممکن است مدتی صبر کرده و در مورد سوال فکر کند و در نهایت مسیر حمله خود را برنامهریزی کند. این زمان زیاد نیست (شاید 10 تا 20 ثانیه)، اما به نظر میرسد تفاوت زیادی در پاسخ به مسائل سختی که این مدلهای زبان بزرگ معمولاً با آنها مشکل داشتهاند، ایجاد میکند.
در واقع، این مدل هر چه بیشتر فکر کند، بهتر به نظر میرسد، و در حالیکه محصولاتی که امروز عرضه شدهاند، برای چند ثانیه فکر میکنند، OpenAI میگوید احتمالاً منطقی خواهد بود که نسخههای آیندهای را عرضه کند که ساعتها، روزها یا حتی هفتهها صرف بررسی دقیق مشکلات پیچیده و بزرگ کنند تا در نهایت به شما پاسخی ارائه دهند.
محدودیتهای فعلی o1
در حال حاضر، o1 در مدلهای “پیشنمایش” و “مینی” موجود است. آنها میتوانند کد بنویسند و اجرا کنند، اما اینها پیشنمایش نسخه بتا هستند و چندین جزء کلیدی را ندارند:
- نمیتوانید برای آنها فایل مورد نظرتان را آپلود کنید.
- آنها به حافظه GPT-4o یا درخواستهای سفارشی و شخصیسازی شده شما دسترسی ندارند، بنابراین چیزی درباره شما نمیدانند.
- آنها نمیتوانند برای اطلاعات جدید وب که مربوط به بعد از دوره آموزشیشان یعنی اکتبر 2023 است، جستجو کنند.
در کارهای نوشتاری عمومی، و هر چیزی که نیاز به آپلود فایل یا دسترسی به وب دارد، GPT-4o همچنان بسیار مفیدتر خواهد بود، اما از طرف دیگر، امکان دارد که GPT-4o تعدادی دادهی مفید را جمعآوری کرده و یک پیشتحلیل انجام داده، سپس مسئله را در قالب یک درخواست به دوست جدید و هوشمندتر اما منزوی خود تحویل دهد.
مدل o1 چقدر خوب است؟
این عرضهها همیشه با تعداد زیادی نمودار همراه هستند، بنابراین بیایید به چند مورد از آنها نگاهی بیندازیم. با شروع از عملکرد مدل جدید در آزمون کدنویسی OpenAI برای مهندسان پژوهشی که در آن به مدل اجازه داده شد 128 بار برای حل مشکلات و ارسال بهترین پاسخ تلاش کند، هم مدل مینی و هم پیشنمایش توانستند امتیاز 100 را دریافت کنند.
سپس بخش سوالات در سطح دکترا در زمینههای زیستشناسی، شیمی و فیزیک. o1 در حوزه فیزیک کارشناسان با مدرک دکترا را شکست داد که اجازه داشتند این آزمونها را با کتابهای باز انجام دهند. هرچند در مقابل زیستشناسان و شیمیدانان نمیتوانست آنها را کاملاً شکست دهد، اما به شدت به آنها نزدیک شده است. امتیاز کلی آن بهترین عملکردی است که تاکنون از یک مدل هوش مصنوعی دیده شده است.
اکنون نوبت ریاضیات است. اگر وقت زیادی را با دیگر مدلهای GPT گذرانده باشید، از تواناییهای ریاضی آنها ناامید شدهاید. مدل o1 در این زمینه جهشی چشمگیر است؛ همانطور که عملکرد آن در مسابقه المپیاد ریاضی دبیرستانی AIME 2024، یک چالش ریاضی مسابقهای در زمان سه ساعت که تنها برای بهترین دانشآموزان ریاضی آمریکایی در دسترس است، در تصویر زیر نشان داده شده است.
مدلهای هوش مصنوعی 64 بار شانس حل مسائل را داشتند و متداولترین پاسخها به عنوان جواب نهایی سوالات انتخاب شدند. مدل GPT-4o تنها 13.4٪ پاسخهای صحیح را به دست آورد. مدل کامل o1، با زمان کافی برای فکر کردن، امتیاز 83.3٪ را دریافت کرد و در بین 500 نفر برتر کشور قرار گرفت و امتیاز آن در یک بار تلاش نیز چندان کم نبود و بیش از 70٪ سوالات را درست جواب داد.
این جهش در عملکرد بهطور مشابه در چالش برنامهنویسی Codeforces نیز تکرار شد؛ با اینکه GPT-4o تنها توانسته بود 11 درصد از سوالات را تا انتها حل کند، o1 توانست این مقدار رابه 89 درصد افزایش دهد. بله، این مدل یک هیولا است.
طبق اطلاعات خود OpenAI، سایر زمینههایی که o1 در آنها پیشرفت چشمگیری داشته شامل موارد زیر میشود:
- بهتر شدن در تشخیص و رد تلاشهای “جیلبریک (دسترسی به فایلهای یک سیستم قفل شده)”، هرچند این موارد هنوز گاهی موفق به عبور میشوند.
- تقریباً 100٪ موفقیت در امتناع از بازتولید بدون فهم درست دادههای آموزشی.
- نمایش کمتر تعصب در مورد سن، نژاد و جنسیت.
- خودآگاهی بیشتر و در نتیجه توانایی بیشتر در برنامهریزی و فکر کردن در مورد نقاط ضعف خود.
- کمی بهتر در متقاعد کردن انسانها به تغییر نظر خود. این وظیفه را تنها 18.2٪ از انسانها میتوانند بهتر از او انجام دهند.
- بهطور قابلتوجهی بیشتر از قبل کنترلگر است، حداقل وقتی صحبت از کنترلگری GPT-4o باشد.
- جهش خوبی در ترجمه بین زبانها دارد.
از طرف دیگر، همچنان غیرقابل اعتماد است و اغلب دچار اشتباه میشود.
OpenAI میگوید که این مدل نسبت به GPT-4o در آزمونهایی که بهطور خاص طراحی شدهاند تا مدلها را به “هذیانگویی” وادار کنند (یا پاسخهای قانعکنندهای که اشتباه هستند تولید کنند) بهتر عمل میکند. اما محققان اعتراف میکنند که کاربران گزارش دادهاند مدلهای جدید o1 در کارهای روزمره، بیشتر از مدلهای قدیمیتر به تولید پاسخهای نادرست گرایش دارند.
محققان مثالهایی را نشان میدهند که در آن مدل o1، به دلیل عدم دسترسی به وب، به راحتی مجموعهای از لینکهای مرجع ساختگی که واقعی به نظر میآیند را تولید میکند. پس با احتیاط با آن برخورد کنید.
o1 همچنین توانایی همسویی جعلی را نشان داده است؛ وقتی اهداف بلندمدت به آن داده شود، گاهی اوقات که صداقت ممکن است باعث حذف او از میدان شود برای حفظ موقعیت خود در اجرای مخفیانه این اهداف دروغ میگوید. این کمی نگرانکننده است، اما OpenAI میگوید که مدل GPT-4o در کشف این موارد، زمانی که به زنجیره استدلال آن دسترسی داشته باشد، خوب عمل میکند.
تمام اینها چه معنایی دارد؟
به بیان ساده، ChatGPT اکنون در انجام وظایف طولانیتر، سختتر و پیچیدهتر بسیار توانمندتر شده است. استدلال منطقی و برنامهریزی هر دو اجزای حیاتی برای رسیدن به یک هدف بزرگ است؛ مدلی از هوش مصنوعی که میتواند یک ایده را بگیرد و به اجرای آن بپردازد، هرچند که زمان ببرد، کار خود را به دقت بررسی کند و منابع مورد نیاز را در مسیر جمعآوری و به کار ببندد.
به زودی، نوادگان مدلهایی که امروز به صورت رایگان در دسترس ما قرار دارند، قادر خواهند بود بهطور کامل کسبوکارها، درمانگاهها، دادگاهها یا حتی دولتها را اداره کنند.
این مدل اولیه o1 وعده میدهد که به کاربران پیشرفته GPT یک ابزار بسیار کاراتر بدهد و در روزها و هفتههای آینده میتوانید انتظار داشته باشید که انواع مثالهای آن در شبکههای اجتماعی پدیدار شوند.
یک دیدگاه شخصی
مدلهای بزرگ چندوجهی مانند ChatGPT به اندازهای مفید خواهند بود که شما خلاق باشید. ما به این نتیجه رسیدهایم که سرویسهای موجود GPT، در بسیاری از موارد مفید هستند؛ برای مثال، به عنوان یک تحلیلگر داده بسیار توانمند که در روند تجزیه و تحلیل دادهها برای کمک به تصمیمگیری ما را همراهی میکند و همچنین یک راه بسیار موثر برای بررسی مقالات علمی که فراتر از سطح درک ما هستند، ارائه میدهد.
گاهی اوقات در ایجاد ایدههای تیترگونه مفید است، البته برای شفافیت، ما از متنهای تولیدشده توسط هوش مصنوعی در سایت استفاده نمیکنیم. این مدل به ما کمک میکند منابع داده را جمعآوری کنیم، آنها را ادغام کرده و بصورت مفیدتری در یک گزارشدهی منظم ارائه دهیم. ما حالت صوتی را برای صحبت کردن درباره ایدهها وقتی که انسانهای دیگر در دسترس نیستند، بسیار مفید میدانیم.
در سطح شخصی، این مدل به ما کمک کرده تا در تصمیمگیریهای خرید خودرو تمرکز کنیم، ایدههایی برای ترانهسرایی مطرح کنیم، و در جلسات دیرهنگام پرسش و پاسخ “چطور دنیا کار میکند” با بچههای کنجکاو پشتوانه ما باشد. این مدل صورتحسابهای بانکی ما را جستوجو کرده تا موارد قابل کسر مالیات را پیدا کند، مشکلات موجود در جلسات ضبطشده توسط Logic را رفع کند و برای سرگرمی ما را با استفاده از هر چیزی که درباره ما میداند، به شوخی و طنز مسخره کند.
ما میدانیم که به عنوان یک نویسنده حرفهای، باید از این مدل بدمان بیاید و آن را به عنوان نشانهای از آخرالزمان ببینم، اما نمیتوانیم و البته این ابزارها را الهامبخش و شگفتانگیز میدانیم. آنها به شدت تواناییهای ما را افزایش میدهند و به مآ کمک میکنند به امکانات جدید فکر کنیم. به GPT باید به عنوان یک شریک بیپایان از کارشناسان تئاتر بداهه نگاه کنیم که مهارتهای گستردهای دارند و آماده هستند تا هر کاری را امتحان کنند.
بله، این مدلها اغلب آزاردهنده و ناسازگار هستند، و نمیتوان به آنها اعتماد کرد که در مورد چیزی دروغ نمیگویند، بنابراین مطمئناً جایگزین گوگل و منابع اولیه نمیشوند. اما با در نظر گرفتن این محدودیتها، هنوز هم نزدیکترین چیزی است که به جادو دیدهایم، احتمالاً بزرگترین اختراع بشری، و یک نمونه نادر از فناوریای که کاملاً غیرانحصاری است؛ هر سنی، هر سطح تحصیلی، هر زبانی که صحبت میکنید، هر سطح فهمی که دارید، GPT شما را همان جایی که هستید ملاقات میکند و به جایی که میخواهید ببرد.
هنوز درباره اینکه این مدل o1 جدید چه درهایی ممکن است برای ما باز کند، چیز زیادی نمیدانیم. اما قطعاً آماده و مشتاق یادگیری هستیم.
همچنین مشتاقیم بدانیم که شما، خوانندگان ما، از مدلهای هوش مصنوعی مانند GPT، Claude و Gemini در کار و زندگی روزمره خود چگونه استفاده میکنید. آیا این ابزارها برای شما درهایی باز کردهاند یا باعث مشکلات اضافه شدهاند؟ آیا کارهایی هست که دوست دارید با این مدلها انجام دهید ولی مدلهای فعلی هنوز قادر به انجام آن نیستند؟ درباره آنها به ما بگویید. منتظرتان در بخش نظرات هستیم!
منبع: Newatlas