جستجو
Close this search box.
جستجو
Close this search box.
متفکر؛ مدل جدید o1 هوش مصنوعی ChatGPT، پیش از پاسخگویی فکر می‌کند!

متفکر؛ مدل جدید o1 هوش مصنوعی ChatGPT، پیش از پاسخگویی فکر می‌کند!

اشتراک‌گذاری:

جدیدترین نسخه تحول‌آفرین OpenAI معرفی شد. مدل جدید o1 که اکنون در ChatGPT در دسترس است، پیش از پاسخگویی “فکر می‌کند” و شروع به شکست دادن مدل‌های قبلی و حتی انسان‌هایی با مدرک دکترا در حل مسائل کارشناسانه کرده است!

ظاهراً تا اینجای کار OpenAI به ما کمی فرصت برای نفس کشیدن داده بود، نه؟ یعنی زمانی که GPT-4o و حالت پیشرفته صوتی‌اش (که هنوز به صورت عمومی در دسترس نیست) در ماه می معرفی شدند، واقعاً آن‌ها بیشتر شبیه به پیشرفت‌های کوچکی به نظر می‌رسیدند. مولد متن به ویدئو Sora که در فوریه عرضه شد واقعاً باعث تعجب مردم شد، اما هنوز به‌صورت عمومی در دسترس نیست، اگرچه چندین رقیب چینی اکنون به نظر می‌رسد کیفیت مشابهی را ارائه می‌دهند.

همه جور حدس و گمان‌هایی درباره اینکه GPT-5 چه شکلی خواهد بود، چه زمانی عرضه می‌شود، و اینکه آیا به نوعی هوش مصنوعی عمومی (AGI) رسیده یا نه، وجود داشته است. اما OpenAI اکنون جهت دیگری را پیش گرفت و مدلی جدید را از سلسله GPT جدا کرد!

جالب اینکه، مدل o1 هیچ بهبودی در توانایی‌های نوشتاری زبان انگلیسی نسبت به GPT-4o ارائه نمی‌دهد.

معرفی o1: متفکر!

مدل جدید، o1 نام دارد. این مدل اکنون به عنوان یک گزینه در 100٪ حساب‌های کاربری ChatGPT فعال شده است. در حالیکه GPT-4o (اومنی) همچنان مدل همه‌کاره‌ای بوده که برای بیشتر وظایف کاربردی است، o1 را می‌توان متخصص نامید!

تخصص آن در استدلالات پیچیده است. قدرت فوق‌العاده‌ای که آن را از مدل‌های قبلی GPT متمایز می‌کند این است که قبل از پاسخگویی متوقف شده و “فکر می‌کند”.

اغلب وسوسه‌انگیز است که مدل‌های زبانی را انسانی تلقی کنیم؛ آن‌ها انسان نیستند، اما چون از داده‌های زیادی از بشریت آموزش دیده‌اند، گاهی اوقات شباهت‌های عجیبی بین این دو وجود دارد. در این مورد، o1 عملکردی بسیار بالاتر در انجام وظایف دشوار نسبت به مدل‌های قبلی دارد، زیرا ترسیم تمام چیزهایی که باید با آن‌ها کار کند، شکستن یک کار بزرگ به وظایف کوچک‌تر، بررسی مجدد کار خود و به چالش کشیدن فرضیات قبلی خود، در پشت صحنه و قبل از شروع به پاسخ‌دهی انجام می‌شود.

بنابراین در حالیکه GPT-4o معمولاً به سرعت شروع به نوشتن کد، تولید تصاویر یا نوشتن پاسخ می‌کند، o1 ممکن است مدتی صبر کرده و در مورد سوال فکر کند و در نهایت مسیر حمله خود را برنامه‌ریزی کند. این زمان زیاد نیست (شاید 10 تا 20 ثانیه)، اما به نظر می‌رسد تفاوت زیادی در پاسخ به مسائل سختی که این مدل‌های زبان بزرگ معمولاً با آن‌ها مشکل داشته‌اند، ایجاد می‌کند.

در واقع، این مدل هر چه بیشتر فکر کند، بهتر به نظر می‌رسد، و در حالیکه محصولاتی که امروز عرضه شده‌اند، برای چند ثانیه فکر می‌کنند، OpenAI می‌گوید احتمالاً منطقی خواهد بود که نسخه‌های آینده‌ای را عرضه کند که ساعت‌ها، روزها یا حتی هفته‌ها صرف بررسی دقیق مشکلات پیچیده و بزرگ کنند تا در نهایت به شما پاسخی ارائه دهند.

متفکر: ChatGPT با یک ارتقاء جدی در عملکرد روبرو می‌شود!

محدودیت‌های فعلی o1

در حال حاضر، o1 در مدل‌های “پیش‌نمایش” و “مینی” موجود است. آن‌ها می‌توانند کد بنویسند و اجرا کنند، اما این‌ها پیش‌نمایش نسخه بتا هستند و چندین جزء کلیدی را ندارند:

  • نمی‌توانید برای آن‌ها فایل مورد نظرتان را آپلود کنید.
  • آن‌ها به حافظه GPT-4o یا درخواست‌های سفارشی و شخصی‌سازی شده شما دسترسی ندارند، بنابراین چیزی درباره شما نمی‌دانند.
  • آن‌ها نمی‌توانند برای اطلاعات جدید وب که مربوط به بعد از دوره آموزشی‌شان یعنی اکتبر 2023 است، جستجو کنند.

در کارهای نوشتاری عمومی، و هر چیزی که نیاز به آپلود فایل یا دسترسی به وب دارد، GPT-4o همچنان بسیار مفیدتر خواهد بود، اما از طرف دیگر، امکان دارد که GPT-4o تعدادی داده‌ی مفید را جمع‌آوری کرده و یک پیش‌تحلیل انجام داده، سپس مسئله را در قالب یک درخواست به دوست جدید و هوشمندتر اما منزوی خود تحویل دهد.

مدل o1 چقدر خوب است؟

این عرضه‌ها همیشه با تعداد زیادی نمودار همراه هستند، بنابراین بیایید به چند مورد از آن‌ها نگاهی بیندازیم. با شروع از عملکرد مدل جدید در آزمون کدنویسی OpenAI برای مهندسان پژوهشی که در آن به مدل اجازه داده شد 128 بار برای حل مشکلات و ارسال بهترین پاسخ‌ تلاش کند، هم مدل‌ مینی و هم پیش‌نمایش توانستند امتیاز 100 را دریافت کنند.

سپس بخش سوالات در سطح دکترا در زمینه‌های زیست‌شناسی، شیمی و فیزیک. o1 در حوزه فیزیک کارشناسان با مدرک دکترا را شکست داد که اجازه داشتند این آزمون‌ها را با کتاب‌های باز انجام دهند. هرچند در مقابل زیست‌شناسان و شیمیدانان نمی‌توانست آن‌ها را کاملاً شکست دهد، اما به شدت به آن‌ها نزدیک شده است. امتیاز کلی آن بهترین عملکردی است که تاکنون از یک مدل هوش مصنوعی دیده شده است.

اکنون نوبت ریاضیات است. اگر وقت زیادی را با دیگر مدل‌های GPT گذرانده باشید، از توانایی‌های ریاضی آن‌ها ناامید شده‌اید. مدل o1 در این زمینه جهشی چشمگیر است؛ همانطور که عملکرد آن در مسابقه المپیاد ریاضی دبیرستانی AIME 2024، یک چالش ریاضی مسابقه‌ای در زمان سه ساعت که تنها برای بهترین دانش‌آموزان ریاضی آمریکایی در دسترس است، در تصویر زیر نشان داده شده است.

مدل‌های هوش مصنوعی 64 بار شانس حل مسائل را داشتند و متداول‌ترین پاسخ‌ها به عنوان جواب نهایی سوالات انتخاب شدند. مدل GPT-4o تنها 13.4٪ پاسخ‌های صحیح را به دست آورد. مدل کامل o1، با زمان کافی برای فکر کردن، امتیاز 83.3٪ را دریافت کرد و در بین 500 نفر برتر کشور قرار گرفت و امتیاز آن در یک بار تلاش نیز چندان کم نبود و بیش از 70٪ سوالات را درست جواب داد.

متفکر: ChatGPT با یک ارتقاء جدی در عملکرد روبرو می‌شود!

این جهش در عملکرد به‌طور مشابه در چالش برنامه‌نویسی Codeforces نیز تکرار شد؛ با اینکه GPT-4o تنها توانسته بود 11 درصد از سوالات را تا انتها حل کند، o1 توانست این مقدار رابه 89 درصد افزایش دهد. بله، این مدل یک هیولا است.

طبق اطلاعات خود OpenAI، سایر زمینه‌هایی که o1 در آن‌ها پیشرفت چشمگیری داشته شامل موارد زیر می‌شود:

  • بهتر شدن در تشخیص و رد تلاش‌های “جیل‌بریک (دسترسی به فایل‌های یک سیستم قفل شده)”، هرچند این موارد هنوز گاهی موفق به عبور می‌شوند.
  • تقریباً 100٪ موفقیت در امتناع از بازتولید بدون فهم درست داده‌های آموزشی.
  • نمایش کمتر تعصب در مورد سن، نژاد و جنسیت.
  • خودآگاهی بیشتر و در نتیجه توانایی بیشتر در برنامه‌ریزی و فکر کردن در مورد نقاط ضعف خود.
  • کمی بهتر در متقاعد کردن انسان‌ها به تغییر نظر خود. این وظیفه‌ را تنها 18.2٪ از انسان‌ها می‌توانند بهتر از او انجام دهند.
  • به‌طور قابل‌توجهی بیشتر از قبل کنترل‌گر است، حداقل وقتی صحبت از کنترل‌گری GPT-4o باشد.
  • جهش خوبی در ترجمه بین زبان‌ها دارد.

از طرف دیگر، همچنان غیرقابل اعتماد است و اغلب دچار اشتباه ‌می‌شود.

OpenAI می‌گوید که این مدل نسبت به GPT-4o در آزمون‌هایی که به‌طور خاص طراحی شده‌اند تا مدل‌ها را به “هذیان‌گویی” وادار کنند (یا پاسخ‌های قانع‌کننده‌ای که اشتباه هستند تولید کنند) بهتر عمل می‌کند. اما محققان اعتراف می‌کنند که کاربران گزارش داده‌اند مدل‌های جدید o1 در کارهای روزمره، بیشتر از مدل‌های قدیمی‌تر به تولید پاسخ‌های نادرست گرایش دارند.

محققان مثال‌هایی را نشان می‌دهند که در آن مدل o1، به دلیل عدم دسترسی به وب، به راحتی مجموعه‌ای از لینک‌های مرجع ساختگی که واقعی به نظر می‌آیند را تولید می‌کند. پس با احتیاط با آن برخورد کنید.

o1 همچنین توانایی هم‌سویی جعلی را نشان داده است؛ وقتی اهداف بلندمدت به آن داده شود، گاهی اوقات که صداقت ممکن است باعث حذف او از میدان شود برای حفظ موقعیت خود در اجرای مخفیانه این اهداف دروغ می‌گوید. این کمی نگران‌کننده است، اما OpenAI می‌گوید که مدل GPT-4o در کشف این موارد، زمانی که به زنجیره استدلال آن دسترسی داشته باشد، خوب عمل می‌کند.

تمام این‌ها چه معنایی دارد؟

به بیان ساده، ChatGPT اکنون در انجام وظایف طولانی‌تر، سخت‌تر و پیچیده‌تر بسیار توانمندتر شده است. استدلال منطقی و برنامه‌ریزی هر دو اجزای حیاتی برای رسیدن به یک هدف بزرگ است؛ مدلی از هوش مصنوعی که می‌تواند یک ایده را بگیرد و به اجرای آن بپردازد، هرچند که زمان ببرد، کار خود را به دقت بررسی کند و منابع مورد نیاز را در مسیر جمع‌آوری و به کار ببندد.

به زودی، نوادگان مدل‌هایی که امروز به صورت رایگان در دسترس ما قرار دارند، قادر خواهند بود به‌طور کامل کسب‌وکارها، درمانگاه‌ها، دادگاه‌ها یا حتی دولت‌ها را اداره کنند.

این مدل اولیه o1 وعده می‌دهد که به کاربران پیشرفته GPT یک ابزار بسیار کاراتر بدهد و در روزها و هفته‌های آینده می‌توانید انتظار داشته باشید که انواع مثال‌های آن در شبکه‌های اجتماعی پدیدار شوند.

یک دیدگاه شخصی

مدل‌های بزرگ چندوجهی مانند ChatGPT به اندازه‌ای مفید خواهند بود که شما خلاق باشید. ما به این نتیجه رسیده‌ایم که سرویس‌های موجود GPT، در بسیاری از موارد مفید هستند؛ برای مثال، به عنوان یک تحلیل‌گر داده بسیار توانمند که در روند تجزیه و تحلیل داده‌ها برای کمک به تصمیم‌گیری ما را همراهی می‌کند و همچنین یک راه بسیار موثر برای بررسی مقالات علمی که فراتر از سطح درک ما هستند، ارائه می‌دهد.

گاهی اوقات در ایجاد ایده‌های تیترگونه مفید است، البته برای شفافیت، ما از متن‌های تولیدشده توسط هوش مصنوعی در سایت استفاده نمی‌کنیم. این مدل به ما کمک می‌کند منابع داده را جمع‌آوری کنیم، آن‌ها را ادغام کرده و بصورت مفیدتری در یک گزارش‌دهی منظم ارائه دهیم. ما حالت صوتی را برای صحبت کردن درباره ایده‌ها وقتی که انسان‌های دیگر در دسترس نیستند، بسیار مفید می‌دانیم.

در سطح شخصی، این مدل به ما کمک کرده تا در تصمیم‌گیری‌های خرید خودرو تمرکز کنیم، ایده‌هایی برای ترانه‌سرایی مطرح کنیم، و در جلسات دیرهنگام پرسش و پاسخ “چطور دنیا کار می‌کند” با بچه‌های کنجکاو پشتوانه ما باشد. این مدل صورت‌حساب‌های بانکی ما را جست‌وجو کرده تا موارد قابل کسر مالیات را پیدا کند، مشکلات موجود در جلسات ضبط‌شده توسط Logic را رفع کند و برای سرگرمی ما را با استفاده از هر چیزی که درباره ما می‌داند، به شوخی و طنز مسخره کند.

ما می‌دانیم که به عنوان یک نویسنده حرفه‌ای، باید از این مدل بدمان بیاید و آن را به عنوان نشانه‌ای از آخرالزمان ببینم، اما نمی‌توانیم و البته این ابزارها را الهام‌بخش و شگفت‌انگیز می‌دانیم. آن‌ها به شدت توانایی‌های ما را افزایش می‌دهند و به مآ کمک می‌کنند به امکانات جدید فکر کنیم. به GPT باید به عنوان یک شریک بی‌پایان از کارشناسان تئاتر بداهه نگاه کنیم که مهارت‌های گسترده‌ای دارند و آماده هستند تا هر کاری را امتحان کنند.

بله، این مدل‌ها اغلب آزاردهنده و ناسازگار هستند، و نمی‌توان به آن‌ها اعتماد کرد که در مورد چیزی دروغ نمی‌گویند، بنابراین مطمئناً جایگزین گوگل و منابع اولیه نمی‌شوند. اما با در نظر گرفتن این محدودیت‌ها، هنوز هم نزدیک‌ترین چیزی است که به جادو دیده‌ایم، احتمالاً بزرگترین اختراع بشری، و یک نمونه نادر از فناوری‌ای که کاملاً غیرانحصاری است؛ هر سنی، هر سطح تحصیلی، هر زبانی که صحبت می‌کنید، هر سطح فهمی که دارید، GPT شما را همان جایی که هستید ملاقات می‌کند و به جایی که می‌خواهید ببرد.

هنوز درباره اینکه این مدل o1 جدید چه درهایی ممکن است برای ما باز کند، چیز زیادی نمی‌دانیم. اما قطعاً آماده و مشتاق یادگیری هستیم.

همچنین مشتاقیم بدانیم که شما، خوانندگان ما، از مدل‌های هوش مصنوعی مانند GPT، Claude و Gemini در کار و زندگی روزمره خود چگونه استفاده می‌کنید. آیا این ابزارها برای شما درهایی باز کرده‌اند یا باعث مشکلات اضافه شده‌اند؟ آیا کارهایی هست که دوست دارید با این مدل‌ها انجام دهید ولی مدل‌های فعلی هنوز قادر به انجام آن نیستند؟ درباره آن‌ها به ما بگویید. منتظرتان در بخش نظرات هستیم!

منبع: Newatlas

مقالات مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *