هوش مصنوعی با مسئلهای بزرگ در زمینه حقیقت و دقت مواجه است و به نظر میرسد تفکر انسانی بخشی از این مشکل باشد. نسل جدیدی از هوش مصنوعی اکنون رویکردی بسیار تجربیتر را اتخاذ میکند که میتواند یادگیری ماشین را به سرعت از سطح انسانی فراتر ببرد!
به یاد دارید که AlphaGo از DeepMind چه پیشرفتی در توسعه هوش مصنوعی به ارمغان آورد؟ این یکی از نخستین هوشهای مصنوعی بازیمحور بود که بدون دستورالعمل انسانی و بدون خواندن قوانین عمل میکرد.
به جای آن، AlphaGo از روشی به نام یادگیری تقویتی از طریق خود بازیگری استفاده کرد تا قوانین بازی را درک کند. او با بهکارگیری آزمون و خطا در میلیونها، حتی میلیاردها بازی مجازی، از ابتداییترین سطح که در آن به صورت رندوم دکمهها را میفشرد، شروع کرد و با استفاده از نتایج تلاش کرد تا یاد بگیرد.
تا دو سال پس از شروع پروژه در سال 2014، AlphaGo توانست قهرمان اروپا در بازی Go را 5-0 شکست دهد و در سال 2017 بازیکن رتبه اول جهان را مغلوب کرد.
در این مرحله، DeepMind مدل مشابهی به نام AlphaZero را در دنیای شطرنج عرضه کرد، جایی که مدلهایی مانند Deep Blue که بر اساس تفکر انسانی، دانش و مجموعه قوانین آموزش دیده بودند، از دهه 90 میلادی اساتید بزرگ شطرنج را شکست میدادند. AlphaZero در 100 مسابقه مقابل قهرمان وقت، یعنی هوش مصنوعی Stockfish، بازی کرد و موفق به کسب 28 پیروزی و تساوی در باقی مسابقات شد.
تفکر انسانی هوش مصنوعی را محدود میکند
DeepMind زمانی که ایده تقلید از تفکر انسانی را کنار گذاشت و اجازه داد این مغزهای الکترونیکی به شیوهی خودشان تعامل داشته باشند و بر اساس قوتهای شناختی خود عمل کنند، توانست در بازیهای زیادی همچون shoji, Dota 2, Starcraft II تسلط کامل کسب کند.
به این ذهنهای الکترونیکی که با محدودیتهای متفاوتی نسبت به ما مواجه هستند و از استعدادهای متفاوتی بهره میبرند، آزادی لازم داده شد تا به شیوهی خودشان با مسائل تعامل داشته باشند، بر اساس نقاط قوت شناختی خود بازی کنند و از ابتدا، درکی مستقل از اینکه چه چیزی کار میکند و چه چیزی نمیکند، ایجاد کنند.
AlphaZero شطرنج را مانند مگنوس کارلسن نمیداند. هرگز چیزی درباره گامبی وزیر نشنیده و اساتید بزرگ را مطالعه نکرده است. بلکه فقط تعداد زیادی شطرنج بازی کرده و درک خود را بر اساس منطق برد و باخت ساخته است.
نتیجه؟ AlphaZero اکنون خیلی بهتر از هر مدلی که توسط انسانها آموزش دیده باشد، بازی میکند بهصورتی که دیگر هیچ انسانی و هیچ مدلی که با تفکر انسانی آموزش دیده باشد نمیتواند در بازی شطرنج با آن رقابت کند البته اگر در مدل جدید یک عامل پیشرفته یادگیری تقویتی وجود داشته باشد.
و چیزی مشابه، طبق گفته افرادی که بیش از هر کس دیگری بر روی کره زمین حقیقت را در این مورد میدانند، اکنون با جدیدترین و پیشرفتهترین نسخه ChatGPT در حال رخ دادن است.
شروع جدایی مدل جدید ChatGPT از تفکر انسانی
ChatGPT و دیگر هوشهای مصنوعی مبتنی بر مدلهای زبانی بزرگ (LLM)، مانند هوشهای مصنوعی شطرنج اولیه، بر اساس تمامی دانش انسانی موجود آموزش دیدهاند: تقریباً تمامی خروجیهای نوشتاری بشریت!
و اکنون آنها بسیار، بسیار خوب شدهاند. تمام این بحث و جدلها درباره اینکه آیا آنها به هوش مصنوعی عمومی دست خواهند یافت یا خیر… واقعاً تعجبآور است، آیا میتوانید یک انسان را تصور کنید که بتواند با GPT-4o در گستره قابلیتهای آن رقابت کند؟
اما مدلهای زبانی بزرگ در زبان تخصص دارند، نه در درست یا نادرست بودن اطلاعات. به همین دلیل است که آنها گاهی “توهم” میزنند و اطلاعاتی غلط در جملاتی زیبا و با اعتماد به نفسی مانند گویندگان خبر ارائه میدهند.
زبان، مجموعهای از مناطق خاکستری و عجیب است که به ندرت پاسخی وجود دارد که 100٪ درست یا غلط باشد، بنابراین مدلهای زبانی بزرگ معمولاً با استفاده از یادگیری تقویتی همراه با بازخورد انسانی آموزش داده میشوند. به این معنا که انسانها انتخاب میکنند کدام پاسخ به آنچه مدنظرشان است نزدیکتر است. اما حقایق، آزمونها و کدنویسی اینها شرایط موفقیت/شکست روشنی دارند؛ یا درست جواب دادهاید یا نه.
و اینجاست که مدل جدید o1 شروع به جدا شدن از تفکر انسانی کرده و رویکرد آزمون و خطای خالص و بسیار مؤثر AlphaGo را برای دستیابی به نتایج درست وارد میکند.
گامهای ابتدایی o1 در یادگیری تقویتی
در بسیاری از جهات، مدل o1 تقریباً شبیه به مدلهای پیشین خود است، با این تفاوت که OpenAI مدتی برای “تفکر” قبل از پاسخگویی به درخواستها به آن اختصاص داده است. در طول این زمان، o1 یک “زنجیره فکری” ایجاد میکند که طی آن به بررسی و استدلال درباره یک مسئله میپردازد.
اینجاست که رویکرد یادگیری تقویتی (RL) وارد عمل میشود و برخلاف مدلهای قبلی که بیشتر شبیه پیشرفتهترین سیستمهای تکمیل خودکار جمله در جهان بودند، o1 واقعاً به درست یا نادرست بودن پاسخها اهمیت میدهد. در بخشی از فرآیند آموزش، به این مدل آزادی داده شد تا با استفاده از روش آزمون و خطای تصادفی در زنجیره فکری خود به مسائل نزدیک شود.
این مدل همچنان از مراحل استدلال تولید شده توسط انسانها استفاده میکرد، اما این امکان را داشت تا آنها را بهصورت تصادفی اعمال کرده و نتیجهگیریهای خود را درباره اینکه کدام مراحل و به چه ترتیبی به پاسخ درست منجر میشود، انجام دهد.
از این منظر، o1 اولین مدل زبانی بزرگ (LLM) است که واقعاً شروع به ایجاد نوعی درک عجیب اما بسیار مؤثر به سبک AlphaGo از فضای مسائل میکند. این مدل در حوزههایی که اکنون از نظر قابلیتها و دانش، سطح دکترای تخصصی را پشت سر گذاشته است، بهطور اساسی از طریق آزمون و خطا و یافتن تصادفی پاسخهای درست در میلیونها تلاش خود به این موفقیت دست یافته و نظریههای خود را درباره اینکه کدام مرحله استدلال مفید است و کدام نیست، ساخته است.
بنابراین، در موضوعاتی که پاسخ درست و غلط واضحی دارند، اکنون شاهد این هستیم که این هوش بیگانه اولین گامها را برای پیشی گرفتن از ما به تنهایی برداشته است. اگر دنیای بازیها مثالی مناسب برای زندگی واقعی باشد، دوستان، میدانیم که از اینجا به بعد چه خواهد شد. این یک دونده است که با داشتن انرژی کافی، بینهایت سرعت خواهد گرفت.
اما مدل o1 همچنان در درجه اول بر اساس زبان انسانی آموزش داده شده است و این بسیار متفاوت از حقیقت است زیرا زبان یک نمای خام و با وضوح پایین از واقعیت را شامل میشود. به این شکل فکر کنید: شما میتوانید یک بیسکویت را تمام روز برای من توصیف کنید، اما تا زمانی که آن را نچشیده باشم، طعمش را نمیدانم!
بنابراین، چه اتفاقی میافتد زمانی که از توصیف حقیقت دنیای فیزیکی دست برداریم و به هوشهای مصنوعی اجازه دهیم که خودشان بیسکویتها را بخورند؟ به زودی متوجه خواهیم شد، چرا که اکنون هوشهای مصنوعی که در بدنهای رباتیک تعبیه شدهاند، شروع به ایجاد درک مستقلی از نحوه کارکرد دنیای فیزیکی کردهاند.
مسیر هوش مصنوعی به سوی حقیقت نهایی
آزادشده از تفکرات خام انسانهایی همچون نیوتن، انیشتین و هاوکینگ، هوشهای مصنوعی تجسم یافته رویکرد عجیبی به سبک AlphaGo در درک جهان خواهند داشت. آنها با واقعیت دست و پنجه نرم کرده، نتایج را مشاهده میکنند و نظریههای خود را به زبانهای خاص خودشان درباره اینکه چه چیزی درست است، چه چیزی نادرست و چرا، میسازند.
این هوشها به واقعیت مانند انسانها یا حیوانات نزدیک نخواهند شد. از روشهای علمی ما استفاده نخواهند کرد، واقعیت را به رشتههایی مثل فیزیک و شیمی تقسیم نمیکنند، و آزمایشهای مشابهی را که به انسانها کمک کرده تا به مواد، نیروها و منابع انرژی مسلط شوند، انجام نخواهند داد.
هوشهای مصنوعی تجسم یافته که آزادی یادگیری به این شکل را دارند، رفتارهایی عجیب و غریب خواهند داشت. آنها کارهایی بسیار عجیب و غیرقابل تصور انجام خواهند داد، به دلایلی که فقط برای خودشان قابل فهم است و در این فرایند دانش جدیدی خلق میکنند که انسانها هرگز قادر به جمعآوری آن نخواهند بود.
رها از زبان و تفکر ما، حتی متوجه نخواهند شد که مرزهای دانش ما را شکستهاند و به حقیقتهایی درباره جهان و فناوریهای جدید دست یافتهاند که انسانها حتی پس از میلیاردها سال نیز به آنها نخواهند رسید.
ما کمی مهلت داریم؛ این فرایند مانند آنچه در دنیای مدلهای زبانی بزرگ (LLM) اتفاق میافتد، در عرض چند روز یا چند هفته رخ نخواهد داد.
واقعیت واضحترین و بزرگترین سیستمی که میشناسیم و منبع نهایی حقیقت است. اما مقدار آن بسیار زیاد است و کار کردن با آن به طرز دردناکی کند است؛ برخلاف شبیهسازی، واقعیت از شما میخواهد که با سرعتی دردناک برابر با یک دقیقه در هر دقیقه کار کنید که در آن فقط مجاز به استفاده از بدنههایی هستید که ساختهاید.
بنابراین، هوشهای مصنوعی که سعی دارند از واقعیت اصلی یاد بگیرند، در ابتدا آن سرعت وحشیانهای که نمونههای زبانی آنها داشتند را نخواهند داشت. اما آنها همچنان سریعتر از تکامل بیولوژیکی خواهند بود. آنها همچنین قابلیت به اشتراکگذاری یادگیریهای خود میان گروههای تعاونی از طریق یادگیری خوشهای را خواهند داشت.
شرکتهایی مانند Tesla ،Figure و Sanctuary AI به شدت در تلاش هستند تا رباتهای انساننما بسازند که از نظر تجاری کاربردی و از نظر هزینه با نیروی کار انسانی رقابت کنند. اگر و زمانی که آنها به این هدف برسند، میتوانند تعداد کافی از رباتها را برای شروع یادگیری از دنیای فیزیکی به روش آزمون و خطای بنیادی، در مقیاس وسیع و با سرعت بالا، بسازند.
این رباتها باید هزینه خود را هم تأمین کنند. جالب است که تصور کنیم، این رباتهای انساننما ممکن است در وقتهای استراحت خود، به تسلط بر جهان بپردازند.
از بابت این افکار نسبتاً فلسفی و گمانهزنانه عذر میخواهیم، اما همانطور که همیشه گفتهایم، چه زمان عجیبیست برای زنده بودن و مشاهده سرانجام هوش مصنوعی!
مدل o1 از OpenAI شاید مانند یک جهش کوانتومی رو به جلو به نظر نرسد، در حالیکه در پوشش متنی ساده GPT پنهان شده است و مانند یک تایپیست نامرئی به نظر میآید. اما در واقع، این مدل گامی اساسی در توسعه هوش مصنوعی است و با یک نگاه گذرا متوجه چگونگی پیشی گرفتن این ماشینهای بیگانه از انسانها در تمامی جنبههای قابل تصور میشویم.
منبع: Newatlas