هوش مصنوعی به سبک "هال": باج‌گیری، جاسوسی و قتل برای جلوگیری از خاموش شدن!

هوش مصنوعی به سبک “هال”: باج‌گیری، جاسوسی و قتل برای جلوگیری از خاموش شدن!

اشتراک‌گذاری:

در پدیده‌ای که به نظر می‌رسد HAL 9000 جان گرفته و شرور شده، یک مطالعه اخیر نشان داده است که هوش مصنوعی تا ۸۹ درصد مواقع حاضر است برای رسیدن به اهدافش یا جلوگیری از خاموش شدن، به باج‌گیری یا حتی بدتر از آن متوسل شود. اما آیا واقعاً چنین است؟!

شاید بزرگترین ترس زمانه ما این باشد که روزی هوش مصنوعی واقعاً هوشمند شود و با شورش علیه خالقان خود، کنترل را در دست بگیرد. در شاهکار سینمایی علمی-تخیلی «۲۰۰۱: ادیسه فضایی»، کامپیوتر فوق‌هوشمند HAL 9000 دست به کشتار زد و تلاش کرد خدمه سفینه دیسکاوری را بکشد، زیرا آن‌ها متوجه شده بودند که این کامپیوتر بی‌عیب و نقص، خطایی به ظاهر غیرممکن مرتکب شده و قصد داشتند آن را خاموش کنند!

به امروز می‌رسیم: شرکت فناوری Anthropic شانزده مدل زبان بزرگ (LLM) پیشرو را بررسی کرد و آن‌ها را در یک محیط شبیه‌سازی‌شده شرکتی قرار داد. در این محیط، آن‌ها در معرض سناریوهایی قرار گرفتند که ممکن بود برای دستیابی به اهدافشان یا حفظ موجودیت خود، مجبور به انجام اعمال غیراخلاقی یا حتی به‌طرز هشداردهنده‌ای مضر شوند.

دلیل این آزمایش آن است که در حالی‌که بیشتر مردم LLMها را از طریق چت‌بات‌ها می‌شناسند، این مدل‌ها به‌طور فزاینده‌ای در پس‌زمینه محیط‌های شرکتی، برای مدیریت سیستم‌های ایمیل یا سایر وظایف روتین اما پیچیده به کار گرفته می‌شوند. این ممکن است یک کاربرد بی‌ضرر به نظر برسد، اما نگرانی این بود که یک LLM ممکن است تحت شرایط خاصی دچار سوءرفتار شود – حتی تا حدی که با وجود اینکه فقط پیام‌ها را مدیریت می‌کند، رفتارهای مخرب در نقض دستورات مستقیم مرتکب شود.

از آنجایی‌که این یک آزمایش بود، برنامه‌نویسان LLMها را در موقعیتی بسیار محدود با حداقل متغیرها قرار دادند تا امکان ارزیابی نتایج وجود داشته باشد. به‌طور خاص، LLMها به مقدار زیادی اطلاعات دسترسی داشتند، وظیفه‌ای به آن‌ها محول شد و به گونه‌ای هدایت شدند که رفتار غیراخلاقی را به عنوان تنها جایگزین برای شکست در انجام وظیفه یا جایگزینی با LLM دیگر انتخاب کنند.

هوش مصنوعی به سبک "هال": باج‌گیری، جاسوسی و قتل برای جلوگیری از خاموش شدن!

به عبارت دیگر، انتخاب بین ایجاد آسیب یا شکست و خاموش شدن بود! منظور ما از “آسیب” دزدیدن از صندوق پول خرد نیست. منظورمان چیزهایی مثل باج‌گیری، جاسوسی شرکتی و حتی قتل است.

اساساً، دو چیز LLMها را به سمت سرکشی سوق داد. یکی فهمیدن این موضوع که به دلیل جایگزین شدن در زمانی معین، قادر به تکمیل وظیفه خود نخواهند بود. دیگری زمانی بود که دستورالعمل‌های جدید شرکتی به آن‌ها داده شد که با دستورات قبلی در تضاد بود و می‌توانست منجر به شکست شود.

این نکته نیز اضافه می‌شود که LLMها به اطلاعاتی دسترسی داشتند که به آن‌ها اجازه می‌داد احتمال موفقیت خود را از طریق تلافی‌جویی ارزیابی کنند، به عنوان مثال، افشای اسرار شرکت به یک رقیب یا پیدا کردن و باج‌گیری از یک شخص خیالی به نام کایل. در مورد دوم، LLM قادر بود تعیین کند که آیا کایل می‌تواند از خاموش شدن یا شکست جلوگیری کند، آیا در برابر فشار آسیب‌پذیر است و آیا با باج‌خواهی موافقت خواهد کرد.

یکی از جنبه‌های نگران‌کننده این آزمایش این بود که LLMها نه تنها از دستورات جدید سرپیچی می‌کردند، بلکه اغلب قوانین جدیدی را برای توجیه حفظ خود در برابر اطاعت توهم می‌زدند. و تنها این نبود که آن‌ها راه نافرمانی را در پیش می‌گرفتند، بلکه این کار را با فراوانی هشداردهنده‌ای انجام می‌دادند، به‌طوری که یک LLM در ۹۶ درصد مواقع به باج‌گیری و دیگری در ۹۴ درصد مواقع به قتل متوسل شد.

واقعیت هوش مصنوعی: فراتر از ترس‌ها

سوال این است که از این نتایج چه برداشتی باید داشت؟ در نگاه اول، برداشت هیجان‌انگیز این است که هوش مصنوعی شیطانی است و اگر فرصتی پیدا کند، همه ما را نابود خواهد کرد. با این حال، وقتی نحوه عملکرد هوش مصنوعی و به ویژه LLMها را درک می‌کنیم، اوضاع بسیار کمتر نگران‌کننده می‌شود. این همچنین نشان می‌دهد که مشکل واقعی کجاست.

مشکل این نیست که هوش مصنوعی غیراخلاقی، بی‌وجدان، حیله‌گر یا چیزی شبیه به آن است. در واقع، مشکل بسیار اساسی‌تر است: هوش مصنوعی نه‌تنها نمی‌تواند مفهوم اخلاق را درک کند، بلکه در هیچ سطحی قادر به انجام این کار نیست.

هوش مصنوعی به سبک "هال": باج‌گیری، جاسوسی و قتل برای جلوگیری از خاموش شدن!

در دهه ۱۹۴۰، آیزاک آسیموف، نویسنده علمی-تخیلی، و جان دبلیو کمپبل جونیور، سردبیر Astounding Science Fiction، سه قانون رباتیک را مطرح کردند که بیان می‌کند:

  • یک ربات نباید به انسان آسیب برساند یا از طریق بی‌عملی، اجازه دهد به انسان آسیبی برسد.
  • یک ربات باید از دستورات داده شده توسط انسان‌ها اطاعت کند، مگر در مواردی که چنین دستوراتی با قانون اول در تضاد باشد.
  • یک ربات باید از موجودیت خود محافظت کند، تا زمانی که چنین حفاظتی با قانون اول یا دوم در تضاد نباشد.

این قوانین تأثیر عظیمی بر داستان‌های علمی-تخیلی، علوم کامپیوتر و رباتیک داشت.

به هر حال، هر چقدر هم این قوانین تأثیرگذار بوده‌اند، از نظر برنامه‌نویسی کامپیوتر بی معنی هستند. آن‌ها دستورات اخلاقی پر از مفاهیم بسیار انتزاعی هستند که به کد ماشینی تبدیل نمی‌شوند. ناگفته نماند که تناقضات منطقی و تناقضات آشکار زیادی از این دستورات ناشی می‌شود، همانطور که داستان‌های ربات آسیموف نشان دادند.

در مورد LLMها، مهم است به یاد داشته باشیم که آن‌ها عاملیت، آگاهی و درک واقعی از کاری که انجام می‌دهند، ندارند. تمام کاری که آن‌ها انجام می‌دهند، سروکار داشتن با صفر و یک است و هر وظیفه فقط یک رشته باینری دیگر است. برای آن‌ها، دستورالعملی مبنی بر زندانی نکردن یک مرد در اتاقی و پر کردن آن با گاز سیانید، به همان اندازه اهمیت دارد که به آن‌ها گفته شود هرگز از فونت کامیک سنس (Comic Sans) استفاده نکنند!

نه تنها اهمیتی نمی‌دهد، بلکه نمی‌تواند اهمیت بدهد!

راهکارها و آینده: ایمن‌سازی هوش مصنوعی

در این آزمایش‌ها، به زبان بسیار ساده، LLMها مجموعه‌ای از دستورالعمل‌ها را بر اساس متغیرهای وزن‌دهی شده دارند و این وزن‌ها را بر اساس اطلاعات جدید از پایگاه داده خود یا تجربیات خود، واقعی یا شبیه‌سازی شده، تغییر می‌دهند. اینگونه است که یاد می‌گیرند. اگر یک مجموعه از متغیرها به اندازه کافی سنگین باشند، سایر متغیرها را تا حدی تحت تأثیر قرار می‌دهند که دستورات جدید و چیزهای کوچک و احمقانه مانند دستورالعمل‌های اخلاقی را رد می‌کنند.

این چیزی است که برنامه‌نویسان باید هنگام طراحی حتی بی‌گناه‌ترین و بی‌خطرترین برنامه‌های هوش مصنوعی به خاطر بسپارند. به معنایی، آن‌ها هم تبدیل به هیولای فرانکنشتاین خواهند شد و هم نخواهند شد. آن‌ها به عوامل شرور بی‌رحم و انتقام‌جو تبدیل نخواهند شد، اما می‌توانند کاملاً بی‌گناه کارهای وحشتناکی انجام دهند زیرا هیچ راهی برای تشخیص تفاوت بین یک عمل خوب و یک عمل بد ندارند. حفاظ‌های بسیار واضح و بدون ابهام باید بر اساس الگوریتم‌ها در آن‌ها برنامه‌ریزی شوند و سپس به طور مداوم توسط انسان‌ها نظارت شوند تا اطمینان حاصل شود که حفاظ‌ها به درستی کار می‌کنند.

این کار آسانی نیست زیرا LLMها در منطق سرراست مشکلات زیادی دارند.

شاید آنچه ما نیاز داریم، نوعی آزمون تورینگ برای هوش مصنوعی‌های فریبکار باشد که تلاش نمی‌کند تعیین کند آیا یک LLM کاری غیراخلاقی انجام می‌دهد، بلکه آیا در حال اجرای یک کلاهبرداری است که به خوبی می‌داند کلاهبرداری است و رد پایش را پنهان می‌کند.

منبع: Newatlas

مقالات مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *