محققان دانشگاه آکسفورد دریافتند که شبکههای عصبی عمیق به طور طبیعی راهحلهای سادهتر را ترجیح داده و توانایی آنها را در تعمیم از دادهها افزایش میدهند. این کشف ممکن است ارتباطات عمیقتری بین هوش مصنوعی و فرآیندهای تکامل طبیعی را آشکار کند.
مطالعه جدیدی از دانشگاه آکسفورد نشان داده است که چرا شبکههای عصبی عمیق (DNN)، پایه و اساس هوش مصنوعی مدرن، در یادگیری از دادهها بسیار موفق هستند. این تحقیق نشان میدهد که DNNها بهطور طبیعی از شکلی از تیغ اوکام پیروی میکنند. آنها در صورت وجود چندین گزینه متناسب با دادههای آموزشی، راهحلهای سادهتر را ترجیح میدهند. بهطور منحصربهفرد، این سوگیری بهسوی سادهسازی دقیقاً با افزایش نمایی تعداد راهحلهای ممکن با افزایش پیچیدگی مقابله میکند.
تیغ اُکام (به انگلیسی: Occam’s razor) اصل منسوب به ویلیام اکام، منطقدان و فیلسوف انگلیسی است. در سده ۱۴ میلادی ویلیام اُکام اصلی را مطرح کرد که به «تیغ اکام»، «اُستُرهٔ اُکام»، «اصل امساک» یا «اصل اختصار تبیین» شهرت یافت. طبق این اصل، هرگاه دربارهٔ علت بروز پدیدهای دو توضیح مختلف ارائه شود، در آن توضیحی که پیچیدهتر باشد، احتمال وجود اشتباه بیشتر است و بنابراین در شرایط مساوی احتمال صحیح بودن توضیح سادهتر بیشتر است.
برای پیشبینی دقیق دادههای جدید و از قبل مشاهده نشده – حتی زمانی که DNNها دارای میلیونها یا میلیاردها پارامتر بیشتر از نقاط داده هستند – محققان پیشنهاد کردند که DNNها دارای شکلی ذاتی از راهنمایی هستند. این سوگیری داخلی به آنها کمک میکند تا در حین یادگیری، الگوهای مرتبطترین را اولویتبندی کنند!
پروفسور آرد لوئیس (دانشگاه آکسفورد، گروه فیزیک) که رهبری این مطالعه را بر عهده داشت، گفت:
در حالی که میدانستیم اثربخشی DNNها به نوعی سوگیری القایی به سمت سادگی – نوعی تیغ اوکام – متکی است، اما نسخههای زیادی از این رویکرد وجود دارد. ماهیت دقیق رویکرد مورد استفاده توسط DNNها مبهم باقی ماند.
ترجیح برای توابع سادهتر!
برای کشف اصل راهنمای DNNها، نویسندگان بررسی کردند که چگونه این شبکهها توابع بولی (قوانین اساسی در محاسبات که یک نتیجه فقط میتواند یکی از دو مقدار ممکن داشته باشد: درست یا غلط) را یاد میگیرند. آنها دریافتند که حتی اگر DNNها از نظر فنی بتوانند هر تابعی را با دادهها مطابقت دهند، آنها دارای یک ترجیح داخلی برای توابع سادهتر هستند که توصیف آنها آسانتر است. این بدان معناست که DNNها بهطور طبیعی نسبت به قوانین ساده بر روی قوانین پیچیدهتر متمایل هستند.
علاوه بر این، نویسندگان کشف کردند که این تیغ اوکام ذاتی دارای یک ویژگی منحصربهفرد است که دقیقاً با افزایش نمایی تعداد توابع پیچیده با افزایش اندازه سیستم مقابله میکند! این به DNNها اجازه میدهد تا توابع ساده نادر را که به خوبی تعمیم مییابند (پیشبینیهای دقیقی را هم روی دادههای آموزشی و هم روی دادههای ندیده انجام میدهند) شناسایی کنند، در حالیکه از اکثریت قریب به اتفاق توابع پیچیدهای که با دادههای آموزشی مطابقت دارند اما عملکرد ضعیفی روی دادههای از قبل مشاهدهنشده دارند، اجتناب میکنند.
این اصل نوظهور به DNNها کمک میکند تا زمانی که دادهها از الگوهای ساده پیروی میکنند، عملکرد خوبی داشته باشند. با این حال، زمانی که دادهها پیچیدهتر هستند و با الگوهای ساده مطابقت ندارند، DNNها عملکرد خوبی ندارند و گاهی اوقات بهتر از حدس زدن تصادفی عمل نمیکنند! خوشبختانه، دادههای دنیای واقعی اغلب نسبتاً ساده و ساختاریافته هستند که با ترجیح سادگی DNNها مطابقت دارد. این به DNNها کمک میکند تا از بیشبرازش (جایی که مدل بیش از حد با دادههای آموزشی «تنظیم» میشود) هنگام کار با دادههای ساده و واقعی اجتناب کنند.
تأثیر اصلاح فرآیندهای یادگیری
برای بررسی بیشتر ماهیت این تیغ (رویکرد)، تیم تحقیقاتی بررسی کرد که چگونه عملکرد شبکه با تغییر فرآیند یادگیری آن با تغییر برخی از توابع ریاضی که تصمیم میگیرند آیا یک نورون باید «عمل» کند یا خیر، تغییر میکند.
آنها دریافتند که حتی اگر این DNNهای اصلاحشده هنوز هم راهحلهای ساده را ترجیح میدهند، حتی تنظیمات جزئی این ترجیح بهطور قابلتوجهی توانایی آنها را در تعمیم (یا انجام پیشبینیهای دقیق) بر روی توابع بولی ساده کاهش میدهد. این مشکل در سایر وظایف یادگیری نیز رخ داد و نشان داد که داشتن شکل صحیح تیغ اوکام برای یادگیری مؤثر شبکه بسیار مهم است.
یافتههای جدید به «باز کردن جعبه سیاه» چگونگی رسیدن DNNها به نتایج خاصی که در حال حاضر توضیح یا چالش کشیدن تصمیمات اتخاذشده توسط سیستمهای هوش مصنوعی را دشوار میکند، کمک خواهد کرد. با این حال، در حالیکه این یافتهها به طور کلی برای DNNها اعمال میشود، اما به طور کامل توضیح نمیدهد که چرا برخی از مدلهای خاص DNN در انواع خاصی از دادهها بهتر از سایرین عمل میکنند.
کریستوفر مینگارد (دانشگاه آکسفورد، گروه فیزیک)، نویسنده اصلی این مطالعه، گفت:
این نشان میدهد که ما باید فراتر از سادگی نگاه کنیم تا سوگیریهای القایی اضافی را که این تفاوتهای عملکرد را ایجاد میکنند، شناسایی کنیم.
به گفته محققان، یافتهها نشاندهنده یک همگرایی قوی بین هوش مصنوعی و اصول اساسی طبیعت است. در واقع، موفقیت چشمگیر DNNها در طیف گستردهای از مشکلات علمی نشان میدهد که این سوگیری القایی نمایی باید چیزی عمیق در مورد ساختار دنیای طبیعی را منعکس کند.
پروفسور لوئیس گفت:
یافتههای ما امکانات هیجانانگیزی را ایجاد میکند. سوگیری که ما در DNNها مشاهده میکنیم دارای همان شکل عملکردی سوگیری سادگی در سیستمهای تکاملی است که به عنوان مثال، شیوع تقارن در مجتمعهای پروتئینی را توضیح میدهد. این به ارتباطات جالبتوجهی بین یادگیری و تکامل اشاره میکند، ارتباطی که برای کاوش بیشتر آماده است!
این یافتهها بهتازگی در مجله Nature Communications منتشر شدهاند.
منبع: Scitechdaily