یک تیم تحقیقاتی از مؤسسه علوم پایه (IBS)، دانشگاه یونسی و مؤسسه ماکس پلانک، یک تکنیک جدید هوش مصنوعی (AI) توسعه دادهاند که بینایی ماشین را به نحوه پردازش اطلاعات بصری در مغز انسان نزدیکتر میکند. این روش که به نام Lp-Convolution شناخته میشود، دقت و کارایی سیستمهای تشخیص تصویر را افزایش میدهد و در عین حال، نیازهای محاسباتی مدلهای هوش مصنوعی سنتی را کاهش میدهد.
پل زدن بین شبکههای عصبی پیچشی (CNN) و مغز انسان
مغز انسان در شناسایی سریع ویژگیهای مهم در صحنههای بصری پیچیده برتری دارد، سطحی از کارایی که سیستمهای هوش مصنوعی متعارف برای دستیابی به آن تلاش کردهاند. شبکههای عصبی پیچشی (CNN)، که رایجترین مدلهای مورد استفاده برای تشخیص تصویر هستند، تصاویر را با استفاده از فیلترهای کوچک و مربعی شکل ثابت تجزیه و تحلیل میکنند. در حالیکه این روش تا حدی مؤثر است، طراحی آن توانایی آنها را در تشخیص الگوهای گستردهتر در دادههای تکهتکه یا متغیر محدود میکند.
اخیراً، شبکههای مبتنی بر ترانسفورمر در بینایی (ViT) با ارزیابی کل تصاویر به طور همزمان، عملکرد بهتری نسبت به CNNها داشتهاند. با این حال، موفقیت آنها به قیمت بالایی به دست میآید؛ آنها به قدرت محاسباتی عظیم و مجموعه دادههای وسیعی نیاز دارند که آنها را برای استقرار عملی و در مقیاس بزرگ کمتر عملی میسازد.
تیم تحقیقاتی با الهام از نحوه پردازش انتخابی اطلاعات توسط قشر بینایی مغز از طریق اتصالات دایرهای و پراکنده، به دنبال یک حد وسط بود: آیا یک رویکرد مغز-مانند میتواند CNNها را هم کارآمد و هم قدرتمند کند؟
معرفی LP-Convolution: روشی هوشمندتر برای دیدن
برای پاسخ به این سوال، این تیم Lp-Convolution را توسعه داد، یک روش جدید که از توزیع نرمال چندمتغیره p-تعمیمیافته (MPND) برای تغییر شکل پویای فیلترهای CNN استفاده میکند. برخلاف CNNهای سنتی که از فیلترهای مربعی ثابت استفاده میکنند، Lp-Convolution به مدلهای هوش مصنوعی اجازه میدهد تا شکل فیلترهای خود را تطبیق دهند و بر اساس وظیفه، به صورت افقی یا عمودی کشیده شوند، درست مانند اینکه مغز انسان بهطور انتخابی بر جزئیات مرتبط تمرکز میکند.
این پیشرفت، یک چالش دیرینه در تحقیقات هوش مصنوعی، معروف به مشکل هسته بزرگ را حل میکند. افزایش ساده اندازه فیلترها در CNNها (به عنوان مثال، استفاده از هستههای 7×7 یا بزرگتر) معمولاً عملکرد را بهبود نمیبخشد، علیرغم افزودن پارامترهای بیشتر. Lp-Convolution با معرفی الگوهای اتصال انعطافپذیر و الهامگرفته از زیستشناسی، بر این محدودیت غلبه میکند.
عملکرد در دنیای واقعی: هوش مصنوعی قویتر، هوشمندتر و مقاومتر
در آزمایشها بر روی مجموعه دادههای استاندارد طبقهبندی تصویر (CIFAR-100، TinyImageNet)، Lp-Convolution بهطور قابلتوجهی دقت را در هر دو مدل کلاسیک مانند AlexNet و معماریهای مدرن مانند RepLKNet بهبود بخشید. این روش همچنین در برابر دادههای خراب، که یک چالش بزرگ در کاربردهای هوش مصنوعی در دنیای واقعی است، بسیار مقاوم نشان داد.
علاوه بر این، محققان دریافتند که وقتی ماسکهای Lp استفاده شده در روش آنها شبیه توزیع گاوسی بودند، الگوهای پردازش داخلی هوش مصنوعی، همانطور که از طریق مقایسه با دادههای مغز موش تأیید شد، بهطور نزدیکی با فعالیت عصبی بیولوژیکی مطابقت داشتند.
دکتر سی. جاستین لی، مدیر مرکز شناخت و جامعهپذیری در مؤسسه علوم پایه، گفت:
ما انسانها به سرعت متوجه میشویم که چه چیزی در یک صحنه شلوغ مهم است. Lp-Convolution ما این توانایی را تقلید میکند و به هوش مصنوعی اجازه میدهد تا به طور انعطافپذیر بر مهمترین بخشهای یک تصویر، درست مانند مغز، تمرکز کند.
تاثیر و کاربردهای آینده
برخلاف تلاشهای قبلی که یا به فیلترهای کوچک و صلب متکی بودند یا به ترانسفورمرهای پرمصرف نیاز داشتند، Lp-Convolution یک جایگزین عملی و کارآمد ارائه میدهد. این نوآوری میتواند زمینههایی مانند:
- رانندگی خودکار: جایی که هوش مصنوعی باید به سرعت موانع را در زمان واقعی تشخیص دهد.
- تصویربرداری پزشکی: بهبود تشخیصهای مبتنی بر هوش مصنوعی با برجسته کردن جزئیات ظریف.
- رباتیک: فعال کردن بینایی ماشین هوشمندتر و سازگارتر در شرایط متغیر.
مدیر سی. جاستین لی گفت:
این کار یک سهم قدرتمند در هر دو زمینه هوش مصنوعی و علوم اعصاب است. با همسو کردن نزدیکتر هوش مصنوعی با مغز، ما پتانسیلهای جدیدی را برای CNNها باز کردهایم و آنها را هوشمندتر، سازگارتر و از نظر بیولوژیکی واقعگرایانهتر کردهایم.
در آینده، این تیم قصد دارد این فناوری را بیشتر اصلاح کند و کاربردهای آن را در وظایف استدلال پیچیده مانند حل معما (به عنوان مثال، سودوکو) و پردازش تصویر در زمان واقعی بررسی کند.
منبع: Scitechdaily