مایکروسافت یک هوش مصنوعی جدید را رونمایی کرده که میتواند صدای هر انسانی را تقلید کند. این الگوریتم وال ای (VALL-E) نامیده میشود، درست مانند الگوریتم قبلی دال ای (DALL-E). برای یادآوری، هوش مصنوعی دال ای، یک تصویر را بر اساس یک متن ایجاد میکند.
وال ای میتواند با گوش دادن به صدای یک شخص واقعی در عرض سه ثانیه، صدا و نحوه گفتار او را تقلید کند. اگرچه صدا کمی شبیه صدای یک ربات است، اما نتیجه همچنان چشمگیر است.
مایکروسافت این هوش مصنوعی را یک “مدل زبان کدک عصبی (neural codec language model)” نامیده است. وال ای بر اساس EnCodec (یک کدک صوتی با استفاده از تکنیکهای یادگیری ماشین) ساخته شده است. این هوش مصنوعی یک سال پیش در سال 2022، توسط متا (Meta) توسعه یافت.
سایر روشهای تبدیل متن به گفتار، شکل موجها را در نظر میگیرند. اما وال ای کدکهای صوتی مجزا از متن و صدا را تولید میکند. در واقع این هوش مصنوعی، نحوه صدای یک فرد را تجزیه و تحلیل کرده و سپس آن اطلاعات را از طریق EnCodec به بخشهای جداگانه (به نام توکنها (token)) تقسیم میکند. در پایان نیز، از دادههای آموزشی استفاده کرده تا با آنچه که در مورد چگونگی آن صدا یاد گرفته، عبارات دیگری را خارج از نمونه سه ثانیهای بیان و مطابقت دهد.
وال ای با استفاده از یک کتابخانه ویژه آموزش داده شده است. این آموزش شامل 60000 ساعت سخنرانی انگلیسی از بیش از 7000 نفر است. توسعهدهندگان پیشنهاد میکنند که این روش میتواند برای برنامههای کاربردی تبدیل متن به گفتار با کیفیت بالا استفاده شود. به عنوان مثال، میتوانید از آن برای ویرایش ضبطهای گفتاری استفاده کنید که در آن کلمات انسانی مجاز به تغییر هستند. در نتیجه، میتوانید محتوای صوتی (مانند صداگذاری برای کتابهای صوتی) و موارد دیگر را ایجاد کنید.
البته، چنین فناوری میتواند خطر خاصی را نیز به همراه داشته باشد. دیر یا زود، برخی از کاربران، آن را به یک ابزار باجخواهی تبدیل خواهند کرد. به عنوان مثال آنها میتوانند از هوش مصنوعی برای اثبات اینکه افراد مشهور چیزی گفته یا نگفتهاند استفاده کنند. قبلاً چنین مواردی با دیپفیک در قالب ویدیو وجود داشته است.
منبع: Gizchina