پربازدید ترین‌های هفته

دلیل وجود وزنه‌ها روی خطوط برق برای چیست؟

این گوشی‌های شیائومی آپدیت HyperOS 3.1 را دریافت نمی‌کنند [لیست کامل]

شیائومی قفل هوشمند Self-Install را معرفی کرد

نقشه راه بازی Arc Raiders برای سال ۲۰۲۶ منتشر شد

پلی استیشن ۶ ممکن است دیرتر از حد انتظار روانه بازار شود!

آموزش

۵ تنظیم کلیدی برای افزایش طول عمر باتری گوشی‌های اندرویدی

آپدیت HyperOS 3 باعث از کار افتادن گوشی‌های شیائومی با رام جعلی می‌شود [راه حل رفع مشکل]

این ۵ برنامه‌ می‌توانند جان تازه‌ای به کامپیوتر قدیمی شما ببخشند!

فقط عکس نگیرید! ۵ کاربرد جذاب دوربین گوشی‌های گلکسی سامسونگ!

این اپلیکیشن به شما می‌گوید باتری گوشی شما احتمالاً چه زمانی از کار می‌افتد!

خانه » فناوری » هوش مصنوعی » هوش مصنوعی وال ای (VALL-E) در عرض 3 ثانیه صدای هر کسی را تقلید می‌کند

هوش مصنوعی

هوش مصنوعی وال ای (VALL-E) در عرض 3 ثانیه صدای هر کسی را تقلید می‌کند

سعید قاسمی

اشتراک‌گذاری:

مایکروسافت یک هوش مصنوعی جدید را رونمایی کرده که می‌تواند صدای هر انسانی را تقلید کند. این الگوریتم وال ای (VALL-E) نامیده می‌شود، درست مانند الگوریتم قبلی دال ای (DALL-E). برای یادآوری، هوش مصنوعی دال ای، یک تصویر را بر اساس یک متن ایجاد می‌کند.

✅ این مطلب جذاب را از دست ندهید؛ فقط عکس نگیرید! ۵ کاربرد جذاب دوربین گوشی‌های گلکسی سامسونگ! 🚀

وال ای می‌تواند با گوش دادن به صدای یک شخص واقعی در عرض سه ثانیه، صدا و نحوه گفتار او را تقلید کند. اگرچه صدا کمی شبیه صدای یک ربات است، اما نتیجه همچنان چشمگیر است.

مایکروسافت این هوش مصنوعی را یک “مدل زبان کدک عصبی (neural codec language model)” نامیده است. وال ای بر اساس EnCodec (یک کدک صوتی با استفاده از تکنیک‌های یادگیری ماشین) ساخته شده است. این هوش مصنوعی یک سال پیش در سال 2022، توسط متا (Meta) توسعه یافت.

سایر روش‌های تبدیل متن به گفتار، شکل موج‌ها را در نظر می‌گیرند. اما وال ای کدک‌های صوتی مجزا از متن و صدا را تولید می‌کند. در واقع این هوش مصنوعی، نحوه صدای یک فرد را تجزیه و تحلیل کرده و سپس آن اطلاعات را از طریق EnCodec به بخش‌های جداگانه (به نام توکن‌ها (token)) تقسیم می‌کند. در پایان نیز، از داده‌های آموزشی استفاده کرده تا با آنچه که در مورد چگونگی آن صدا یاد گرفته، عبارات دیگری را خارج از نمونه سه ثانیه‌ای بیان و مطابقت دهد.

وال ای با استفاده از یک کتابخانه ویژه آموزش داده شده است. این آموزش شامل 60000 ساعت سخنرانی انگلیسی از بیش از 7000 نفر است. توسعه‌دهندگان پیشنهاد می‌کنند که این روش می‌تواند برای برنامه‌های کاربردی تبدیل متن به گفتار با کیفیت بالا استفاده شود. به عنوان مثال، می‌توانید از آن برای ویرایش ضبط‌های گفتاری استفاده کنید که در آن کلمات انسانی مجاز به تغییر هستند. در نتیجه، می‌توانید محتوای صوتی (مانند صداگذاری برای کتاب‌های صوتی) و موارد دیگر را ایجاد کنید.

البته، چنین فناوری می‌تواند خطر خاصی را نیز به همراه داشته باشد. دیر یا زود، برخی از کاربران، آن را به یک ابزار باج‌خواهی تبدیل خواهند کرد. به عنوان مثال آن‌ها می‌توانند از هوش مصنوعی برای اثبات اینکه افراد مشهور چیزی گفته‌ یا نگفته‌اند استفاده کنند. قبلاً چنین مواردی با دیپ‌فیک در قالب ویدیو وجود داشته است.

منبع: Gizchina