متا (فیسبوک سابق) اپلیکیشن هوش مصنوعی خود را معرفی کرد. انتظار میرود که مدل تولیدکننده متن به صدای این برند، با نام Voicebox، ترکیبی از ChatGPT که پیامهای متنی را به نتایج نوشتاری دقیق پردازش میکند و Dall-E که آثار هنری واقعگرایانه را توسعه میدهد، باشد. به گفته Engadget، مدل Voicebox به نوبه خود قادر به دریافت پیامهای متنی و تولید کلیپهای صوتی خواهد بود.
با آموزش مولد جدید بر روی بیش از 50000 ساعت صدای فیلتر نشده، از جمله گفتار و رونوشتهای عمومی به زبان های انگلیسی، فرانسوی، اسپانیایی، آلمانی، لهستانی و پرتغالی، Voicebox برای ایجاد نتایج در گفتار محاورهای به زبانهای مختلف آماده است. متا همچنین مدعی است که مدل هوش مصنوعی آنها در مقایسه با مدلهای دیگر دارای یک درصد کاهش نرخ خطا است.
به گفته محققان متا، این مدل بهجای توسعه یک مجموعه از ابتدا، با پیشبینی بلوکهای گفتار در متن آموزش داده شده است. این ابزار همچنین توانایی ویرایش کلیپهای صوتی برای نویزهای ناخواسته یا کلمات اشتباه به روشی مشابه نرمافزار ویرایش تصاویر ثابت مانند فوتوشاپ را داراست.
متا اعلام کرده است که در حال حاضر به دلیل “خطرات احتمالی سوء استفاده” قصد ندارد برنامه Voicebox یا کد منبع آن را برای عموم منتشر کند. این قابل درک است زیرا اخیراً، اداره تحقیقات فدرال (FBI) هشداری در مورد استفاده روزافزون از محتوای جعلی عمیق در جنایات، از جمله اخاذی، باجگیری و آزار و اذیت صادر کرده است.
این شرکت نمونه های صوتی را همراه با مقاله تحقیقاتی خود در معرفی اپلیکیشن منتشر کرده است. متا همچنین برنامههای بالقوه آینده برای کمک به بیماران مبتلا به آسیب تارهای صوتی، NPCهای درون بازی و دستیارهای دیجیتال را شرح داده است.
متا در موقعیت جالبی قرار دارد و تلاش میکند تا با روندهای فعلی صنعت همگام شود. البته به نظر میرسد با وجود داشتن چندین مدل از هدستهای متا کوئست واقعیت مجازی، این شرکت دیگر با کاهش برنامههای خود برای توسعه کانسپت متاورس به نفع نوآوری بیشتر در هوش مصنوعی پیش نمیرود. در همین حال، اپل به تازگی اولین هدست خود با نام ویژن پرو (Vision Pro) را معرفی کرده و در حال سرمایه گذاری در واقعیت مجازی است. در حال حاضر، اپل نیز علاقه خاصی به هوش مصنوعی نشان نداده است.
منبع: Digitaltrends