پربازدید ترین‌های هفته

۶ مورد از جذاب‌ترین سردنده‌ها در خودروهای کلاسیک!

دسته پرو نینتندو سوییچ چقدر دوام می‌آورد؟ کاربران چه می‌گویند؟!

شایعه: Gears of War: E-Day نیمه دوم ۲۰۲۶ عرضه می‌شود؛ مایکروسافت از تقابل با GTA 6 فرار می‌کند!

شایعه جدید؛ شیائومی ۱۸ پرو با دوربین دوگانه ۲۰۰ مگاپیکسلی؟!

چقدر آب توسط ChatGPT مصرف می‌شود؟!

آموزش

این تنظیمات پیش‌فرض ویندوز، سرعت SSD شما را کمتر از حد واقعی نگه می‌دارد!

آیا خاموش کردن وای‌فای و بلوتوث واقعاً در مصرف باتری صرفه‌جویی می‌کند؟!

آیا فعال کردن حالت هواپیما باعث شارژ سریع‌تر گوشی می‌شود؟!

۵ تنظیم کلیدی برای افزایش طول عمر باتری گوشی‌های اندرویدی

آپدیت HyperOS 3 باعث از کار افتادن گوشی‌های شیائومی با رام جعلی می‌شود [راه حل رفع مشکل]

خانه » فناوری » هوش مصنوعی » این هوش مصنوعی، تصاویر دقیق خیابان‌ها را با گوش دادن به صدای محیط تولید می‌کند! [نمونه تصاویر]

هوش مصنوعی

این هوش مصنوعی، تصاویر دقیق خیابان‌ها را با گوش دادن به صدای محیط تولید می‌کند! [نمونه تصاویر]

محمدرضا خان‌آبادی

اشتراک‌گذاری:

در حالی‌که سیستم‌های هوش مصنوعی قبلاً برای تولید افکت‌های صوتی مطابق با تصاویر بی‌صدا از خیابان‌ها و مکان‌های دیگر استفاده شده‌اند، یک فناوری جدید آزمایشی، روندی معکوس را اجرا خواهد کرد؛ این فناوری تصاویر منطبق با صداهای ضبط‌شده در خیابان‌ها را با دقت شگفت‌انگیزی تولید می‌کند.

✅ این مطلب جذاب را از دست ندهید؛ فقط عکس نگیرید! آیا فعال کردن حالت هواپیما باعث شارژ سریع‌تر گوشی می‌شود؟! 🚀

این فناوری که توسط پروفسور یوهاو کانگ و همکارانش از دانشگاه تگزاس در آستین توسعه یافته، به نام “مدل انتشار صدای محیط به تصویر” شناخته می‌شود. این مدل بر روی یک مجموعه‌داده از کلیپ‌های تصویری و صوتی 10 ثانیه‌ای آموزش دیده است.

این کلیپ‌ها شامل تصاویر ثابت و صدای محیط بودند که از ویدیوهای یوتیوب مربوط به خیابان‌های شهری و روستایی در آمریکای شمالی، آسیا و اروپا ضبط شده بودند. با استفاده از الگوریتم‌های یادگیری عمیق، سیستم یاد گرفت که کدام صداها با کدام عناصر موجود در تصاویر مرتبط هستند و همچنین چه ویژگی‌های صوتی با چه محیط‌های بصری منطبق‌اند.

پس از اتمام دوره آموزش، سیستم وظیفه داشت که تنها بر اساس صدای محیط ضبط‌شده از 100 ویدیوی خیابانی دیگر، برای هر ویدیو یک تصویر تولید کند.

یک گروه از داوران انسانی در ادامه در حالی‌که به صدای ضبط‌شده ویدیو گوش می‌دادند، هر یک از این تصاویر تولیدشده را همراه با دو تصویر دیگر از خیابان‌های مختلف مشاهده کردند. وقتی از آن‌ها خواسته شد تا مشخص کنند کدام تصویر با صدای شنیده‌شده منطبق است، به‌طور متوسط 80 درصد دقت داشتند.

علاوه بر این، زمانی که تصاویر تولیدشده توسط کامپیوتر تحلیل شدند، مشخص شد که نسبت‌های نسبی آسمان باز، فضای سبز و ساختمان‌ها در این تصاویر به شدت با ویدیوهای اصلی همبستگی دارند!

حتی در بسیاری از موارد، تصاویر تولیدشده شرایط نوری و روشنایی ویدیوهای منبع را نیز منعکس می‌کردند، مانند آسمان آفتابی، ابری یا شبانه. این قابلیت ممکن است به عواملی مانند کاهش سر و صدای ترافیک در شب یا صدای حشرات شب‌زی مرتبط باشد.

اگرچه این فناوری می‌تواند در کاربردهای قضایی مانند ارائه یک ایده کلی از محل ضبط یک صدای محیطی مفید باشد، هدف اصلی این مطالعه بررسی چگونگی نقش صدا در شکل‌گیری حس ما از مکان است.

دانشمندان در مقاله‌ای که اخیراً در مجله Nature منتشر شده، اظهار داشتند:

نتایج این پژوهش می‌تواند دانش ما را درباره تأثیرات ادراکات بصری و شنیداری بر سلامت روان انسان افزایش دهد، طراحی شهری را در راستای بهبود ساخت محیط‌های مختلف هدایت کند و کیفیت کلی زندگی در جوامع را ارتقا بخشد.

منبع: Scitechdaily