در حالیکه سیستمهای هوش مصنوعی قبلاً برای تولید افکتهای صوتی مطابق با تصاویر بیصدا از خیابانها و مکانهای دیگر استفاده شدهاند، یک فناوری جدید آزمایشی، روندی معکوس را اجرا خواهد کرد؛ این فناوری تصاویر منطبق با صداهای ضبطشده در خیابانها را با دقت شگفتانگیزی تولید میکند.
این فناوری که توسط پروفسور یوهاو کانگ و همکارانش از دانشگاه تگزاس در آستین توسعه یافته، به نام “مدل انتشار صدای محیط به تصویر” شناخته میشود. این مدل بر روی یک مجموعهداده از کلیپهای تصویری و صوتی 10 ثانیهای آموزش دیده است.
این کلیپها شامل تصاویر ثابت و صدای محیط بودند که از ویدیوهای یوتیوب مربوط به خیابانهای شهری و روستایی در آمریکای شمالی، آسیا و اروپا ضبط شده بودند. با استفاده از الگوریتمهای یادگیری عمیق، سیستم یاد گرفت که کدام صداها با کدام عناصر موجود در تصاویر مرتبط هستند و همچنین چه ویژگیهای صوتی با چه محیطهای بصری منطبقاند.
پس از اتمام دوره آموزش، سیستم وظیفه داشت که تنها بر اساس صدای محیط ضبطشده از 100 ویدیوی خیابانی دیگر، برای هر ویدیو یک تصویر تولید کند.
یک گروه از داوران انسانی در ادامه در حالیکه به صدای ضبطشده ویدیو گوش میدادند، هر یک از این تصاویر تولیدشده را همراه با دو تصویر دیگر از خیابانهای مختلف مشاهده کردند. وقتی از آنها خواسته شد تا مشخص کنند کدام تصویر با صدای شنیدهشده منطبق است، بهطور متوسط 80 درصد دقت داشتند.
علاوه بر این، زمانی که تصاویر تولیدشده توسط کامپیوتر تحلیل شدند، مشخص شد که نسبتهای نسبی آسمان باز، فضای سبز و ساختمانها در این تصاویر به شدت با ویدیوهای اصلی همبستگی دارند!
حتی در بسیاری از موارد، تصاویر تولیدشده شرایط نوری و روشنایی ویدیوهای منبع را نیز منعکس میکردند، مانند آسمان آفتابی، ابری یا شبانه. این قابلیت ممکن است به عواملی مانند کاهش سر و صدای ترافیک در شب یا صدای حشرات شبزی مرتبط باشد.
اگرچه این فناوری میتواند در کاربردهای قضایی مانند ارائه یک ایده کلی از محل ضبط یک صدای محیطی مفید باشد، هدف اصلی این مطالعه بررسی چگونگی نقش صدا در شکلگیری حس ما از مکان است.
دانشمندان در مقالهای که اخیراً در مجله Nature منتشر شده، اظهار داشتند:
نتایج این پژوهش میتواند دانش ما را درباره تأثیرات ادراکات بصری و شنیداری بر سلامت روان انسان افزایش دهد، طراحی شهری را در راستای بهبود ساخت محیطهای مختلف هدایت کند و کیفیت کلی زندگی در جوامع را ارتقا بخشد.
منبع: Scitechdaily