将「录音」转为「街景」图像 最新AI应用打破视觉边界

编译/安德烈

美国德州大学奥斯汀分校的一个研究团队运用生成式人工智慧(AI),将声音录音转化为街景影像,这些生成影像的显示高度具准确性,显示机器可以复制人类对环境的音讯和视觉感知之间的联系。

研究团队运用生成式人工智慧(AI),将声音录音转化为街景影像。(图/取自University of Texas at Austin)

研究方法:用声音训练AI模型

研究团队在期刊《Computers, Environmentand Urban Systems》发表的论文中,描述了他们如何透过都市与乡村的街景声音和影像数据训练AI模型。他们使用来自北美、亚洲和欧洲城市的YouTube影音资料,创建了10秒声音片段与影像静态图对,进行模型训练,让AI能从声音输入,生成高解析度的街景影像。

更多新闻:川普考虑设立白宫「AI沙皇」马斯克参与程度深

高准确度展现声景与街景的连结

在测试阶段,研究人员将100个声音片段生成的影像与真实照片进行比对。电脑分析发现,生成影像与实际照片在天空、绿地与建筑物比例上的相似度很高,尤其在天空与绿地部分的对应最为准确。此外,人类参与者在选择与来源音讯样本相对应的生成影像时,平均准确率为80%。

技术优势:模拟人类多感官经验

该研究表明,AI不仅能模拟人类透过声音想像场景的能力,还能透过声音细节呈现天气状况及建筑风格。如,交通声音或夜间昆虫的鸣叫能反映时间,而影像中的建筑样式与距离比例也与实景一致。

应用潜力:声音与影像助城市研究

研究主要作者、地理与环境助理教授Yuhao Kang表示,这项技术可应用於提升对城市独特性及人类感官经验的理解。他指出,「AI技术突破了单纯辨识物理环境的功能,进一步帮助我们探索不同地方的人类主观体验。」

声景转换的未来展望

此项研究将声音的「隐藏视觉」展现在人们面前,为声景与视景的交互研究开辟了新方向。未来,这项技术有望在地理空间、城市规划与多感官互动领域发挥更大作用,让人类对环境的理解更加立体与深入。

参考资料:techxplore

※探索职场,透视薪资行情,请参考【科技类-职缺百科】帮助你找到最适合的舞台!