将「录音」转为「街景」图像最新AI应用打破视觉边界

2024 年 11 月 28 日

编译／安德烈

美国德州大学奥斯汀分校的一个研究团队运用生成式人工智慧（AI），将声音录音转化为街景影像，这些生成影像的显示高度具准确性，显示机器可以复制人类对环境的音讯和视觉感知之间的联系。

研究团队运用生成式人工智慧（AI），将声音录音转化为街景影像。（图／取自University of Texas at Austin）

研究方法：用声音训练AI模型

研究团队在期刊《Computers, Environmentand Urban Systems》发表的论文中，描述了他们如何透过都市与乡村的街景声音和影像数据训练AI模型。他们使用来自北美、亚洲和欧洲城市的YouTube影音资料，创建了10秒声音片段与影像静态图对，进行模型训练，让AI能从声音输入，生成高解析度的街景影像。

更多新闻：川普考虑设立白宫「AI沙皇」马斯克参与程度深

高准确度展现声景与街景的连结

在测试阶段，研究人员将100个声音片段生成的影像与真实照片进行比对。电脑分析发现，生成影像与实际照片在天空、绿地与建筑物比例上的相似度很高，尤其在天空与绿地部分的对应最为准确。此外，人类参与者在选择与来源音讯样本相对应的生成影像时，平均准确率为80%。

技术优势：模拟人类多感官经验

该研究表明，AI不仅能模拟人类透过声音想像场景的能力，还能透过声音细节呈现天气状况及建筑风格。如，交通声音或夜间昆虫的鸣叫能反映时间，而影像中的建筑样式与距离比例也与实景一致。

应用潜力：声音与影像助城市研究

研究主要作者、地理与环境助理教授Yuhao Kang表示，这项技术可应用於提升对城市独特性及人类感官经验的理解。他指出，「AI技术突破了单纯辨识物理环境的功能，进一步帮助我们探索不同地方的人类主观体验。」

声景转换的未来展望

此项研究将声音的「隐藏视觉」展现在人们面前，为声景与视景的交互研究开辟了新方向。未来，这项技术有望在地理空间、城市规划与多感官互动领域发挥更大作用，让人类对环境的理解更加立体与深入。

参考资料：techxplore

※探索职场，透视薪资行情，请参考【科技类-职缺百科】帮助你找到最适合的舞台！

将「录音」转为「街景」图像 最新AI应用打破视觉边界

研究方法：用声音训练AI模型

高准确度展现声景与街景的连结

技术优势：模拟人类多感官经验

应用潜力：声音与影像助城市研究

声景转换的未来展望

相关推荐

黄仁勳强调台积电 CoWoS 需求没减少，对产业影响深远

NVIDIA、广运、所罗门参与新创投资！MetAI 完成 400 万美元种子轮融资

Comments

热门新闻

Instagram 推出《Edits》影片编辑 App 免费预约下载进行中

Final Cut Pro 11 正式发布 带来强大 AI 工具

iOS 18 拍片加入「暂停功能」 旧 iPhone 也能用

将「录音」转为「街景」图像最新AI应用打破视觉边界