新闻中心

EEPW首页 > 消费电子 > 设计应用 > AI驱动的耳机通过语音克隆和3D空间音频提供群组翻译

AI驱动的耳机通过语音克隆和3D空间音频提供群组翻译

作者: 时间:2025-05-13 来源:Tech Xplore 收藏
华盛顿大学(University of Washington)的博士生陈拓超(Tuochao Chen)最近参观了墨西哥的一家博物馆。陈不会说西班牙语,所以他在手机上运行了一个翻译应用程序,并将麦克风对准导游。但即使在博物馆相对安静的地方,周围的噪音也太大了。由此产生的文本毫无用处。

最近出现了各种技术,有望实现流畅的翻译,但这些都没有解决陈的公共空间问题。例如,Meta 的新眼镜只能与隔离扬声器一起使用;他们会在说话人完成后播放自动语音翻译。

现在,Chen 和威斯康星大学的一组研究人员设计了一种系统,可以同时翻译多个扬声器,同时保留人们声音的方向和质量。该团队构建了这个名为 Spatial Speech Translation 的系统,并使用装有麦克风的现成降噪。该团队的算法将空间中的不同说话者分开,并在他们移动时跟随他们,翻译他们的语音,并以 2-4 秒的延迟播放。

华盛顿大学的研究人员设计了一种系统,可以同时翻译几个人说话,跟随他们的移动并保留他们声音的方向和质量。该团队构建了这个名为 Spatial Speech Translation 的系统,并使用配有麦克风的现成降噪耳机。图片来源:Chen et al./CHI '25
该团队于 4 月 30 日在日本横滨举行的 ACM CHI 计算系统中的人为因素会议上展示了他们的研究。概念验证设备的代码可供其他人构建。“其他翻译技术是建立在只有一个人在说话的假设之上的,”资深作者、华盛顿大学计算机科学与工程学院的教授Shyam Gollakota说。“但在现实世界中,你不能只有一个机器人声音为一个房间里的多人说话。我们第一次保留了每个人的声音及其来源。

1747106032158.png



评论


相关推荐

技术专区

关闭