博客专栏

EEPW首页 > 博客 > Meta 开发 AI 语音助手,用于创建虚拟世界和实时翻译

Meta 开发 AI 语音助手,用于创建虚拟世界和实时翻译

发布人:AI科技大本营 时间:2022-03-12 来源:工程师 发布文章

编译 | 禾木木

出品 | AI科技大本营(ID:rgznai100)

Meta 在近日的「用人工智能构建元宇宙」的讨论会上,展示了最新的 AI 黑科技 「Builder Bot」 ,并且在此次会议上 Meta 公布了关于构建元宇宙的人工智能计划,其中包括通用语言翻译系统、对话 AI 系统CAIRaoke,人工智能推荐系统 TorchRec 等。


图片

Builder Bot

 在此次讨论会上,扎克伯格分享了他们正在研究一类新的生成 AI 模型,该模型将允许人们描述一个世界,人工智能自动生成它的各个方面。首次展示了用人工智能系统 Builder Bot 创建虚拟空间的过程。在元宇宙的岛屿上以 3D 化身的形式出现,并发出语音命令创建海滩等,该系统可以跟随命令更改气候,添加不同的场景。图片在这个世界里,你想要什么、去到哪里,只需要语音命令,就可以秒出。更有热点的是,Builder Bot 还可以播放不同的音乐。图片目前,Builder Bot 还在测试中,暂时还未开放,因为 Meta 也还不确定它的限制在哪。在讨论会上的另一部分是语音识别技术,Meta 表示正在研究人工智能,让人们能够与语音助手进行更自然的对话。

图片对话 AI 系统CAIRaoke

 在演示中,CAIRaoke 在一个家庭场景中起到了作用,人在煮菜时,语音助手会发出提示,警告说盐已经加到锅里了。AI 助理还注意到盐放少了,于是提示要加更多。在 Meta 发布的博客中,研究者们对 CAIRaoke 背后的技术进行了解读。CAIRaoke 减少了添加新域所需的工作。在规范方法中,扩展到新领域需要顺序构建和更改每个模块,然后才能可靠地训练下一个模块。此项技术提高了开发和训练速度,使我们能够以更少的数据微调其他模型。该公司还表示,它已在旗下的视频通话设备 Portal 中使用该模型,并期待将其集成到具有 AR 和 VR 的硬件设备中。 

图片实时翻译器

 Meta 正在开发一款通用语音翻译器,旨在创建适用于「世界上所有语言」的翻译软件。该公司此前已为其人工智能系统设定了翻译所有书面语言的目标。扎克伯格表示:“能够用任何语言与任何人交流,这是人们梦寐以求的超能力,而人工智能将在我们有生之年实现这一目标。”尽管当前的翻译工具可以很好地适用于英语、普通话、西班牙语等常用语言,但世界上大约 20% 的人口不会说这些系统所涵盖的语言。通常,这些服务不足的语言没有易于访问的书面文本语料库,这些语料库也是训练 AI 系统必需的,甚至一些语言根本没有标准化的书写系统。图片Meta 表示,它希望通过在两个特定领域部署新的机器学习技术来克服这些挑战。第一个称为 No Language Left Behind,将专注于构建可以使用更少的训练示例学习翻译语言的 AI 模型。第二个是通用语音翻译器,旨在构建直接将语音从一种语言实时翻译成另一种语言的系统,而无需书面组件作为中介(书面中介是许多翻译应用程序的常用技术)。Meta 正在构建一个新的高级 AI 模型,可以从更少的示例中进行语言学习,Meta 将使用它来实现数百种语言的专家级翻译,从阿斯图里亚斯语、卢甘达语到乌尔都语。Meta 还在构建新型通用实时语音翻译器,以支持没有标准书写系统的语言及口头语。为了支持低资源语言的翻译,并为未来更多语言的翻译创建构建块,Meta 正在扩展自身的自动数据集创建技术。一种是基于 LASER,一个是开源工具包,现在包含用 28 种不同脚本编写的超过125种语言。基于 LASER ,研究者构建了 ccMatrix 和 ccAligned 等系统,它们能够在互联网上查找不同语言的平行文本。由于低资源语言的可用数据很少,Meta 创建了一种新的训练方法,使 LASER 能够专注于特定的语言子组,例如班图语,并从更小的数据集中学习。这使得 LASER 能够跨语言大规模有效地运行,最近还将 LASER 扩展到了语音处理领域。为了提升机器翻译模型的性能,投入大量资源创建了大容量且可以高效训练的模型。通过增加模型体量和自动路径学习功能,不同的符号可以使用不同的专家能力。为了将基于文本的机器翻译模型扩展到上百种语言,Meta 提取了另一种语言为核心的多语言翻译系统,其效果甚至优于最好的双语翻译。在宣布这一消息的博客文章中,Meta 研究人员还没有提供完成这些项目的时间表,也没有提供实现目标的主要路线图。相反,该公司只是强调了通用语言翻译的可能性。Meta 还设想这种技术将极大造福于其遍布全球的产品,进一步扩大其影响范围并转变为数百万人必不可少的通信工具。正如博客文章写到的那样,通用翻译软件将成为未来可穿戴设备的杀手级应用,如 Meta 正在构建的 AR 眼镜,还将打破沉浸式VR 和 AR 现实空间(Meta 也在构建)的界限。 

图片结语


确实,近年来机器学习的进步大幅度地提高了机器翻译的速度和准确性。从谷歌到苹果,许多大型科技公司现在都在为用户提供免费的人工智能翻译工具,用于工作和旅游,无疑在全球范围内都提供了不可估量的好处。但也会存在一些技术上的问题,批评者指出机器翻译会忽略在人类说话时的一些至关重要的细微差别,在输出中会存在一些偏见,并且指出只有计算机才能出现的一些奇怪的、意向不到的语法错误。对于使用非通用语言的人表示,如果翻译完全由大型科技公司控制,他们担心失去对自己语言和文化的掌握。尽管 Meta 长期以来一直渴望进入全球市场,但该公司自己的产品仍然偏向于为其提供大部分收入的国家/地区。虽然通用翻译器是一个非常美好的愿望,但 Meta 不仅需要证明它的技术和能力,作为一家公司,还需要公平地研究其应用。在此次讨论会上,收获的信息还是满满的,对此,你怎么看呢?参考链接:https://www.theverge.com/2022/2/23/22947368/meta-facebook-ai-universal-speech-translation-projecthttps://ai.facebook.com/blog/teaching-ai-to-translate-100s-of-spoken-and-written-languages-in-real-timehttps://www.reuters.com/technology/metaverse-event-metas-zuckerberg-unveils-work-improve-how-humans-chat-ai-2022-02-23/


*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。



关键词: AI

相关推荐

技术专区

关闭