"); //-->
推荐:使用NSDT场景编辑器快速搭建3D应用场景
若要正确查看音频生成的强大功能,请考虑以下方案。我们只需要提供一个简单的指令,描述场景和场景设置,模型就会生成一个扣人心弦的音频脚本,突出与原始指令的最高上下文相关性。
指令: 在科幻小说主题中生成音频:火星新闻报道人类向半人马座阿尔法星发送光速探测器。从新闻主播开始,然后是记者采访由联合地球和火星政府创立的建造这个探测器的组织的总工程师,最后再次以新闻主播结束。
生成的音频:https://audio-agi.github.io/WavJourney_demopage/sci-fi/sci-fi%20news.mp4
为了真正了解这个奇迹的内部运作,让我们深入了解生成过程的方法和实现细节。
生成过程下图在一个简单的流程图中总结了整个过程。

端到端音频生成过程由多个子模块组成,这些子模块按顺序执行,用于完整的文本到音频模型。
音频脚本生成WavJourney利用GPT-4模型和预定义的提示模板来生成脚本。提示模板将输出限制为简单的 JSON 格式,以后计算机程序可以轻松解析。每个脚本都有 3 种不同的音频类型,如上图所示:语音、音效和音乐。然后,每种音频类型都可以作为前景音频运行,也可以作为背景声音效果覆盖在其他音频上。其他属性(如内容描述、长度和字符)足以正式定义脚本生成的音频设置。
脚本解析然后,输出脚本通过计算机程序传递,该程序解析预定义 JSON 脚本格式中的相关信息。它将每个描述和字符与预设的语音音频相关联。此过程有助于将音频生成过程分解为单独的步骤,包括文本到语音转换、音乐和声音添加。
音频生成解析后的脚本作为 Python 程序执行。首先生成前景语音,由背景音乐和音效覆盖。对于语音生成,该模型使用预先训练的 Bark 模型和 VoiceFixer 恢复模型来提高音频质量。AudioLDM和MusicGen模型用于声音效果和音乐叠加。所有三种型号的输出组合在一起,形成最终的音频输出。
人机共创该过程维护生成的脚本的上下文,并且可以类似于 GPT 模型进行提示。您可以使用 GPT 模型的人工反馈和聊天功能轻松修改生成的脚本。
添加特定的细节和音效再简单不过了。下面的流程图显示了添加或修改生成的脚本的特定详细信息是多么简单。

音频生成模式可以改变娱乐行业的游戏规则。该过程能够生成引人入胜的叙述和故事,可用于教育和娱乐目的,自动化繁琐的画外音和视频生成过程。
有关详细理解,请在此处概述论文。该代码将很快在GitHub上提供。
原文链接:WavJourney:进入音频故事情节生成世界的旅程 (mvrlink.com)
专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
三菱携手Tallgrass布局怀俄明州 AI 专属能源枢纽
个人-口罩识别系统项目采访
思科凭借通用商用芯片与光模块赢得 AI 领域客户
人工智能历史
WTC-AI太阳能热水器电路图
东南大学人工智能02
东南大学人工智能01
本科毕业设计:一种基于发育思想的语音识别系统实现
简单人工智能的温度控制电路
iCAN-4017 AI功能模块
有简单人工智能的温度控制电路
光电路交换何以成为 AI 数据中心刚需
AI聊天机器人能像医生一样推理吗?
AI/HPC新世代 COUPE光互连扮要角
具有人工智能的温度控制电路图
ADI公司:工业4.0——人工智能的端
被动元件新周期:AI时代高端化、服务器化重构MLCC产业格局
联发科加速AI在地化应用布局
个人-窗口卫士项目采访
海联达(Aigale)Ai-HD1 无线全高清套件拆解
未来的人工智能世界:技术与人文的和谐还是斗争?
国家“算力网”:像用水用电一样用AI
人工智能与机器人
STC-人工智能二维生命探测仪
仿人机器人
继上次海联达Ai-ap100拆机之电源改造
研华科技与Axelera AI深化战略合作 加速推动基于Europa平台的边缘AI创新
存储器转型AI战略资源 台厂受惠
有简单人工智能的温度控制电路图
微软X英特尔黑客松大赛