Meta 推出 AI 音频模型 Audiobox:支持语音及文字同时输入、可生成多层次声音
发表于:2024-10-12 作者:千家信息网编辑
千家信息网最后更新 2024年10月12日,CTOnews.com 12 月 4 日消息,Meta 日前推出了一款 AI 声音生成模型 Audiobox,能够同时接收语音及文字输入,用户可同时使用语音及文字描述,让这款模型生成所需的音频。据悉,
千家信息网最后更新 2024年10月12日Meta 推出 AI 音频模型 Audiobox:支持语音及文字同时输入、可生成多层次声音
CTOnews.com 12 月 4 日消息,Meta 日前推出了一款 AI 声音生成模型 Audiobox,能够同时接收语音及文字输入,用户可同时使用语音及文字描述,让这款模型生成所需的音频。
据悉,这款模型基于 Meta 今年 6 月推出的 Voicebox AI 模型,据称 Audiobox 能生成各种环境音、自然对话语音,并整合了音频生成和编辑能力,以便于用户自由生成自己所需的音频。
Meta 介绍称,生成高品质音频需要有大量音频库及深厚的领域知识,但大众难以获得这些资源,而该公司推出这个模型旨在降低声音生成门槛,让任何人都更容易制作视频、游戏等应用场景的音效。
CTOnews.com发现,这款 Audiobox 模型基于 Voicebox 的"引导声音"机制,以便于生成目标音频,并配合"流量比对(flow-matching)"扩散模型生成方法,以实现"声音填充(audio infilling)"功能,从而生成多层次的音频。
Meta 测试生成带有雷暴声的下雨音频,并输入一系列提示句进行演示,例如"流水声伴随鸟鸣"、"以高音调快节奏说话的年轻女性"等;同时测试了同时输入人声及文字提示,以生成带有情绪("哀痛而缓慢")并拥有背景音(身处教堂)的语音。
Meta 声称,Audiobox 在音质及"生成内容的准确度" 顺利击败了 AudioLDM2、VoiceLDM 及 TANGO,超越了现有最佳的音频生成模型。
目前 Audiobox 已经开放向特定研究人员及学术界试用,以供测试模型品质及安全性,Meta 声称,他们计划"再过几周将社会全面公开该模型"。
生成
模型
音频
声音
语音
同时
文字
输入
测试
用户
提示
多层
多层次
深厚
缓慢
哀痛
人员
人声
以高
准确度
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
富文本里面数据用什么数据库
医院挂号预约系统数据库
顺义区专业软件开发质量保障
中国光大银行服务器
网络安全宣传海报免费下载
光伏电站网络安全管理
python软件开发求职
代还软件开发机构会吃单吗
查询数据库所用的语句
zabbix监控数据库配置
河北网络安全先进
双辽进销存软件开发多少钱
土地银行软件开发公司吗
公安局网络安全进展
dell服务器电源功率高
怎么加入北京通勤数据库
windows下的数据库
软件开发犯罪案例
网络技术客户需求
网络安全设备采购报告
软件开发能力认证等级
指尖铭心网络技术
k歌听歌服务器错误
随梦网络技术有限公司
2017互联网科技成果
西双版纳服务器上门回收价格表
云服务器内网会出问题吗
数据库安全怎样查看
共筑青少年网络安全防火墙
网络安全演练责任书
相关文章
- 25 周年纪念作,情怀拉满但诚意欠缺:《勇者斗恶龙 怪物仙境 3》
- 联想拯救者 Y700 2023 平板推送 ZUI 15.0.723 系统灰度测试:新增“USB 网络共享”,优化底部小白条
- Streacom 推出 SG10 高端被动散热机箱:可解热 600W,1300 美元
- 3D 角色扮演策略游戏《少女前线 2:追放》公测开启,安卓、iOS、PC 多端互通
- 新能源车市:价格战开局,价值战结束
- 雪天这样拍,照片更为味道
- Cybertruck:未来物种重新定义汽车
- 2022 年我国未成年网民规模突破 1.93 亿,普及率达 97.2%
- 上映 7 天,《名侦探柯南:黑铁的鱼影》内地票房破亿、豆瓣 6.6 分
- 小岛工作室推出《死亡搁浅》联名手机手柄,预计明年发售