Meta 推出 AI 音频模型 Audiobox:支持语音及文字同时输入、可生成多层次声音
发表于:2025-02-01 作者:千家信息网编辑
千家信息网最后更新 2025年02月01日,CTOnews.com 12 月 4 日消息,Meta 日前推出了一款 AI 声音生成模型 Audiobox,能够同时接收语音及文字输入,用户可同时使用语音及文字描述,让这款模型生成所需的音频。据悉,
千家信息网最后更新 2025年02月01日Meta 推出 AI 音频模型 Audiobox:支持语音及文字同时输入、可生成多层次声音
CTOnews.com 12 月 4 日消息,Meta 日前推出了一款 AI 声音生成模型 Audiobox,能够同时接收语音及文字输入,用户可同时使用语音及文字描述,让这款模型生成所需的音频。
据悉,这款模型基于 Meta 今年 6 月推出的 Voicebox AI 模型,据称 Audiobox 能生成各种环境音、自然对话语音,并整合了音频生成和编辑能力,以便于用户自由生成自己所需的音频。
Meta 介绍称,生成高品质音频需要有大量音频库及深厚的领域知识,但大众难以获得这些资源,而该公司推出这个模型旨在降低声音生成门槛,让任何人都更容易制作视频、游戏等应用场景的音效。
CTOnews.com发现,这款 Audiobox 模型基于 Voicebox 的"引导声音"机制,以便于生成目标音频,并配合"流量比对(flow-matching)"扩散模型生成方法,以实现"声音填充(audio infilling)"功能,从而生成多层次的音频。
Meta 测试生成带有雷暴声的下雨音频,并输入一系列提示句进行演示,例如"流水声伴随鸟鸣"、"以高音调快节奏说话的年轻女性"等;同时测试了同时输入人声及文字提示,以生成带有情绪("哀痛而缓慢")并拥有背景音(身处教堂)的语音。
Meta 声称,Audiobox 在音质及"生成内容的准确度" 顺利击败了 AudioLDM2、VoiceLDM 及 TANGO,超越了现有最佳的音频生成模型。
目前 Audiobox 已经开放向特定研究人员及学术界试用,以供测试模型品质及安全性,Meta 声称,他们计划"再过几周将社会全面公开该模型"。
生成
模型
音频
声音
语音
同时
文字
输入
测试
用户
提示
多层
多层次
深厚
缓慢
哀痛
人员
人声
以高
准确度
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
中兴刀片服务器
血源无法连接服务器
数据库怎么看存储内容
重庆森趣互联网科技有限公司
存储服务器错误1065
在银行搞软件开发加班吗
政府网络安全招标
如何创建hive的数据库
lol一区服务器叫什么
怎么把数据库文件导出来
网络服务器改装
北冥服务器
服务器挂签到
收缩数据库工作原理
工作邮箱使用的服务器
系统数据库无法登录怎么办
哈利波特服务器攻略
阿里服务器logo
openssh服务器端口是22
企业网络安全处罚规定
虚拟机怎么查找服务器管理员
智能光网络技术的应用
服务器硬盘格式化中断
浙江免备案服务器云空间
明日之后地下城服务器什么时候开
国家软件开发工程师模拟题
有什么好的服务器管理
我的世界2b2t末日服务器
网络技术计划的基本步骤
宿迁网络技术招聘
相关文章
- 25 周年纪念作,情怀拉满但诚意欠缺:《勇者斗恶龙 怪物仙境 3》
- 联想拯救者 Y700 2023 平板推送 ZUI 15.0.723 系统灰度测试:新增“USB 网络共享”,优化底部小白条
- Streacom 推出 SG10 高端被动散热机箱:可解热 600W,1300 美元
- 3D 角色扮演策略游戏《少女前线 2:追放》公测开启,安卓、iOS、PC 多端互通
- 新能源车市:价格战开局,价值战结束
- 雪天这样拍,照片更为味道
- Cybertruck:未来物种重新定义汽车
- 2022 年我国未成年网民规模突破 1.93 亿,普及率达 97.2%
- 上映 7 天,《名侦探柯南:黑铁的鱼影》内地票房破亿、豆瓣 6.6 分
- 小岛工作室推出《死亡搁浅》联名手机手柄,预计明年发售