Meta 发布全新 AI 模型 SeamlessM4T,可转录和翻译近百种语言
CTOnews.com 8 月 22 日消息,Facebook 的母公司 Meta Platforms 今日发布了一种能够翻译和转录数十种语言的人工智能模型 --SeamlessM4T,可以让说不同语言的人更有效地进行交流,为开发人类通用语言翻译器提供了助力。
Meta 声称,SeamlessM4T 将与新的翻译数据集 SeamlessAlign 一同开源,它代表了人工智能驱动的"语音到语音"和"语音到文本"领域的"重大突破"。
Meta 表示,该模型可以在近 100 种语言之间进行文本到语音的翻译,并支持 35 种语言的完全语音到语音翻译,而此前要想实现类似的操作只能在单独的 AI 模型中分别进行翻译。SeamlessM4T 支持:
1、近 100 种语言的语音识别。
2、近 100 种输入和输出语言的语音到文本翻译。
3、支持近 100 种输入语言和 36 种输出语言的语音到语音翻译。
4、支持近 100 种语言的文本到文本翻译。
5、支持近 100 种输入语言和 35 种输出语言的文本到语音翻译。
目前,Meta 将以研究许可证的形式向公众免费提供该模型(仅限非商业用途),以便研究人员和开发人员在此基础上开展工作。
据介绍,Meta 还将发布 SeamlessAlign 元数据,这是迄今为止最大的开放多模式翻译数据集,挖掘的语音和文本对齐总计达 270000 小时。
马克・扎克伯格表示,他坚信这些工具将促进来自全球各地的用户在元宇宙中的互动,这也是他对该公司未来的赌注所在。
他还表示,开放 AI 生态系统对 Meta 有利,因为该公司通过有效地将创建面向消费者的工具的任务众包来获得更多收益,而不是通过访问模型来收费。
据称,Meta 后续还将把这些翻译和转录方面的 AI 进展整合到 Facebook、Instagram、WhatsApp、Messenger 和 Threads 中。
关于 SeamlessM4T 模型,Meta 研究人员在一份研究论文中表示,他们从"爬取的网页数据的公开可用存储库中"收集了 400 万小时的"原始音频",但CTOnews.com没有找到具体是哪个存储库的说明,官方只提到文本数据来自去年创建的数据集,而该数据集来自于维基百科及相关网站提取的内容。
相关文章
- 25 周年纪念作,情怀拉满但诚意欠缺:《勇者斗恶龙 怪物仙境 3》
- 联想拯救者 Y700 2023 平板推送 ZUI 15.0.723 系统灰度测试:新增“USB 网络共享”,优化底部小白条
- Streacom 推出 SG10 高端被动散热机箱:可解热 600W,1300 美元
- 3D 角色扮演策略游戏《少女前线 2:追放》公测开启,安卓、iOS、PC 多端互通
- 新能源车市:价格战开局,价值战结束
- 雪天这样拍,照片更为味道
- Cybertruck:未来物种重新定义汽车
- 2022 年我国未成年网民规模突破 1.93 亿,普及率达 97.2%
- 上映 7 天,《名侦探柯南:黑铁的鱼影》内地票房破亿、豆瓣 6.6 分
- 小岛工作室推出《死亡搁浅》联名手机手柄,预计明年发售