视频版大爆炸来了,剪辑可精准到每个字,支持中文 Demo 可玩,老罗:打钱
现在剪视频,已经可以精准到每一个字了!
只需点击你要删减或者要留下的单词,AI 分分钟都能给你整出新的视频来。
这操作,有点大爆炸功能内味了。老罗:打钱!
不管是 MV、访谈、电影片段各种类型视频,也不论有无字幕,通通不在话下。
网友们纷纷开始试玩了起来。比如让 rick roll 鬼畜起来~
就连中文视频也能 Hold 住。实测 Demo 发现,它甚至直接翻译成了英文。
不过这也并不影响整个操作,毕竟背后模型是支持中文在内的多个语言的。
精准到每个字剪视频
只需三步,就可以轻松完成精准到字的视频剪辑 --
上传视频、选择删减 / 留下的单词、下载视频。
释出的有三个示例,烹饪的美食视频、小扎采访、以及「Just Do IT」……
当然你也可以自己试玩,各种语言都能识别。比如就以让子弹飞一段经典对白为例。
绿色代表保留,红色代表删除。你有三种选择:剪辑、选择所有单词、重新设置。
任意选择保留单词之后,就可以「Cut Video」了。此处选择两处跳脱的台词。最终只花了不到十秒钟就完成了剪辑。
画面切换可以说是十分顺滑了~ 整个 Demo 试玩在 T4 上运行。
基于 Whisper 模型
这是个荷兰开发者 Matthijs Hollemans 在 HuggingFace 上基于 Whisper 开发的新功能。
Whisper 是 OpenAI 于去年 9 月开源的语音识别神经网络,经过 68 万小时的多语言和多任务监督网络数据的训练,其鲁棒性和准确性接近人类水平。它可以进行多语言转录,以及其他语言将翻译成英文。
它是基于 Transformer 端到端实现架构,无需任何微调。输入音频被分成 30 秒的块,转化为梅尔倒谱(音频特征提取方式之一,log-Mel spectrogram),然后传入编码器。
好了,试玩 Demo 在此,感兴趣的旁友可戳:
https://huggingface.co/spaces/radames/whisper-word-level-trim
参考链接:
[1]https://openai.com/research/whisper
[2]https://twitter.com/mhollemans/status/1671812176842039296
本文来自微信公众号:量子位 (ID:QbitAI),作者:杨净
相关文章
- 25 周年纪念作,情怀拉满但诚意欠缺:《勇者斗恶龙 怪物仙境 3》
- 联想拯救者 Y700 2023 平板推送 ZUI 15.0.723 系统灰度测试:新增“USB 网络共享”,优化底部小白条
- Streacom 推出 SG10 高端被动散热机箱:可解热 600W,1300 美元
- 3D 角色扮演策略游戏《少女前线 2:追放》公测开启,安卓、iOS、PC 多端互通
- 新能源车市:价格战开局,价值战结束
- 雪天这样拍,照片更为味道
- Cybertruck:未来物种重新定义汽车
- 2022 年我国未成年网民规模突破 1.93 亿,普及率达 97.2%
- 上映 7 天,《名侦探柯南:黑铁的鱼影》内地票房破亿、豆瓣 6.6 分
- 小岛工作室推出《死亡搁浅》联名手机手柄,预计明年发售