Stability AI 推出 Stable Video Diffusion 模型,可根据图片生成视频
CTOnews.com 11 月 22 日消息,专注于开发人工智能(AI)产品的初创公司 Stability AI 发布了其最新的 AI 模型 --Stable Video Diffusion。这款模型能够通过现有图片生成视频,是基于之前发布的 Stable Diffusion 文本转图片模型的延伸,也是目前为止市面上少有的能够生成视频的 AI 模型之一。
不过,这款模型目前并不是对所有人开放的。Stable Video Diffusion 目前处于 Stability AI 所谓的"研究预览"阶段。想要使用这款模型的人必须同意一些使用条款,其中规定了 Stable Video Diffusion 的预期应用场景(例如"教育或创意工具"、"设计和其他艺术过程"等)和非预期的场景(例如"对人或事件的事实或真实的表达")。
Stable Video Diffusion 实际上是由两个模型组成的 --SVD 和 SVD-XT。SVD 可以将静态图片转化为 14 帧的 576×1024 的视频。SVD-XT 使用相同的架构,但将帧数提高到 24。两者都能以每秒 3 到 30 帧的速度生成视频。
根据 Stability AI 随 Stable Video Diffusion 一起发布的一篇白皮书,SVD 和 SVD-XT 最初是在一个包含数百万视频的数据集上进行训练的,然后在一个规模较小的数据集上进行了"微调",这个数据集只有几十万到一百万左右的视频片段。这些视频的来源并不十分清楚,白皮书暗示许多是来自公开的研究数据集,所以无法判断是否有任何版权问题。
SVD 和 SVD-XT 都能生成质量相当高的四秒钟的视频,Stability AI 博客上精心挑选的样本看起来可以与 Meta 最近的视频生成模型以及谷歌和 AI 初创公司 Runway 和 Pika Labs 的 AI 生成视频相媲美。
CTOnews.com注意到,Stable Video Diffusion 也有局限性,Stability AI 对此也很坦诚,他们称这些模型不能生成没有运动或缓慢的摄像机平移的视频,也不能通过文本进行控制,也不能渲染文字(至少不能清晰地渲染),也不能一致地"正确地"生成人脸和人物。
虽然还是早期阶段,Stability AI 指出这些模型非常具有扩展性,可以适应诸如生成物体的 360 度视图等用例。
Stability AI 最终的目标似乎是将其商业化,称 Stable Video Diffusion 在"广告、教育、娱乐等领域"都有潜在的应用。
相关文章
- 25 周年纪念作,情怀拉满但诚意欠缺:《勇者斗恶龙 怪物仙境 3》
- 联想拯救者 Y700 2023 平板推送 ZUI 15.0.723 系统灰度测试:新增“USB 网络共享”,优化底部小白条
- Streacom 推出 SG10 高端被动散热机箱:可解热 600W,1300 美元
- 3D 角色扮演策略游戏《少女前线 2:追放》公测开启,安卓、iOS、PC 多端互通
- 新能源车市:价格战开局,价值战结束
- 雪天这样拍,照片更为味道
- Cybertruck:未来物种重新定义汽车
- 2022 年我国未成年网民规模突破 1.93 亿,普及率达 97.2%
- 上映 7 天,《名侦探柯南:黑铁的鱼影》内地票房破亿、豆瓣 6.6 分
- 小岛工作室推出《死亡搁浅》联名手机手柄,预计明年发售