Meta 介绍 AI 图像编辑工具 Emu Edit / Video:使用 1000 万个数据集训练,号称远超竞品
CTOnews.com 11 月 20 日消息,Meta 昨日宣布为 Facebook 和 Instagram 推出两款基于 AI 的图像编辑工具,分别是"Emu Edit"和"Emu Video",适用领域包括照片和视频,目前 Meta 公布了这两项 AI 工具的更多信息,CTOnews.com整理如下。
官方介绍称,Emu Edit 模型仅用文字指令就可以准确编辑图像,而通过分解文字转视频(Text-to-Video,T2V)的生成过程,开发团队公布了一种名为 Emu Video 的方法,可以改善最终生成视频的品质和多样性。
据悉,Emu Edit 号称是一种创新的影像编辑方法,目的是要简化各种影音操作任务,为视频编辑提供更多功能与更高的精确度。
Emu Edit 可以接受用户指令,进行各种形式的编辑,包括区域和全局编辑、移除和添加背景,也能够调整颜色并进行矢量图转换,或进行图像构成元素的检测和分割。
Meta 表示,Emu Edit 把视觉任务作为指令,纳入到所生成模型中,进而在视频生成和编辑中,提供更好的控制能力。研究人员指出,当前的图像编辑模型,通常会过度修改图像,或是修改不足,而 Emu Edit 的优势在于能够准确按照指令进行编辑。
Meta 使用了 1000 万个合成数据集训练 Emu Edit,号称是目前同类中规模最大的数据集,从而带来了更好的图像编辑能力,其中每个样本都包含图像输入、任务描述,以及目标输出图像。可使模型忠实地执行指令,产生"比当前所有竞品都要好的结果"。
而 Emu Video 是一种简单且高效的文字转视频生成方法,该方法运用扩散模型,并以 Emu Edit 为基础。开发团队解释,这种通过生成视频的架构能够应对外界各种输入方式,包括文字、图像、图文组合等,此外 Emu Video 也能接受文字类提示词,将用户提供的图像"动画化",从而提供了"超越过去模型的能力"。
Emu Video 将影片生成过程拆分为两个步骤,首先是根据文字提示生成图像,然后基于文字和生成图像产生视频。这种拆分步骤的影片生成方法,让研究人员可以有效地训练生成模型。
研究人员进一步解释,Emu Video 与过去 Make-A-Video 等需要一系列深度生成模型的研究不同,Emu Video 更简单,仅使用 2 个扩散模型,就能生成 512x512 分辨率、每秒 16FPS、长 4 秒钟的视频。
CTOnews.com发现,Meta 援引评估数据,证明 Emu Video 生成的视频品质以及"遵循提示词的忠实程度"相对业内竞品更好。
在品质方面,有 96%受访者偏好 Emu Video 而非此前的 Make-A-Video 方案,而对于"提示词的忠实度"方面,Emu Video 获得了 85%受访者的青睐。
相关阅读:
《Meta 展示全新 AI 图像编辑工具:文本指令"指哪打哪",主体背景都能换》
- 上一篇
门店 1280~1480 元:太平鸟羽绒服 339 元官方 2.2 折发车
天猫【太平鸟男装旗舰店】太平鸟羽绒服日常售价为 1200 元,下单领取 861 元优惠券,到手价为 339 元:天猫太平鸟 羽绒服6 款可选券后 339 元领 861 元券共有 6 款可以选择,包含联
- 下一篇
小米 Redmi Note 13R Pro 手机发布:天玑 6080、1 亿像素,12+256GB 售 1999 元
CTOnews.com 11 月 20 日消息,小米 Redmi Note 13R Pro 上架小米商城,仅提供 12GB+256GB 版本,售 1999 元。Redmi Note 13R Pro 共
相关文章
- 25 周年纪念作,情怀拉满但诚意欠缺:《勇者斗恶龙 怪物仙境 3》
- 联想拯救者 Y700 2023 平板推送 ZUI 15.0.723 系统灰度测试:新增“USB 网络共享”,优化底部小白条
- Streacom 推出 SG10 高端被动散热机箱:可解热 600W,1300 美元
- 3D 角色扮演策略游戏《少女前线 2:追放》公测开启,安卓、iOS、PC 多端互通
- 新能源车市:价格战开局,价值战结束
- 雪天这样拍,照片更为味道
- Cybertruck:未来物种重新定义汽车
- 2022 年我国未成年网民规模突破 1.93 亿,普及率达 97.2%
- 上映 7 天,《名侦探柯南:黑铁的鱼影》内地票房破亿、豆瓣 6.6 分
- 小岛工作室推出《死亡搁浅》联名手机手柄,预计明年发售