大象 P 转身开箱即用,港大、南大、清华等抢先开源「复刻」版 DragGAN
DragGAN 非官方实现来了!完美复刻拖拽秒 P 图功能,可以直接上手尝试。
还记得前几天发布的 DragGAN 吗?
没错,就是那个「轻轻点两下」1 秒修图的工具。
这个 AI 修图工具演示视频一经发布,瞬间在国内外火得一塌糊涂。
许多网友纷纷直呼,「PS 不存在了」。
还没几天,DragGAN 非官方实现竟能上手试用了。这一功能已经被集成到 InternGPT 中,界面长这样 ↓
没想到,演示入口一开放,直接被挤爆。
官方演示
从官方放出的演示视频来看,再现的 DragGAN 效果绝了。
咧嘴笑
先是怎么把一个没笑的人 p 笑。只要选中两个嘴角,直接 Drag 就好了。
可以看到,最终生成的结果毫无违和感。因为面部肌肉也在一起变化,不是单纯的咧嘴。
合上嘴
脸部编辑
这个瘦脸功能大家就太熟悉了,选中两个脸蛋往里挤,输出还是非常自然的。
男性瘦脸。不过这个有点瘦过了,输出结果一眼假,下巴太尖了。
这个必须强推!植发!多少秃头人士的福音。
不过从输出结果看,就算选中额头那里,也是全部地方的毛发等比例增长,最后的结果有点像美猴王。
转脸
脸部转动也是一个很实用的功能,补齐的部分非常自然。
其它功能
除了小范围的修图,InternGPT 本身还有很多其它可以进行的亮眼操作。
移除遮盖的对象
单击想要在图片中进行操作的部分,在 prompt 中输入「移除」就可以了。
图像生成
这个功能比较有意思,先上传一张图片,输入 prompt 让 DragGAN 分割,然后再输入一个 prompt 生成想要的图片。
露出黑脚了?(不是)
视频高光解说
用 prompt 还可以一键剪辑视频。
交互式视觉问答
甚至识别完图片上的信息还能联网直接查询。
交互式图像生成
随手的涂鸦都能一键变成美图。
反正看完这些功能小编是真震惊了。所有功能就突出两个特点:「傻瓜式操作,且究极好用」。
这谁能不爱?
技术实现
看了这么多酷炫的功能,那么这个 InternGPT 到底是什么?
InternGPT(简称 iGPT)/InternChat(简称 iChat)是一种基于指向语言驱动的视觉交互系统,用户可以通过点击、拖动和绘制与 ChatGPT 进行互动。
与依赖纯语言的现有交互系统不同,通过整合指向指令,iGPT 显著提高了用户与聊天机器人之间的沟通效率,以及聊天机器人在视觉为中心任务中的准确性,尤其在复杂的视觉场景中更是如此。
下图就是 InternGPT 的整体架构。
我们可以看到,这个 GPT 既可以处理图像、视频,也可以处理语音、文字。
对于图像或视频输入,InternGPT 就会用 SAM(图像分割模型)、OCR(图像识别模型)等等进行处理。
在识别出地理位置、物品或者线条之后,还有一整个工具箱进行进一步处理,其中都是我们耳熟能详的工具。
比如 BLIP(音频)、Stable Diffusion(图像)、Pix2Pix(图像翻译)等等。
同样地,对于文字或者语音输入,InternGPT 就会调用 GPT-4、LLaMA 等模型或工具进行处理,后续同样有一整个工具箱。
InternGPT 的整体架构
使用提示
而在使用过程中,整个流程也是非常方便的。
用户在图片上传成功后,可以发送如下消息与 iGPT 进行多模态相关的对话:
"what is it in the image?" or "what is the background color of image?".
同样,用户也可以交互式地操作、编辑或者生成图片,具体如下:
・点击图片上的任意位置,然后按下 Pick 按钮,预览分割区域。也可以按下 OCR 按钮,识别具体位置处存在的所有单词;
・要在图像中删除掩码区域,可以发送如下消息:
"remove the masked region"
・要在图像中替换掩码的物体为其他物体,可以发送如下消息:
"replace the masked region with {your prompt}"
・想生成新图像,可以发送如下消息:
"generate a new image based on its segmentation describing {your prompt}"
・想通过涂鸦创建新图像,按下 Whiteboard 并在白板上绘制。绘制完成后,需要按下 保存 按钮并发送如下消息:
"generate a new image based on this scribble describing {your prompt}"
网友评论
那个令人震惊的 DragGAN 现在有一个非官方的版本。正式版本将在 6 月发布,这只是未来的预览。
DragGAN 已经集成到 InternGPT 了,这么快就出来了,修图神器。
参考资料:
https://igpt.opengvlab.com/
本文来自微信公众号:新智元 (ID:AI_era)
相关文章
- 25 周年纪念作,情怀拉满但诚意欠缺:《勇者斗恶龙 怪物仙境 3》
- 联想拯救者 Y700 2023 平板推送 ZUI 15.0.723 系统灰度测试:新增“USB 网络共享”,优化底部小白条
- Streacom 推出 SG10 高端被动散热机箱:可解热 600W,1300 美元
- 3D 角色扮演策略游戏《少女前线 2:追放》公测开启,安卓、iOS、PC 多端互通
- 新能源车市:价格战开局,价值战结束
- 雪天这样拍,照片更为味道
- Cybertruck:未来物种重新定义汽车
- 2022 年我国未成年网民规模突破 1.93 亿,普及率达 97.2%
- 上映 7 天,《名侦探柯南:黑铁的鱼影》内地票房破亿、豆瓣 6.6 分
- 小岛工作室推出《死亡搁浅》联名手机手柄,预计明年发售