当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 无需点跟踪,克服DragGAN缺陷!中科大联合上海AI Lab发布FreeDrag:可稳定拖动语义内容

无需点跟踪,克服DragGAN缺陷!中科大联合上海AI Lab发布FreeDrag:可稳定拖动语义内容

来源:51CTO.COM 2023-07-27 14:38:13 0浏览 收藏

从现在开始,努力学习吧!本文《无需点跟踪,克服DragGAN缺陷!中科大联合上海AI Lab发布FreeDrag:可稳定拖动语义内容》主要讲解了等等相关知识点,我会在golang学习网中持续更新相关的系列文章,欢迎大家关注并积极留言建议。下面就先一起来看一下本篇正文内容吧,希望能帮到你!

近日,在AIGC的广阔世界里出现了一个火热的图像编辑方法—即通过在给定图像上通过把语义内容从原位置(handle point)拖动到目标位置(target point)的方式进行精细的定制化编辑操作。

比如可以实现「让猫咪对你wink」的神奇操作:

无需点跟踪,克服DragGAN缺陷!中科大联合上海AI Lab发布FreeDrag:可稳定拖动语义内容

这一惊人效果来自于发表在SIGGRAPH 2023会议上的 [Drag Your GAN] 论文(简称为DragGAN)。

并且DragGAN的代码一经发出就在短短几周内狂揽30K star,引发广大网友的「Drag热潮」。

有了DragGAN的加持,各种AI画图工具的「阿喀琉斯之踵」再也不是弱点,哪里不满意就只修哪里!

近日,中科大和上海AI Lab的研究者们又发布了一项相关研究—FreeDrag。

无需点跟踪,克服DragGAN缺陷!中科大联合上海AI Lab发布FreeDrag:可稳定拖动语义内容图片

Paper:https://arxiv.org/abs/2307.04684

Code:https://github.com/LPengYang/FreeDrag

Project Page:https://lin-chen.site/projects/freedrag/

研究结果表明,先前的DragGAN由两个交替迭代进行的过程构成:

1. 运动监督(motion supervision)过程指导handle point向着对应的target point进行移动;

2. 点跟踪(point tracking)过程则负责定位移动后handle point的精确位置从而为下次移动提供方向和约束特征。

因此DragGAN 严重依赖于点跟踪的精确性。然而,点跟踪的策略本质上是不稳定的,因为它隐式地假设每次移动后在默认的搜索区域内有且仅有一个点完美继承了handle point的特征。

这个假设会在以下两种情况下失效:

1. 图像内容发生剧烈变化导致的跟踪丢失

无需点跟踪,克服DragGAN缺陷!中科大联合上海AI Lab发布FreeDrag:可稳定拖动语义内容图片

DragGAN 由于内容突变发生跟踪点丢失

2. 搜索区域内的相似点导致的跟踪错误,例如轮廓线和马腿等。

无需点跟踪,克服DragGAN缺陷!中科大联合上海AI Lab发布FreeDrag:可稳定拖动语义内容图片

DragGAN 由于相似点的存在发生错误的点跟踪

错误的点跟踪会为下一次移动提供错误的方向和约束特征,造成误差累积从而损害编辑的质量。

方法介绍

为了防止不稳定的点跟踪过程不可避免地损害图像编辑的质量,中国科学技术大学和上海AI Lab的研究者们共同提出FreeDrag, 一种以特征为导向的基于点的交互式编辑框架。

FreeDrag通过引入自适应更新的模板特征,模糊定位和线性搜索技术,在无需进行精确点跟踪的情况下即可实现更加稳定可靠的拖动编辑。

无需点跟踪,克服DragGAN缺陷!中科大联合上海AI Lab发布FreeDrag:可稳定拖动语义内容 图 2 FreeDrag 的流程图


无需点跟踪,克服DragGAN缺陷!中科大联合上海AI Lab发布FreeDrag:可稳定拖动语义内容

图 3 DragGAN的点跟踪和FreeDrag 点定位的比较。

DragGAN 要求精确定位的位置,而FreeDrag 通过约束特征差异限制定位点在附近,但不要求确定的具体位置。

动态更新的模板特征

无需点跟踪,克服DragGAN缺陷!中科大联合上海AI Lab发布FreeDrag:可稳定拖动语义内容图片

 研究者们首先提出了动态更新的模板特征技术来缓解跟踪点丢失问题。模板特征通过衡量每次移动的质量来决定是否更新,即通过控制λ的值来决定每次更新的比例。

更大的λ意味着更大的更新程度。移动质量越高更新程度越大。移动质量通过衡量移动结束后无需点跟踪,克服DragGAN缺陷!中科大联合上海AI Lab发布FreeDrag:可稳定拖动语义内容处的特征无需点跟踪,克服DragGAN缺陷!中科大联合上海AI Lab发布FreeDrag:可稳定拖动语义内容和上一次的模板特征值无需点跟踪,克服DragGAN缺陷!中科大联合上海AI Lab发布FreeDrag:可稳定拖动语义内容的 L1 距离 (无需点跟踪,克服DragGAN缺陷!中科大联合上海AI Lab发布FreeDrag:可稳定拖动语义内容) 来度量,无需点跟踪,克服DragGAN缺陷!中科大联合上海AI Lab发布FreeDrag:可稳定拖动语义内容越小说明移动质量越高。

模板特征的更新过程不依赖于handle point 的位置和特征,从而摆脱了对精确的点跟踪的负担,同时自适应的更新策略带来的平滑性赋予了模板特征更好的鲁棒性来克服剧烈的内容变化,避免编辑内容的异常丢失。

模糊定位和线性搜索

紧接着,研究者们提出模糊定位和线性搜索技术来缓解跟踪点模糊问题。FreeDrag 通过移动距离d和特征差异l来为每次的移动定位适合的目标点,即公式(10)。

定位主要分为三种情况:继续向target point移动(移动质量高);保持当前位置不动(移动不彻底),点回退(移动异常)。

相比于DragGAN要求的精确的点跟踪,公式(10)搜寻的定位点是“模糊”因为它并不要求搜寻handle point的准确位置,而是通过约束特征差异确保定位点在handle point附近, 因此摆脱了精确定位的负担。

此外,公式(10) 只在原始handle point 和 target point 形成的直线上进行点搜索,这种线性搜索策略有效地缓解了相邻区域内相似点的干扰,保障了运动监督的可靠性,进一步提高点移动的稳定性。 

实验对比

DragGAN 和 FreeDrag 在各类场景上的对比如下图(图4)所示,可以发现FreeDrag可以有效地防止handle point的异常消失(如图4第一个例子中消失的嘴巴和第二个例子中消失的眼镜),同时有力地避免了由于内容突变和相似点干扰导致的异常编辑,保障了点移动的可靠性(如图4第三个例子中大象的眼睛和第四个例子中的马腿)。

此外,从图4的(5)-(8)例子可以观察到FreeDrag 可以通过稳定的点移动更有效更精确地实现预定的编辑目标。进一步的,在各类场景上的大量实验(图5) 充分验证了FreeDrag 可以通过稳定的点移动实现更高的编辑质量,助力交互式的基于点的图像编辑达到新的高度。

无需点跟踪,克服DragGAN缺陷!中科大联合上海AI Lab发布FreeDrag:可稳定拖动语义内容图片

图 4 DragGAN 和 FreeDrag 在各类场景上的对比图


无需点跟踪,克服DragGAN缺陷!中科大联合上海AI Lab发布FreeDrag:可稳定拖动语义内容

图 5 DragGAN 和 FreeDrag 在更多场景下的对比图

左边两张图分别为原始图片和编辑目标(红色为handle point, 蓝色为target point),右边分别为DragGAN 和FreeDrag的处理过程

无需点跟踪,克服DragGAN缺陷!中科大联合上海AI Lab发布FreeDrag:可稳定拖动语义内容图片

无需点跟踪,克服DragGAN缺陷!中科大联合上海AI Lab发布FreeDrag:可稳定拖动语义内容图片

动态过程:https://lin-chen.site/projects/freedrag/

对于拖动大象眼睛的例子,可以观察到,DragGAN 在移动大象眼睛的过程中发生了图像布局的突变造成点跟踪丢失,点跟踪丢失导致无法为之后的运动提供有效的运动监督,进而无法实现预定的编辑目的。

相比而言,得益于动态更新的模板特征的平滑性,FreeDrag 可以更好地避免图像内容的急剧变化,从而更可靠地将眼部特征拖向预定的位置。

对于拖动马腿的例子,可以观察到, DragGAN在移动马腿过程中发生了错误的点跟踪,从而为之后的运动监督提供了错误的优化方向,进而降低了图像质量,这种错误会在多次迭代中累计导致编辑结果质量的急剧下降。

相比而言, FreeDrag 的模糊定位和线性搜索策略有效地缓解了相似点的干扰,为点移动提供了可靠的监督信号,从而高质量地实现预定的编辑目的。

本篇关于《无需点跟踪,克服DragGAN缺陷!中科大联合上海AI Lab发布FreeDrag:可稳定拖动语义内容》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于科技周边的相关知识,请关注golang学习网公众号!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
骁龙8 gen3与小米14:预计提前发布,性能与设计引期待骁龙8 gen3与小米14:预计提前发布,性能与设计引期待
上一篇
骁龙8 gen3与小米14:预计提前发布,性能与设计引期待
特斯拉受挫!Autotrader评选出2023年最佳电动车 新品牌崭露头角
下一篇
特斯拉受挫!Autotrader评选出2023年最佳电动车 新品牌崭露头角
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    516次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    500次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    485次学习
查看更多
AI推荐
  • ljg-skills -
    ljg-skills
    ljg-skills 是李继刚开源的 AI 技能与提示词集合,面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板,适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。
    924次使用
  • MELO音乐 - AI 音乐生成平台,支持多模态创作能力
    MELO音乐
    MELO音乐是一站式AI视频与音乐制作助手,对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐,MELO为你免费谱曲,轻松做同款!
    894次使用
  • UniScribe - AI 免费在线音视频转文字平台
    UniScribe
    UniScribe 是一款 AI 音视频转文字与内容整理工具,支持上传音频、视频文件或粘贴 YouTube 链接,自动生成转写文本、摘要、思维导图和关键问题,并支持多格式导出,适合会议记录、课程学习、访谈整理和内容创作复盘。
    827次使用
  • 剧云 - 免费 AI 智能中文剧本创作平台
    剧云
    剧云是专业中文剧本创作平台,安全稳定运行十余年,集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能,数据安全防护,轻松高效创作剧本。
    1028次使用
  • 万象有声 - AI 一站式有声内容创作平台
    万象有声
    万象有声,一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具,可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验,让有声书制作更简单!
    997次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码