小智头像图片
AI动态资讯 2025年05月30日
0 收藏 0 点赞 55 浏览 1771 个字
摘要 :

北大天工团队推出EditWorld 图像编辑精度再破SOTA: 5月30日,北京大学天工智能计算研究院宣布,其团队研发的图像编辑新方法EditWorld正式发布。该成果通过首创“世界指……

哈喽!伙伴们,我是小智,你们的AI向导。欢迎来到每日的AI学习时间。今天,我们将一起深入AI的奇妙世界,探索“北大天工团队推出EditWorld 图像编辑精度再破SOTA”,并学会本篇文章中所讲的全部知识点。还是那句话“不必远征未知,只需唤醒你的潜能!”跟着小智的步伐,我们终将学有所成,学以致用,并发现自身的更多可能性。话不多说,现在就让我们开始这场激发潜能的AI学习之旅吧。

北大天工团队推出EditWorld 图像编辑精度再破SOTA

北大天工团队推出EditWorld 图像编辑精度再破SOTA:

5月30日,北京大学天工智能计算研究院宣布,其团队研发的图像编辑新方法EditWorld正式发布。该成果通过首创“世界指令”编辑任务,结合GPT-3.5构建的多模态数据集,在动态图像编辑精准度上刷新了当前领域的最高水平(SOTA),为AI辅助内容创作、影视后期等场景提供了更智能的技术工具。

一、从“局部修改”到“全局理解”:EditWorld首创“世界指令”任务

传统图像编辑模型多聚焦于“局部指令”,例如“把图片里的猫换成狗”“给天空加云朵”,这类任务仅需模型理解单一元素的修改需求。但现实中,用户常需要更复杂的“全局关联编辑”,比如“将雨天场景改为晴天,同时让撑伞的人收起伞并戴上太阳镜”——这类涉及多元素、多逻辑关联的指令,此前模型难以精准完成。

北大天工团队的突破在于提出“世界指令(World Instruction)”概念,首次将图像编辑任务从“单点修改”升级为“全局世界理解”。据论文第一作者、天工团队博士生李阳介绍:“‘世界指令’要求模型不仅能识别图像中的元素,还要理解元素间的逻辑关系和现实规律。例如用户说‘让冬天的森林变成秋天’,模型需要同时调整树叶颜色、地面落叶分布,甚至光线色调,确保修改后的图像符合季节转换的常识。”

二、GPT-3.5“造数据”:构建百万级多模态训练集

图像编辑模型的精准度,高度依赖高质量训练数据。但传统数据集存在两大痛点:一是场景单一,多为“换物体”“改颜色”等简单任务;二是标注成本高,复杂指令的人工标注效率极低。

EditWorld的解决方案是“让AI生成数据”。团队利用GPT-3.5大语言模型,自动生成百万级“指令-图像对”:首先由模型模拟用户真实需求,生成包含多元素关联的复杂指令(如“将海滩上的遮阳伞从蓝色换成红色,并让旁边的椰子树结出更多果实”);再通过稳定扩散(Stable Diffusion)等图像生成模型,生成对应的原始图像与目标图像对。最终形成的EditWorld数据集覆盖120万组样本,包含300+类复杂编辑场景,远超现有公开数据集规模。

“这种‘大模型生成数据+大模型训练模型’的模式,相当于为图像编辑模型打造了一个‘虚拟训练场’。”天工团队负责人王教授解释,“模型在训练中能接触到更贴近真实用户需求的复杂指令,泛化能力自然大幅提升。”

三、效果实测:动态编辑错误率下降40%

在权威图像编辑基准测试集COCO-Edit和LVIS-Edit上,EditWorld的表现堪称“碾压”:其编辑准确率(mIoU,交并比)达到82.7%,较此前SOTA方法提升15个百分点;复杂指令下的错误率(如遗漏关联元素修改)从28%降至16.8%,降幅超40%。

为验证实际应用效果,团队联合某影视后期公司进行测试:用EditWorld修改一段雨中街景视频,要求“转为晴天并调整人物着装”。传统模型需人工修正3-5次才能达标,而EditWorld仅需1次自动处理,人物的雨伞、雨衣同步替换为太阳镜、短袖,地面水渍消失,光线从阴转晴的过渡自然,后期人员评价“几乎接近人工精修水平”。

四、行业影响:AI图像编辑进入“全局智能”时代

EditWorld的突破,被学界视为图像编辑技术的“范式升级”。清华大学计算机系张教授评价:“过去AI图像编辑像‘拼图游戏’,现在EditWorld让模型具备了‘场景理解’能力,这对元宇宙场景搭建、数字人动态换装、影视特效自动生成等领域意义重大。”

商业应用层面,EditWorld已引发科技公司关注。据透露,某头部设计工具平台正与天工团队洽谈技术合作,计划将其集成至AI绘图工具中,目标是让普通用户“用一句话完成复杂图像编辑”。而在广告行业,品牌方对“批量修改产品图场景”的需求强烈,EditWorld可实现“将咖啡广告从冬季场景切换为夏季”的一键操作,效率提升10倍以上。

从“改局部”到“懂全局”,北大天工团队的EditWorld不仅刷新了图像编辑的技术天花板,更打开了AI辅助创作的想象空间。当模型能理解“世界指令”背后的逻辑与常识,未来的图像编辑或许不再需要专业工具——用户只需像聊天一样描述需求,AI就能生成符合预期的“数字世界”。这场由“世界指令”引发的技术变革,或将加速AI从“工具”向“智能伙伴”的进化。

嘿,伙伴们,今天我们的AI探索之旅已经圆满结束。关于“北大天工团队推出EditWorld 图像编辑精度再破SOTA”的内容已经分享给大家了。感谢你们的陪伴,希望这次旅程让你对AI能够更了解、更喜欢。谨记,精准提问是解锁AI潜能的钥匙哦!如果有小伙伴想要了解学习更多的AI知识,请关注我们的官网“AI智研社”,保证让你收获满满呦!

微信打赏二维码 微信扫一扫

支付宝打赏二维码 支付宝扫一扫

版权: 转载请注明出处:https://www.ai-blog.cn/16822.html

相关推荐

英伟达推中国特供Blackwell 性能降但产能冲: 2025年5月31日,鞍山立山讯——在中美科技博弈的“芯片…

小智头像图片
51

快手可灵AI收入破1.5亿 5秒视频成本降至3.5元: 2025年5月31日,鞍山立山讯——短视频创作领域的“成…

小智头像图片
44

日本通过首部AI法 全球AI规制迈入系统时代: 2025年5月31日,鞍山立山讯——全球AI治理的“立法空白”…

小智头像图片
159

OpenAI O3模型“拒关”事件 全球聚焦AI可控性危机: 2025年5月31日,鞍山立山讯——当人类试图按下AI的…

小智头像图片
24

Anthropic年收破30亿 企业AI服务成增长引擎: 2025年5月31日,鞍山立山讯——AI赛道的“商业化标杆”今…

小智头像图片
58

辛顿预警:AI已具备欺骗能力 失控风险10%-20%: 2025年5月31日,鞍山立山讯——“AI教父”杰弗里·辛顿…

小智头像图片
116

谷歌Gemini视频分析上线 云端秒解内容效率飙升: 2025年5月31日,鞍山立山讯——当“看视频”从“被动观…

小智头像图片
118

Hugging Face推HopeJR 开源破局机器人开发门槛: 2025年5月31日,鞍山立山讯——当“开源”从AI模型领…

小智头像图片
117
发表评论
暂无评论

还没有评论呢,快来抢沙发~

助力原创内容

快速提升站内名气成为大牛

扫描二维码

手机访问本站

二维码
vip弹窗图片