AI快讯

北大天工团队推出EditWorld 图像编辑精度再破SOTA

小智 AI动态资讯 2025年05月30日

0 收藏 0 点赞 173 浏览 1771 个字

摘要 :

北大天工团队推出EditWorld 图像编辑精度再破SOTA： 5月30日，北京大学天工智能计算研究院宣布，其团队研发的图像编辑新方法EditWorld正式发布。该成果通过首创“世界指……

哈喽！伙伴们，我是小智，你们的AI向导。欢迎来到每日的AI学习时间。今天，我们将一起深入AI的奇妙世界，探索“北大天工团队推出EditWorld 图像编辑精度再破SOTA”，并学会本篇文章中所讲的全部知识点。还是那句话“不必远征未知，只需唤醒你的潜能！”跟着小智的步伐，我们终将学有所成，学以致用，并发现自身的更多可能性。话不多说，现在就让我们开始这场激发潜能的AI学习之旅吧。

北大天工团队推出EditWorld 图像编辑精度再破SOTA：

5月30日，北京大学天工智能计算研究院宣布，其团队研发的图像编辑新方法EditWorld正式发布。该成果通过首创“世界指令”编辑任务，结合GPT-3.5构建的多模态数据集，在动态图像编辑精准度上刷新了当前领域的最高水平（SOTA），为AI辅助内容创作、影视后期等场景提供了更智能的技术工具。

一、从“局部修改”到“全局理解”：EditWorld首创“世界指令”任务

传统图像编辑模型多聚焦于“局部指令”，例如“把图片里的猫换成狗”“给天空加云朵”，这类任务仅需模型理解单一元素的修改需求。但现实中，用户常需要更复杂的“全局关联编辑”，比如“将雨天场景改为晴天，同时让撑伞的人收起伞并戴上太阳镜”——这类涉及多元素、多逻辑关联的指令，此前模型难以精准完成。

北大天工团队的突破在于提出“世界指令（World Instruction）”概念，首次将图像编辑任务从“单点修改”升级为“全局世界理解”。据论文第一作者、天工团队博士生李阳介绍：“‘世界指令’要求模型不仅能识别图像中的元素，还要理解元素间的逻辑关系和现实规律。例如用户说‘让冬天的森林变成秋天’，模型需要同时调整树叶颜色、地面落叶分布，甚至光线色调，确保修改后的图像符合季节转换的常识。”

二、GPT-3.5“造数据”：构建百万级多模态训练集

图像编辑模型的精准度，高度依赖高质量训练数据。但传统数据集存在两大痛点：一是场景单一，多为“换物体”“改颜色”等简单任务；二是标注成本高，复杂指令的人工标注效率极低。

EditWorld的解决方案是“让AI生成数据”。团队利用GPT-3.5大语言模型，自动生成百万级“指令-图像对”：首先由模型模拟用户真实需求，生成包含多元素关联的复杂指令（如“将海滩上的遮阳伞从蓝色换成红色，并让旁边的椰子树结出更多果实”）；再通过稳定扩散（Stable Diffusion）等图像生成模型，生成对应的原始图像与目标图像对。最终形成的EditWorld数据集覆盖120万组样本，包含300+类复杂编辑场景，远超现有公开数据集规模。

“这种‘大模型生成数据+大模型训练模型’的模式，相当于为图像编辑模型打造了一个‘虚拟训练场’。”天工团队负责人王教授解释，“模型在训练中能接触到更贴近真实用户需求的复杂指令，泛化能力自然大幅提升。”

三、效果实测：动态编辑错误率下降40%

在权威图像编辑基准测试集COCO-Edit和LVIS-Edit上，EditWorld的表现堪称“碾压”：其编辑准确率（mIoU，交并比）达到82.7%，较此前SOTA方法提升15个百分点；复杂指令下的错误率（如遗漏关联元素修改）从28%降至16.8%，降幅超40%。

为验证实际应用效果，团队联合某影视后期公司进行测试：用EditWorld修改一段雨中街景视频，要求“转为晴天并调整人物着装”。传统模型需人工修正3-5次才能达标，而EditWorld仅需1次自动处理，人物的雨伞、雨衣同步替换为太阳镜、短袖，地面水渍消失，光线从阴转晴的过渡自然，后期人员评价“几乎接近人工精修水平”。

四、行业影响：AI图像编辑进入“全局智能”时代

EditWorld的突破，被学界视为图像编辑技术的“范式升级”。清华大学计算机系张教授评价：“过去AI图像编辑像‘拼图游戏’，现在EditWorld让模型具备了‘场景理解’能力，这对元宇宙场景搭建、数字人动态换装、影视特效自动生成等领域意义重大。”

商业应用层面，EditWorld已引发科技公司关注。据透露，某头部设计工具平台正与天工团队洽谈技术合作，计划将其集成至AI绘图工具中，目标是让普通用户“用一句话完成复杂图像编辑”。而在广告行业，品牌方对“批量修改产品图场景”的需求强烈，EditWorld可实现“将咖啡广告从冬季场景切换为夏季”的一键操作，效率提升10倍以上。

从“改局部”到“懂全局”，北大天工团队的EditWorld不仅刷新了图像编辑的技术天花板，更打开了AI辅助创作的想象空间。当模型能理解“世界指令”背后的逻辑与常识，未来的图像编辑或许不再需要专业工具——用户只需像聊天一样描述需求，AI就能生成符合预期的“数字世界”。这场由“世界指令”引发的技术变革，或将加速AI从“工具”向“智能伙伴”的进化。

嘿，伙伴们，今天我们的AI探索之旅已经圆满结束。关于“北大天工团队推出EditWorld 图像编辑精度再破SOTA”的内容已经分享给大家了。感谢你们的陪伴，希望这次旅程让你对AI能够更了解、更喜欢。谨记，精准提问是解锁AI潜能的钥匙哦！如果有小伙伴想要了解学习更多的AI知识，请关注我们的官网“AI智研社”，保证让你收获满满呦！

赏

微信打赏二维码微信扫一扫