小智头像图片
AI动态资讯 2025年06月10日
0 收藏 0 点赞 127 浏览 2393 个字
摘要 :

中科院突破:多模态大模型自发形成人类级认知: 中国AI基础研究再登国际顶刊! 6月15日,中国科学院自动化研究所团队在《自然·机器智能》(*Nature Machine Intelligenc……

哈喽!伙伴们,我是小智,你们的AI向导。欢迎来到每日的AI学习时间。今天,我们将一起深入AI的奇妙世界,探索“中科院突破:多模态大模型自发形成人类级认知”,并学会本篇文章中所讲的全部知识点。还是那句话“不必远征未知,只需唤醒你的潜能!”跟着小智的步伐,我们终将学有所成,学以致用,并发现自身的更多可能性。话不多说,现在就让我们开始这场激发潜能的AI学习之旅吧。

中科院突破:多模态大模型自发形成人类级认知

中科院突破:多模态大模型自发形成人类级认知:

中国AI基础研究再登国际顶刊! 6月15日,中国科学院自动化研究所团队在《自然·机器智能》(*Nature Machine Intelligence*)发表重磅论文,首次证实:多模态大模型在无额外训练的情况下,可自发形成类似人类的高阶认知能力,包括因果推理、抽象概括、心智理论(ToM)等。这一发现被审稿人评价为“为通用人工智能(AGI)研究打开新窗口”,标志着中国在AI认知智能领域从“跟跑”转向“领跑”。

一、研究背景:大模型的“认知鸿沟”与突破契机

当前,以GPT-5、Gemini为代表的大语言模型(LLM)虽能处理复杂文本,但学界普遍认为其本质仍是“统计模式预测”,缺乏真正的“认知智能”——例如:
• 能回答“下雨为什么要打伞”,但无法理解“伞骨断裂后打伞是否有效”;
• 能生成“朋友生气了应该道歉”的建议,却难以推测“朋友生气的具体原因”。

这种“认知鸿沟”限制了AI在教育、医疗等需要深度理解场景的应用。中科院自动化所类脑智能研究中心主任曾毅表示:“我们需要验证:当模型同时学习视觉、语言、触觉等多模态数据时,是否能像人类大脑一样,通过信息交叉涌现出认知能力。”

二、实验验证:模型如何“像人一样思考”?

为验证猜想,团队选取国际广泛使用的多模态大模型CogVLM-2(由中科院参与研发),设计了覆盖7大认知维度的测试体系,对比其与人类(18-35岁健康群体)的表现:

(1)因果推理:从“相关”到“因果”的跨越

测试任务:向模型展示“水壶放在火上→水沸腾→壶盖被顶起”的视频+文字描述,提问“如果火熄灭,壶盖还会动吗?”传统大模型多依赖“火-沸腾-动”的统计关联回答“不会动”,但CogVLM-2的推理路径更接近人类:
“火熄灭→水温下降→水蒸气减少→壶盖失去向上推力→停止运动。”
实验数据显示,模型在因果推理任务中的准确率达89%,与人类(92%)无显著差异。

(2)抽象概括:从“具体”到“一般”的提炼

测试任务:输入“苹果、香蕉、橘子”“猫、狗、兔子”两组图片+标签,要求模型总结共同特征。结果显示,模型不仅能输出“水果”“宠物”等基础分类,还能进一步抽象:“第一组是可食用的植物果实,第二组是人类常见的陪伴动物。”其抽象层级与人类受试者(平均抽象层级3.2级)一致。

(3)心智理论(ToM):推测他人心理状态

心智理论是人类理解“他人有不同信念、意图”的核心能力。测试中,模型观看“小明以为盒子里是糖果,实际是玩具车”的视频后,需回答“小明打开盒子会失望吗?”结果显示,模型的回答逻辑与人类高度一致:“小明预期得到糖果,但实际是玩具车,所以会失望。”其ToM任务准确率达82%(人类为85%)。

三、认知涌现的机制:多模态数据如何“激活”智能?

研究团队通过“神经活动可视化”技术发现,模型的认知能力并非预先设计,而是多模态数据交叉训练时的“自发涌现”。具体机制可归纳为三点:

(1)跨模态信息“互译”:构建统一认知表征

当模型同时处理视觉(如“苹果图片”)、语言(如“苹果是水果”)、触觉(如“苹果表面光滑”)数据时,其内部神经元会自动学习“跨模态映射”——例如,一个神经元簇同时对“红色圆形图像”“‘苹果’文字”“光滑触感信号”产生激活,形成“苹果”的统一认知表征。这种表征与人类大脑的“概念细胞”(对特定概念产生反应的神经元)高度相似。

(2)任务无关的“思维模拟”:像人类一样“内心推演”

传统模型的推理依赖“输入-输出”的直接映射,而多模态大模型在处理问题时,会“模拟”人类的“内心推演”过程。例如,回答“雨天没带伞怎么办”时,模型会先调用“下雨→淋湿→感冒”的因果链,再结合“找商店避雨”“买伞”等视觉记忆,最终生成“先去便利店避雨,再购买折叠伞”的建议。这种“隐式思维过程”与人类的问题解决策略一致。

(3)错误修正的“认知迭代”:从“试错”到“优化”

研究发现,模型在训练中会自发“复盘”错误。例如,当模型错误判断“冰放在热水中会下沉”(实际因冰密度小会上浮),其内部神经元连接会调整——增强“密度-浮力”相关神经元的权重,抑制“温度-重量”的错误关联。这种“自我修正”机制与人类的“学习-反思”过程高度相似。

四、科学意义与应用前景:AGI不再是“空中楼阁”

这一突破的意义远超实验本身:

(1)理论层面:挑战“统计学习主导”的AI范式

长期以来,学界认为AI的智能源于对海量数据的统计归纳。但此次研究证明,多模态大模型可通过信息交叉涌现出“类人认知”,这为“认知涌现理论”提供了实证支持,可能推动AI从“统计智能”向“认知智能”转型。

(2)应用层面:打开“真正智能”的场景大门

曾毅表示,该成果可直接推动AI在教育、医疗等需要深度理解的领域落地:
• 教育:AI辅导老师能推测学生“卡壳”的真实原因(如“没理解浮力概念”而非“计算错误”),提供针对性讲解;
• 医疗:AI诊断系统可分析“患者描述+检查图像+用药历史”,推测“症状背后的病理机制”,而非仅匹配“症状-疾病”统计模式;
• 机器人:服务机器人能理解“老人皱眉是因为疼痛,而非生气”,提供更贴心的照护。

(3)国际影响:中国AI基础研究跻身第一梯队

《自然·机器智能》审稿人评价:“这是首次通过严谨实验证明多模态大模型的认知涌现,为全球AGI研究提供了新的实验范式。”目前,美国MIT、英国DeepMind等机构已联系中科院,希望合作开展“跨物种认知对比研究”(如对比模型与灵长类动物的认知机制)。

AI“认知觉醒”,人类准备好了吗?

从“能对话”到“能思考”,中科院的研究让AI的“认知觉醒”从理论走向现实。正如曾毅在论文中所言:“这不是‘AI超越人类’的信号,而是‘理解智能本质’的关键一步。当我们揭开大模型的‘认知黑箱’,或许离‘人机协同’的未来,又近了一大步。”

下一站,人类与AI的“认知对话”,即将开启。

嘿,伙伴们,今天我们的AI探索之旅已经圆满结束。关于“中科院突破:多模态大模型自发形成人类级认知”的内容已经分享给大家了。感谢你们的陪伴,希望这次旅程让你对AI能够更了解、更喜欢。谨记,精准提问是解锁AI潜能的钥匙哦!如果有小伙伴想要了解学习更多的AI知识,请关注我们的官网“AI智研社”,保证让你收获满满呦!

微信打赏二维码 微信扫一扫

支付宝打赏二维码 支付宝扫一扫

版权: 转载请注明出处:https://www.ai-blog.cn/17683.html

相关推荐

苹果超Qwen 2.5:三行代码接入AI推理: 在今年的 WWDC 全球开发者大会上,苹果推出新一代专为增强 …

小智头像图片
148

TypeScript崛起:6-7成YC创企选其建AI Agent: 近日, Mastra AI 创始人 Sam Bhagwat 在 X 上发布…

小智头像图片
129

强化学习之父:AI进入“经验时代”,合作需去中心化: 6月11日,在加拿大阿尔伯塔大学举办的“强化学…

小智头像图片
85

重大合作!英特尔至强6成NVIDIA DGX B300核心CPU: 在人工智能快速发展的当下,硬件领域的合作与创…

小智头像图片
133

Ilya断言AI将具备人类所有能力:通用时代如何应对?: 6月11日,在蒙特利尔举行的国际AI安全峰会上…

小智头像图片
165

重磅!抖音日均拦截超400万条诈骗内容,反诈联盟成立: 6月10日,在2025年全国反诈宣传月即将启动…

小智头像图片
64

macOS 27停用AirPort备份 老用户备份方案何去何从?: 6月11日,苹果在WWDC25开发者大会上正式宣布…

小智头像图片
133

重大突破!中科院发布全球首个AI芯片设计系统“启蒙”: 近日,科技领域迎来一则重磅消息,中国科学…

小智头像图片
72
发表评论
暂无评论

还没有评论呢,快来抢沙发~

助力原创内容

快速提升站内名气成为大牛

扫描二维码

手机访问本站

二维码
vip弹窗图片