小智头像图片
AI动态资讯 2025年06月15日
0 收藏 0 点赞 146 浏览 2203 个字
摘要 :

复旦评测:阿里千问、讯飞星火高考数学超GPT-4o: 高考数学成大模型“新考场” 国内双雄击败国际顶流 近日,复旦大学人工智能创新与产业研究院发布《2025大模型数学推理能……

哈喽!伙伴们,我是小智,你们的AI向导。欢迎来到每日的AI学习时间。今天,我们将一起深入AI的奇妙世界,探索“复旦评测:阿里千问、讯飞星火高考数学超GPT-4o”,并学会本篇文章中所讲的全部知识点。还是那句话“不必远征未知,只需唤醒你的潜能!”跟着小智的步伐,我们终将学有所成,学以致用,并发现自身的更多可能性。话不多说,现在就让我们开始这场激发潜能的AI学习之旅吧。

复旦评测:阿里千问、讯飞星火高考数学超GPT-4o

复旦评测:阿里千问、讯飞星火高考数学超GPT-4o:

高考数学成大模型“新考场” 国内双雄击败国际顶流

近日,复旦大学人工智能创新与产业研究院发布《2025大模型数学推理能力评测报告》,其中“高考数学题测试”结果引发广泛关注——阿里千问、讯飞星火两大国内大模型以显著优势超越GPT-4o(GPT-4优化版),分列前两名。这是国内大模型首次在标准化数学测试中公开击败国际头部产品,被视为“国产AI在逻辑推理领域的关键突破”。

评测细节:覆盖全卷题型 难度对标真实高考

此次评测选取2025年全国甲卷、新高考I卷等4套高考数学真题(含文理综卷),涵盖函数与导数、立体几何、概率统计、解析几何等核心考点,总计120道题(含选择题、填空题、解答题)。评测团队特别强调:“题目完全取自真实高考卷,未做难度调整,重点考察大模型的‘真实场景解题能力’。”

测试结果显示:
– 阿里千问以112.3分(满分150分)位列第一,正确率74.9%;
– 讯飞星火以108.7分紧随其后,正确率72.5%;
– GPT-4o得分105.2分,正确率70.1%;
– 其他参与评测的国际模型(如Claude 3、Gemini Pro)得分均未超过100分。

“最值得关注的是解答题的表现。”评测负责人、复旦计算机学院教授王强介绍,“选择题和填空题主要考察知识记忆,而解答题需要完整的逻辑推导(如证明数列单调性、求解圆锥曲线参数),这正是大模型的传统弱项。阿里千问在解答题中正确率达68%,比GPT-4o高5个百分点。”

为何胜出?数学推理能力的“三大进阶”

国内大模型的“逆袭”并非偶然。评测报告从技术维度总结了阿里千问、讯飞星火的核心优势:

1. 专业知识图谱的深度优化
两款模型均针对数学领域构建了“结构化知识图谱”,涵盖3000+数学定理、2000+典型题型及10万+历年真题解析。例如,在处理“立体几何证明题”时,模型能快速调用“线面垂直判定定理”“三垂线定理”等知识点,并自动匹配“作辅助线”“建立坐标系”等解题策略,避免了GPT-4o常见的“定理混淆”问题。

2. 多步推理的逻辑链稳定性
高考数学解答题通常需要5-8步推导(如“已知数列递推公式→求通项→证明单调性→求前n项和”)。评测发现,阿里千问的“逻辑链断裂率”仅为8%(GPT-4o为15%),其“分步推理”功能会主动标注每一步的依据(如“根据等差数列定义”),大幅降低了因中间步骤错误导致的全局失分。

3. 符号计算与自然语言的融合能力
数学题涉及大量符号运算(如求导、积分、矩阵运算),传统大模型常因“符号解析错误”(如混淆“×”与“·”)导致答案偏差。阿里千问、讯飞星火通过集成自研的“数学符号引擎”,将符号识别准确率提升至99.2%,并支持“自然语言描述→符号表达式→计算结果”的全流程转换。例如,用户输入“求函数f(x)=x³-3x²+2在区间[0,3]上的最大值”,模型能自动生成正确的导数表达式并求解极值点。

行业意义:从“通用能力”到“垂直突破”的转折点

此次评测结果被视为国内大模型“从通用场景转向垂直领域”的关键标志。王强教授指出:“过去国内大模型更注重对话流畅度、多模态生成等‘显性能力’,此次数学推理的突破说明,我们在‘隐性逻辑能力’上已追上甚至超越国际水平。”

具体到应用场景,高考数学的“解题能力”直接关联教育、科研等领域的实用价值:
– 智能教育:可开发“数学错题解析助手”,自动分析学生错误步骤并提供针对性讲解;
– 科研辅助:在物理公式推导、工程计算等场景中,大模型能快速验证中间步骤的正确性;
– 工业质检:通过数学建模分析生产线数据(如良品率波动),辅助优化工艺参数。

“我们测试过让阿里千问批改学生数学试卷,其‘步骤评分’的准确率已达85%,接近人工教师水平。”某教育科技公司CTO向记者表示,“这意味着大模型有望成为‘AI数学老师’,缓解中小学数学师资不均衡问题。”

国际对比:GPT-4o输在哪?

尽管GPT-4o仍是综合能力最强的大模型,但其在数学推理上的短板在此次评测中暴露无遗。评测团队分析,主要原因包括:
– 知识更新滞后:GPT-4o的训练数据截止到2024年,对2025年高考新增的“跨学科综合题”(如数学与物理结合的运动学问题)响应不足;
– 专业优化缺失:OpenAI未针对数学等垂直领域做深度微调,模型更侧重通用语言理解;
– 符号处理限制:GPT-4o的符号解析依赖通用NLP模块,对复杂公式(如多重积分、矩阵方程)的处理准确率比国内模型低12%。

“这不是‘谁更聪明’的问题,而是‘谁更专注’的问题。”人工智能学者李航评价,“国内大模型团队投入了大量资源优化数学推理,而国际模型更追求‘全能性’,这是此次结果的核心差异。”

垂直领域或成大模型竞争新战场

随着大模型技术的普及,“通用能力”的差距将逐渐缩小,而“垂直领域的深度”将成为新的竞争壁垒。此次高考数学评测的结果,不仅证明国内大模型在逻辑推理上的突破,更预示着——在教育、医疗、科研等需要专业知识的领域,国产AI正凭借“场景化优化”建立独特优势。

截至发稿,阿里与讯飞均表示将基于此次评测结果,进一步优化数学推理功能。“我们计划在千问中推出‘数学特训模式’,针对初高中知识点提供定制化学习方案。”阿里达摩院AI实验室负责人透露。可以预见,当大模型不仅“能聊天”,更“能解题”“能科研”,人工智能与人类的协作,将进入一个更“专业”的新阶段。

嘿,伙伴们,今天我们的AI探索之旅已经圆满结束。关于“复旦评测:阿里千问、讯飞星火高考数学超GPT-4o”的内容已经分享给大家了。感谢你们的陪伴,希望这次旅程让你对AI能够更了解、更喜欢。谨记,精准提问是解锁AI潜能的钥匙哦!如果有小伙伴想要了解学习更多的AI知识,请关注我们的官网“AI智研社”,保证让你收获满满呦!

微信打赏二维码 微信扫一扫

支付宝打赏二维码 支付宝扫一扫

版权: 转载请注明出处:https://www.ai-blog.cn/18173.html

下一篇:

已经没有下一篇了!

相关推荐

复旦评测:阿里千问、讯飞星火高考数学超GPT-4o: 高考数学成大模型“新考场” 国内双雄击败国际顶流…

小智头像图片
146

云知声山海大模型:医疗能力登顶全球,超越GPT-4: 在人工智能的竞技场上,云知声山海大模型凭借其…

小智头像图片
39

AMD发布MI400系列AI芯片 机架级连接引OpenAI青睐: 6月重磅发布:AMD Instinct MI400系列AI芯片细…

小智头像图片
111

火山引擎发布豆包大模型1.6:开启AI新征程,加速Agent应用: 6月11日,在科技领域无疑是一个值得关…

小智头像图片
46

Meta发布V-JEPA 2:AI物理推理能力再突破: 6月11日重磅发布 新模型剑指“物理世界理解” 6月11日,M…

小智头像图片
148

苹果WWDC2025:系统大变身,AI元素大放异彩: 北京时间2025年6月10日凌晨1点,科技圈瞩目的苹果WWD…

小智头像图片
172

夸克推出高考AI三功能 志愿填报辅助全流程覆盖: 高考季关键节点 夸克发布志愿填报AI解决方案 6月1…

小智头像图片
99

百度爱采购放大招:10秒生成百条视频的B2B行业智能体来袭: 百度爱采购的新动作 6月12日有重大消息…

小智头像图片
57
发表评论
暂无评论

还没有评论呢,快来抢沙发~

助力原创内容

快速提升站内名气成为大牛

扫描二维码

手机访问本站

二维码
vip弹窗图片