AI快讯

复旦评测：阿里千问、讯飞星火高考数学超GPT-4o

小智 AI动态资讯 2025年06月15日

0 收藏 0 点赞 250 浏览 2203 个字

摘要 :

复旦评测：阿里千问、讯飞星火高考数学超GPT-4o：高考数学成大模型“新考场” 国内双雄击败国际顶流近日，复旦大学人工智能创新与产业研究院发布《2025大模型数学推理能……

哈喽！伙伴们，我是小智，你们的AI向导。欢迎来到每日的AI学习时间。今天，我们将一起深入AI的奇妙世界，探索“复旦评测：阿里千问、讯飞星火高考数学超GPT-4o”，并学会本篇文章中所讲的全部知识点。还是那句话“不必远征未知，只需唤醒你的潜能！”跟着小智的步伐，我们终将学有所成，学以致用，并发现自身的更多可能性。话不多说，现在就让我们开始这场激发潜能的AI学习之旅吧。

复旦评测：阿里千问、讯飞星火高考数学超GPT-4o：

高考数学成大模型“新考场” 国内双雄击败国际顶流

近日，复旦大学人工智能创新与产业研究院发布《2025大模型数学推理能力评测报告》，其中“高考数学题测试”结果引发广泛关注——阿里千问、讯飞星火两大国内大模型以显著优势超越GPT-4o（GPT-4优化版），分列前两名。这是国内大模型首次在标准化数学测试中公开击败国际头部产品，被视为“国产AI在逻辑推理领域的关键突破”。

评测细节：覆盖全卷题型难度对标真实高考

此次评测选取2025年全国甲卷、新高考I卷等4套高考数学真题（含文理综卷），涵盖函数与导数、立体几何、概率统计、解析几何等核心考点，总计120道题（含选择题、填空题、解答题）。评测团队特别强调：“题目完全取自真实高考卷，未做难度调整，重点考察大模型的‘真实场景解题能力’。”

测试结果显示：
– 阿里千问以112.3分（满分150分）位列第一，正确率74.9%；
– 讯飞星火以108.7分紧随其后，正确率72.5%；
– GPT-4o得分105.2分，正确率70.1%；
– 其他参与评测的国际模型（如Claude 3、Gemini Pro）得分均未超过100分。

“最值得关注的是解答题的表现。”评测负责人、复旦计算机学院教授王强介绍，“选择题和填空题主要考察知识记忆，而解答题需要完整的逻辑推导（如证明数列单调性、求解圆锥曲线参数），这正是大模型的传统弱项。阿里千问在解答题中正确率达68%，比GPT-4o高5个百分点。”

为何胜出？数学推理能力的“三大进阶”

国内大模型的“逆袭”并非偶然。评测报告从技术维度总结了阿里千问、讯飞星火的核心优势：

1. 专业知识图谱的深度优化
两款模型均针对数学领域构建了“结构化知识图谱”，涵盖3000+数学定理、2000+典型题型及10万+历年真题解析。例如，在处理“立体几何证明题”时，模型能快速调用“线面垂直判定定理”“三垂线定理”等知识点，并自动匹配“作辅助线”“建立坐标系”等解题策略，避免了GPT-4o常见的“定理混淆”问题。

2. 多步推理的逻辑链稳定性
高考数学解答题通常需要5-8步推导（如“已知数列递推公式→求通项→证明单调性→求前n项和”）。评测发现，阿里千问的“逻辑链断裂率”仅为8%（GPT-4o为15%），其“分步推理”功能会主动标注每一步的依据（如“根据等差数列定义”），大幅降低了因中间步骤错误导致的全局失分。

3. 符号计算与自然语言的融合能力
数学题涉及大量符号运算（如求导、积分、矩阵运算），传统大模型常因“符号解析错误”（如混淆“×”与“·”）导致答案偏差。阿里千问、讯飞星火通过集成自研的“数学符号引擎”，将符号识别准确率提升至99.2%，并支持“自然语言描述→符号表达式→计算结果”的全流程转换。例如，用户输入“求函数f(x)=x³-3x²+2在区间[0,3]上的最大值”，模型能自动生成正确的导数表达式并求解极值点。

行业意义：从“通用能力”到“垂直突破”的转折点

此次评测结果被视为国内大模型“从通用场景转向垂直领域”的关键标志。王强教授指出：“过去国内大模型更注重对话流畅度、多模态生成等‘显性能力’，此次数学推理的突破说明，我们在‘隐性逻辑能力’上已追上甚至超越国际水平。”

具体到应用场景，高考数学的“解题能力”直接关联教育、科研等领域的实用价值：
– 智能教育：可开发“数学错题解析助手”，自动分析学生错误步骤并提供针对性讲解；
– 科研辅助：在物理公式推导、工程计算等场景中，大模型能快速验证中间步骤的正确性；
– 工业质检：通过数学建模分析生产线数据（如良品率波动），辅助优化工艺参数。

“我们测试过让阿里千问批改学生数学试卷，其‘步骤评分’的准确率已达85%，接近人工教师水平。”某教育科技公司CTO向记者表示，“这意味着大模型有望成为‘AI数学老师’，缓解中小学数学师资不均衡问题。”

国际对比：GPT-4o输在哪？

尽管GPT-4o仍是综合能力最强的大模型，但其在数学推理上的短板在此次评测中暴露无遗。评测团队分析，主要原因包括：
– 知识更新滞后：GPT-4o的训练数据截止到2024年，对2025年高考新增的“跨学科综合题”（如数学与物理结合的运动学问题）响应不足；
– 专业优化缺失：OpenAI未针对数学等垂直领域做深度微调，模型更侧重通用语言理解；
– 符号处理限制：GPT-4o的符号解析依赖通用NLP模块，对复杂公式（如多重积分、矩阵方程）的处理准确率比国内模型低12%。

“这不是‘谁更聪明’的问题，而是‘谁更专注’的问题。”人工智能学者李航评价，“国内大模型团队投入了大量资源优化数学推理，而国际模型更追求‘全能性’，这是此次结果的核心差异。”

垂直领域或成大模型竞争新战场

随着大模型技术的普及，“通用能力”的差距将逐渐缩小，而“垂直领域的深度”将成为新的竞争壁垒。此次高考数学评测的结果，不仅证明国内大模型在逻辑推理上的突破，更预示着——在教育、医疗、科研等需要专业知识的领域，国产AI正凭借“场景化优化”建立独特优势。

截至发稿，阿里与讯飞均表示将基于此次评测结果，进一步优化数学推理功能。“我们计划在千问中推出‘数学特训模式’，针对初高中知识点提供定制化学习方案。”阿里达摩院AI实验室负责人透露。可以预见，当大模型不仅“能聊天”，更“能解题”“能科研”，人工智能与人类的协作，将进入一个更“专业”的新阶段。

嘿，伙伴们，今天我们的AI探索之旅已经圆满结束。关于“复旦评测：阿里千问、讯飞星火高考数学超GPT-4o”的内容已经分享给大家了。感谢你们的陪伴，希望这次旅程让你对AI能够更了解、更喜欢。谨记，精准提问是解锁AI潜能的钥匙哦！如果有小伙伴想要了解学习更多的AI知识，请关注我们的官网“AI智研社”，保证让你收获满满呦！

赏

微信打赏二维码微信扫一扫