大模型高考数学测评结果，国内AI大模型成绩超GPT-4o！

每年高考都是备受全社会关注的一件大事，而今年略有不同，因为除了鱼跃龙门的高三学子们，还多了许多陪他们一同参加考试的 AI 大模型。

在所有的考试科目中，数学显然一直都是最难的那一门，不论是对考生还是对大模型。因为数学最考验逻辑思维和计算能力，而大模型是从自然语言训练，即便是公认最强的 ChatGPT 也被诟病不懂数学。

去年高考，国产大模型还远不像今天这样生机勃勃。今年就不一样了，一年多的百模大战让国产大模型也能凑满一整个考场。考试刚结束网上就有很多 AI 大战高考的文章。

不过其中一些测试显然太过简单粗暴，比如直接上传数学试卷的截图，然后就下结论说国产 AI 不如 GPT-4o，因为这就不是在比数学能力了，而是在比 OCR 能力，能做出这种测试的自媒体我想大概连 LaTeX 是什么都不知道…

而复旦大学NLP实验室的测试就更加严谨准确了，以高考数学真题单选、多选、填空的客观题为测评集，采取文本转义或 LaTeX 格式对国内外主流大模型进行了考试。先看一下考试结果吧（LaTeX版）：

新课标I卷：大模型高考数学测评结果，国内AI大模型成绩超GPT-4o！插图新课标II卷：从结果可以看出：

1、少数大模型已经能在高考数学题目中拿到70%以上正确率；且模型之间拉开了较为显著的差距，一些主攻文本的模型显然数学能力不足；

2、在两张试卷的测试中，GPT-4o、Gemini-1.5都没能打赢国产大模型；

3、如果把GPT-4o、Gemini-1.5作为两个大模型数学能力的基准划分为优、中、差三等，能稳定优于GPT-4o则为优，介于GPT-4o和Gemini-1.5之间则为中，否则为差。以此可以将国产大模型划分为三档，优档中则只有Qwen2-72B和讯飞星火两个模型。

这个结果说实话挺出乎意料的：

一来是因为大模型之间明显拉开了差距。我上次拿公务员行测考试的题目测试国产大模型，而行测中语文和常识题比较多，区分度不够，大家上下也不过相差几分，看来数学能力依然很多大模型的短板弱项；

二来是像Qwen-72B这样的开源模型在两次考试中分别位居一二，要知道这可不是1+1=2那样的简单计算，也不是鸡兔同笼那种被训烂了的二元一次方程组，而是实实在在涵盖了集合、虚数、向量、根式、函数、曲线等高难度题目的高考真题啊。

Qwen2-72B作为一个开源模型，怎么就能拿到这么好的成绩？强的有点不真实了…莫非选择题是蒙对的？所以我们还是得自己动手测几道题吧。

第一题：大模型高考数学测评结果，国内AI大模型成绩超GPT-4o！插图2 第二题：第三题：前三道简单题显然没什么问题，过程也是对的。时间关系我直接从后面再测两道题。第12题：一顿操作还是算错了。第13题：能解出正确答案 a=ln⁡(2)a = {\ln(2)}a = {\ln(2)} 大模型高考数学测评结果，国内AI大模型成绩超GPT-4o！插图6 可以看出，测评结果跟复旦NLP的结果基本一致。压轴的选择题可能存在蒙的成分，但中等、简单题目是可以给出比较准确的解答思路和计算结果的。

最后，再聊聊大模型测评吧。现在市面上的大模型越来越多，随之而来的是大家对大模型能力比较的需要。我们可以看到，不论哪个模型，在发布时都会贴出一大堆测评分数，来佐证自己的能力。

但是问题在于：

就像高考真题和模拟试卷的关系一样，测评数据集难免会发生泄漏，也难免会有人针对性地进行刷榜。现在的大模型都是通用对话型，不再像过去是针对某个非常具体的分类任务设计，所以需要综合地评价模型在不同方面的能力。现在的模型相比于过去，能力还是有长足增长的。

所以一些比较老的测试集就会出现区分度不够的问题，就好比一张考试试卷，大家都能考到85分以上，这样的测试结果意义其实也不太大。

所以为什么 Lmsys ChatBot Arena 火起来了，就是因为它引入了排位赛 Elo 分数的机制，通过让海量的真实对话去打分决出胜负，来评测模型排名。

针对测评区分度的问题，前段时间 Lmsys ChatBot Arena 还专门发了一篇文章，提供了一个 Arena-Hard 测试集，相比于 MT Bench，Arena Hard Auto v0.1 提供了更强的区分度：大模型高考数学测评结果，国内AI大模型成绩超GPT-4o！插图7 在排行榜中也专门提供了 Hard Prompts 分类，Qwen2-72B 和 Llama3-70B 一起上榜前10，和GPT-4-0314 并列：

所以从测评的角度，高考数学真题真的是非常难得的测试题目，因为高考真题严格保密，绝不存在泄题或者刷榜的因素，同时数学和推理能力完全可以作为 Hard 题目，来区分模型的能力排名。

总之，我觉得今年国产大模型的高考表现是超出预期的，特别是通义千问 Qwen2 这样的开源模型能做到第一、第二的成绩，真的非常优秀了。我也很期待国产大模型们明年高考的表现，一定会有更大的变化和进步。

可能大家都想学习AI大模型技术，也想通过这项技能真正达到升职加薪，就业或是副业的目的，但是不知道该如何开始学习，因为网上的资料太多太杂乱了，如果不能系统的学习就相当于是白学。为了让大家少走弯路，少碰壁，这里我直接把全套AI技术和大模型入门资料、操作变现玩法都打包整理好，希望能够真正帮助到大家。

👉AI大模型学习路线汇总👈
大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）
在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈
光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。
在这里插入图片描述

👉大模型视频和PDF合集👈
观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

在这里插入图片描述

👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

原文链接：https://blog.csdn.net/m0_65555479/article/details/139648781?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522171852711516800211576680%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=171852711516800211576680&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~times_rank-1-139648781-null-null.nonecase&utm_term=2024%E9%AB%98%E8%80%83%E6%88%90%E7%BB%A9

声明📢本站内容均来自互联网，归原创作者所有，如有侵权必删除。本站文章皆由CC-4.0协议发布，如无来源则为原创，转载请注明出处。

THE END