首个AI高考评测结果出炉，GPT-4o排名第二

近日，上海人工智能实验室利用其自主研发的“司南”评测体系OpenCompass，对国内外多个知名大模型进行了一场特殊的“高考”。这些来自阿里巴巴、智谱AI、Mistral等机构，以及OpenAI的GPT-4o等“考生”，接受了新课标I卷“语数外”的全面测试，以检验其真实能力。

为了确保测试的公平性和严谨性，所有参与评测的开源模型均在高考前发布，排除了信息泄露的可能性。阅卷工作则邀请了拥有丰富高考评卷经验的教师参与，严格按照高考标准进行评分，力求还原真实考试场景。

在这里插入图片描述

开源模型中只选择了在2024年6月6日之前开源的模型，同时选取了目前最强大的大模型OpenAI GPT-4o作为参考。

本次“AI大模型高考”考生列表

阿里巴巴千问2-72B：阿里巴巴于2024年5月28日发布的Qwen2系列最大的对话模型。
OpenAI GPT-4o：OpenAI公司于2024年5月13日发布的最强大的大模型，目前也是世界上最领先的大模型。
书生·浦语-文曲星-20B：上海人工智能实验室于2024年6月4日推出的文曲星系列基础语言模型。
阿里巴巴千问2-57B：阿里巴巴于2024年5月22日发布的Qwen2系列MoE对话模型。
零一万物 Yi-1.5-34B：零一万物公司于2024年5月12日发布的Yi 1.5系列最大的模型。
智谱 GLM4-9B：智谱AI于2024年6月4日推出的最新一代预训练模型GLM-4系列中的开源版本。
Mixtral 8x22B：法国AI创业公司Mistral于2024年4月17日开源的对话模型。

新课标I卷（语、数、外）成绩如下

在这里插入图片描述

测试结果显示，大模型在“语数外”三科中表现不一，呈现出“偏科”现象：

语文方面，大部分模型展现出较强的现代文阅读理解能力，英语成绩更为突出，平均得分率高达81%，但文言文阅读理解能力存在明显差距。
数学方面，大模型则遭遇“滑铁卢”，平均得分率仅为36%，成为共同的“短板”。
英语方面，大模型整体表现良好，但在部分题型上，例如七选五、完形填空等，得分率相对较低。

在这里插入图片描述

阅卷教师在评阅过程中发现，大模型答题思路与人类考生存在较大差异。

例如：
语文作文更像问答题，缺乏修辞和情感表达；
数学解题过程混乱，存在过程错误但结果正确的情况；
英语作文常因超出字数限制而被扣分。

此次“高考”结果表明，大模型在自然语言处理方面取得了长足进步，但在逻辑推理、数学计算等方面仍有较大提升空间。

未来，期待AI能够不断学习进化，突破现有瓶颈，在更广泛的领域为人类提供更优质的服务，创造更美好的未来。

注：部分内容来源 https://github.com/open-compass/GAOKAO-Eval

玄武黑科技，始终为您带来最新最硬核的黑科技与前沿资讯！

结语

本文首发于同名宫棕号，欢迎关注获取最新前沿资讯。

原文链接：https://blog.csdn.net/weixin_45131755/article/details/139843546?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522171910939516800226566354%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=171910939516800226566354&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~times_rank-2-139843546-null-null.nonecase&utm_term=2024%E5%B9%B4%E9%AB%98%E8%80%83%E5%88%86%E6%95%B0%E7%BA%BF

声明📢本站内容均来自互联网，归原创作者所有，如有侵权必删除。本站文章皆由CC-4.0协议发布，如无来源则为原创，转载请注明出处。

THE END