AI 做 2024 高考题哪家强?大模型竞技场 Compass Arena 实测

Datawhale干货

作者:同济子豪兄,Datawhale成员

01

大模型爆火两年,到底谁家“遥遥领先”?

ChatGPT爆火之后,国内外掀起大模型军备竞赛,通义千问、文心一言、零一万物、Kimi Chat、Llama3、SoRA、GPT4、GPT4o……各家厂商的开源、闭源大模型如雨后春笋般涌现。

29dbfb3cfa0fd25e73d655265e712f2e.png

你肯定会在各种营销号中看到“比肩 GPT4”、“超越 GPT4V”、“最强大模型易主”、“新晋炸子鸡”、“开源扛把子”、“新 SOTA”、“多模态霸榜”、“杀疯了”、“Karpathy 点赞!”、“Github 狂揽 XX 星”、“国产小钢炮”等夸张字眼。

87eecc42aeb06c8b31776a5e8fdd38ac.png

eb1ef0b350e4d924799c2a7b385756dc.png

但很多大模型都面临尴尬处境:跑分没输过,体验没赢过

那么,到底如何公平、透明、客观、准确评价大模型的各项能力?作为开发者,到底应该选择哪款大模型?

数学、代码、推理、逻辑、记忆、理解、生成、知识、多模态、智能体,各项赛道哪些大模型独占鳌头?

6106a203a8d61d7d3f8266294f9cfbb1.png

最简单的办法就是:让各家大模型“做同一套卷子”、同台竞技,实时对战

例如在国外的 Chatbot Arena 大模型对战平台,目前国产大模型中,分数最高的是 Yi-Large。

Sam Altman、Jeff Dean、李开复等大佬都认为:只有同台对战,是骡子是马出来遛遛,才能去伪存真、高下立现。

ad5937dc784e9cfab2749bc7bd81aacb.jpeg


02

Compass Arena:让大模型同台竞技

上海人工智能实验室 司南 OpenCompass 和 魔搭 ModelScope 联手推出了国内首个大语言模型竞技场 Compass Arena。

Compass Arena 体验链接:

https://modelscope.cn/studios/opencompass/CompassArena/summary

它引入全新的匿名对战模式,支持通义千问、文心一言、Meta、月之暗面、零一万物、百川智能、字节豆包、书生浦语、智谱AI、讯飞星火等15家大模型厂商的27个大模型。

其中不乏最新发布的 Llama3、Qwen2、GLM4、Baichuan4、Yi-Large。

0a268573d7616570394f3991f197f4d8.png


03

比起单纯“跑分打榜”

Compass Arena 有以下几个好处

1.透明公正:大家都做同一道题,是骡子是马,高下立见。

2.匿名性:用户双盲测试,消除大厂滤镜和先入为主的光环,聚焦大模型能力本身。

3.模型全:目前涵盖15家大模型厂商的27个大模型。即将发布 Compass Arena 榜单,这个榜单非常客观。

4.中立:魔搭 ModelScope 是中国最大的AI开源社区,立场公正,开发者真正用手投票,没有商业化和营销号干预。

5.两种对战模式:匿名对战和自选对战。

4df1a7dbdc11f1ab593fa2b924300f99.png


04

大模型做各科高考题,到底水平如何?

2024年3月,我使用 OpenCompass 中的 GaokaoBench 高考题库,详细测评了几款主流大模型做各科高考题的分数。

GaokaoBench 高考题库涵盖近 12 年各学科的 1781 道选择题、218 道填空题、812 道解答题。

我发现,主流中文大模型在语文、数学、地理、政治、历史、生物、物理、化学等学科,确实与 GPT4 相比毫不逊色,但在英文水平上相形见绌。

fac2c660977d62087d8c2cc1ced1134f.png


05

挑战 2024 年高考语文作文题

跑分总感觉差一点意思,为了更直观比较大模型的生成能力,我直接将2024年高考语文作文原题作为 Prompt 提示词,输入 Compass Arena 平台,打开“自选对战”模式。

b5b1af6ebcbcd731222ca29afccec8a6.jpeg

1c91680bee2a3817df79c39c74a8c126.png

仔细阅读 AI 写出的高考语文作文可以发现,通义千问 Qwen-max-0428 深度理解了题意,以“在信息洪流中寻找真问题”为题目,阐述了互联网信息洪流时代的碎片化、表面化、快餐化问题,并进一步思考:我们如何保持独立思考,寻找并解决真正的问题。主题鲜明、论点清晰、结构合理、行文流畅。

b69a1e5ccc2fe08e60cd639f08ed2d39.png

fd3a1ff4b94e7eac526a642b12977f0f.png

而零一万物的扛把子大模型 Yi-Large,则揭示了人工智能发展带来了伦理道德、隐私保护、就业结构变化等新问题,以及对社会、法律、道德、文化等多个层面的影响。它像一个紧跟科技热点的高中生,又像一个关心人类命运、承担社会责任的哲学家。

c0425e7b96dfda221530cd60ebbcb14e.png

近几年,AI 做高考题成为每年必谈的话题,大模型的理解、生成、逻辑、记忆、写作能力逐年突飞猛进。

而有了 Compass Arena 这个平台,个人开发者可以跨过算力、数据、算法、开发门槛,直观测评出不同大模型针对同一个问题的效果,让真正优秀的大模型脱颖而出!

5cc2c18288af1f9e99145d1547e0ab51.png

原文链接:https://blog.csdn.net/Datawhale/article/details/139554548?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522171910921916800184118865%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=171910921916800184118865&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~times_rank-27-139554548-null-null.nonecase&utm_term=2024%E5%B9%B4%E9%AB%98%E8%80%83%E5%87%BA%E5%88%86

© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享