Datawhale干货
作者:同济子豪兄,Datawhale成员
01
大模型爆火两年,到底谁家“遥遥领先”?
ChatGPT爆火之后,国内外掀起大模型军备竞赛,通义千问、文心一言、零一万物、Kimi Chat、Llama3、SoRA、GPT4、GPT4o……各家厂商的开源、闭源大模型如雨后春笋般涌现。
你肯定会在各种营销号中看到“比肩 GPT4”、“超越 GPT4V”、“最强大模型易主”、“新晋炸子鸡”、“开源扛把子”、“新 SOTA”、“多模态霸榜”、“杀疯了”、“Karpathy 点赞!”、“Github 狂揽 XX 星”、“国产小钢炮”等夸张字眼。
但很多大模型都面临尴尬处境:跑分没输过,体验没赢过。
那么,到底如何公平、透明、客观、准确评价大模型的各项能力?作为开发者,到底应该选择哪款大模型?
数学、代码、推理、逻辑、记忆、理解、生成、知识、多模态、智能体,各项赛道哪些大模型独占鳌头?
最简单的办法就是:让各家大模型“做同一套卷子”、同台竞技,实时对战!
例如在国外的 Chatbot Arena 大模型对战平台,目前国产大模型中,分数最高的是 Yi-Large。
Sam Altman、Jeff Dean、李开复等大佬都认为:只有同台对战,是骡子是马出来遛遛,才能去伪存真、高下立现。
02
Compass Arena:让大模型同台竞技
上海人工智能实验室 司南 OpenCompass 和 魔搭 ModelScope 联手推出了国内首个大语言模型竞技场 Compass Arena。
Compass Arena 体验链接:
https://modelscope.cn/studios/opencompass/CompassArena/summary
它引入全新的匿名对战模式,支持通义千问、文心一言、Meta、月之暗面、零一万物、百川智能、字节豆包、书生浦语、智谱AI、讯飞星火等15家大模型厂商的27个大模型。
其中不乏最新发布的 Llama3、Qwen2、GLM4、Baichuan4、Yi-Large。
03
比起单纯“跑分打榜”
Compass Arena 有以下几个好处
1.透明公正:大家都做同一道题,是骡子是马,高下立见。
2.匿名性:用户双盲测试,消除大厂滤镜和先入为主的光环,聚焦大模型能力本身。
3.模型全:目前涵盖15家大模型厂商的27个大模型。即将发布 Compass Arena 榜单,这个榜单非常客观。
4.中立:魔搭 ModelScope 是中国最大的AI开源社区,立场公正,开发者真正用手投票,没有商业化和营销号干预。
5.两种对战模式:匿名对战和自选对战。
04
大模型做各科高考题,到底水平如何?
2024年3月,我使用 OpenCompass 中的 GaokaoBench 高考题库,详细测评了几款主流大模型做各科高考题的分数。
GaokaoBench 高考题库涵盖近 12 年各学科的 1781 道选择题、218 道填空题、812 道解答题。
我发现,主流中文大模型在语文、数学、地理、政治、历史、生物、物理、化学等学科,确实与 GPT4 相比毫不逊色,但在英文水平上相形见绌。
05
挑战 2024 年高考语文作文题
跑分总感觉差一点意思,为了更直观比较大模型的生成能力,我直接将2024年高考语文作文原题作为 Prompt 提示词,输入 Compass Arena 平台,打开“自选对战”模式。
仔细阅读 AI 写出的高考语文作文可以发现,通义千问 Qwen-max-0428 深度理解了题意,以“在信息洪流中寻找真问题”为题目,阐述了互联网信息洪流时代的碎片化、表面化、快餐化问题,并进一步思考:我们如何保持独立思考,寻找并解决真正的问题。主题鲜明、论点清晰、结构合理、行文流畅。
而零一万物的扛把子大模型 Yi-Large,则揭示了人工智能发展带来了伦理道德、隐私保护、就业结构变化等新问题,以及对社会、法律、道德、文化等多个层面的影响。它像一个紧跟科技热点的高中生,又像一个关心人类命运、承担社会责任的哲学家。
近几年,AI 做高考题成为每年必谈的话题,大模型的理解、生成、逻辑、记忆、写作能力逐年突飞猛进。
而有了 Compass Arena 这个平台,个人开发者可以跨过算力、数据、算法、开发门槛,直观测评出不同大模型针对同一个问题的效果,让真正优秀的大模型脱颖而出!
原文链接:https://blog.csdn.net/Datawhale/article/details/139554548?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522171910921916800184118865%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=171910921916800184118865&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~times_rank-27-139554548-null-null.nonecase&utm_term=2024%E5%B9%B4%E9%AB%98%E8%80%83%E5%87%BA%E5%88%86