一招分辨刷榜作弊大模型，博士小哥开源AI数学“照妖镜”

投稿号 • 2023年11月17日 18:12 • 热点 • 阅读 161

如今很多大模型都声称擅长数学，谁有真才实学?谁是靠背测试题“作弊”的?

有人在今年刚刚公布题目的匈牙利全国数学期末考试上做了一把全面测试。

很多模型一下子就“现原形”了。

先看绿色部分，这些大模型在经典数学测试集GSM8k和全新卷子上取得的成绩差不多，共同组成参照标准。

再看红色部分，在GSM8K上的成绩显著高于同参数规模的大模型，一到全新卷子上成绩却明显下降，与同规模大模型差不多了。

研究者把他们归类为“疑似或已知在GSM8k上训练过”。

网友看过这项测试后表示，是时候开始在大模型从来没见过的题目上搞评测了。

也有人认为，这项测试+每个人实际上手使用大模型的经验，是目前唯一靠谱的评估手段。

马斯克Grok仅次于GPT-4，开源Llemma成绩出色

测试者Keiran Paster是多伦多大学博士生、谷歌学生研究者，也是测试中Lemma大模型的作者之一。

让大模型考匈牙利全国高中数学期末考试，这招出自马斯克的xAI。

xAI的Grok大模型发布时，除了几个常见的测试集，还额外做了这项测试，就是为了排除模型无意中在网络数据见过测试题的问题。

这个考试今年5月底才考完，当前大模型基本没机会见过这套试题。

xAI发布时还公布了的GPT-3.5、GPT-4、Claude2的成绩作为比较。

在这组数据基础上，Paster进一步测试了多个生成数学能力强的开源模型。

并把测试题目、测试脚本、各模型回答结果都开源在了Huggingface上，供大家检验以及进一步测试其他模型。

结果来看，GPT-4和Claude-2组成第一梯队，在GSM8k和新卷子上成绩都很高。

虽然这不代表GPT-4和Claude2的训练数据中完全没有GSM8k的泄露题，但至少它俩泛化能力不错、能做对新题，就不计较了。

接下来，马斯克xAI的Grok-0（33B）和Grok-1(未公布参数规模)表现都不错。

Grok-1是“未作弊组”里成绩最高的，新卷子成绩甚至高过Claude2。

Grok-0在GSM8k上的表现接近GPT3.5-Turbo，新卷子上略差一些。

除了上面这几个闭源模型，测试中其他的都是开源模型了。

Code Llama系列是meta自己在Llama2基础上微调的，主打根据自然语言生成代码，现在看来数学能力比同规模的模型稍差。

在Code Llama的基础上，多所大学和研究机构共同推出Llemma系列，并由EleutherAI开源。

团队从科学论文、包含数学的网络数据和数学代码中收集了Proof-Pile-2数据集，训练后的Llemma能使用工具和做形式定理证明，无需任何进一步的微调。

Llemma34B在新卷子上与GPT-3.5Turbo水平接近。

Mistral系列则是法国AI独角兽Mistral AI训练的，Apache2.0开源协议比Llama更宽松，成为羊驼家族之后最受开源社区欢迎的基础模型。

“过拟合组”里的OpenChat3.5和metaMath Mistral都是基于Mistral生态微调而来。

metaMath和MAmmoTH Code则是基于Code Llama生态。

有在实际业务中选择开源大模型的就要小心避开这一组了，它们很有可能只是刷榜成绩好看，但实际能力弱于同规模模型。

不少网友都对Paster这项试验表示感谢，认为这正是了解模型实际情况所需要的。

也有人提出担心:

同时他认为，解决办法可能是有一家拥有专有测试的专门大模型评估公司。

另一项提议是建立一个逐年更新的测试基准，来缓和过度拟合问题。

声明：本文内容整理自网络，观点仅代表原作者本人，投稿号仅提供信息发布服务。如有侵权，请联系管理员。

0 0

关于作者

投稿号

36.9K 文章

0 评论

0 粉丝

这个人很懒，什么都没有留下～

国人只看贵的！今年智能手机双11销量下滑16%：苹果华为独霸高端机市场

上一篇 2023年11月17日 18:12

直播电商走入深水区，如何穿越风暴？

下一篇 2023年11月17日 18:12

描写植物的现代诗摘抄，描写植物的现代诗大全

我是一株不起眼的仙人掌把根深深扎进沙漠的中央没有湿润的土壤绿叶的扶持直面骄阳的炙烤和风雨的侵袭我只能让自己更加坚强默默等待那美丽的绽放我身姿挺拔长满尖刺你不用害怕其实我外刚内柔只要你懂我的欢乐忧愁我会为你敞开心房…
投稿号
2022年9月30日 • 热点
1430
热点
最火的rpg地图(rpg地图排行榜)
魔兽争霸地图编辑器怎么做一个排行榜您可以使用魔兽争霸3的地图编辑器来制作地图。以下是一些基本的步骤：打开地图编辑器并创建一个新的地图。使用地形编辑器绘制出地图的全貌。使用单位编辑器在地图中创建游戏可能出现的任何单位，包括人物、建…
投稿号
热点 2023年12月8日
1580
《柯南》新剧场版正式上映，“柯哀亲了”剧照曝光，又热搜第一了

4月14号凌晨，《名侦探柯南》最新剧场版《黑铁的鱼影》已经正式在日本地区上线了。在剧场版上线后，“柯哀亲了”这个话题再一次登上了热搜榜第一，因为已经证实了这部剧场版中的确有柯南和灰原哀人工呼吸的情节，而且灰原哀亲小兰的情节也是真的…
投稿号
2023年5月5日 • 热点
1200
热点
蔡卓妍发文为刘德华庆生手机小尾巴亮了：华为Mate60 RS非凡大师
快科技9月27日消息，今天是刘德华的62岁生日，其好友和粉丝”之一的蔡卓妍发文为其庆生，称其总能不断干预开启非凡之路。值得注意的是，她用来发文的手机小尾巴引起了网友的注意华为Mate60RS非凡大师。这正是前两天刘德华在华为发…
投稿号
热点 2023年9月27日
880
热点
挖呀挖呀挖原创作者是谁(挖呀挖呀挖原创作者)
近日，儿歌“挖呀挖呀挖”火爆全网，简单的歌词搭配上手势舞的动作，成功洗脑了众多网友，成为了抖音上热门的新晋神曲。凭借翻唱这首童谣，多位幼儿老师也因此走红。现在有许多人很好奇，究竟挖呀挖呀挖的原创作者是谁？下面我们来了解看看吧。据…
投稿号
热点 2023年5月8日
1320
热点
头顶的太阳燃烧着青春的余热是什么歌(头顶的太阳燃烧着青春的余热歌名)
现在歌曲风格多样，相信每个人都有自己喜欢的音乐风格，比如说民谣，现在会有很多年轻人都喜欢听民谣歌曲，近期有首民谣又重新返回大家的视线，有句歌词是“头顶的太阳燃烧着青春的余热”，那么这是什么歌呢？想知道具体歌曲介绍的就跟随小编一起来…
投稿号
热点 2023年6月14日
1300
热点
[幻天领域]动画《药屋少女的呢?喃》于10月21日开始播出，首周将连续播放3集。
TV动画《药屋少女的呢喃》将于10月21日播出，首周将连续播放第1至第3集，并同时公开最新视觉图。此前还曾公开动画的先导PV。《药屋少女的呢喃》（又译为：药师少女的独语）改编自日本作家日向夏创作、しのとうこ插画的同名轻小说，讲述…
投稿号
热点 2023年11月15日
1330
热点
友谊暖心句子好朋友见面、好姐妹相聚说说唯美句子
好朋友见面要发什么朋友圈文案，一起和闽南网小编来看看吧~ mua 向海风许愿，向山海相见。时间为证，岁月为名，友谊万岁。最好的友情，各自忙乱，互相挂牵。友谊就是栖于两个身体中的同一灵魂。天地为盏，长河为酒，敬友谊地久天长。…
投稿号
热点 2023年5月24日
1210
热点
多地跨年夜地铁将通宵或延时运营
原标题：元旦将至客流增多上海广州等地公布节日地铁运营方案多地跨年夜地铁将通宵或延时运营元旦将至，各地市民、游客出行众多。北京青年报记者注意到，目前，包括上海、苏州、重庆等在内的多地地铁宣布，结合历史客流规律，为满足节日期间市…
投稿号
热点 2024年1月12日
1040
热点
是在下输了是什么梗(你若在下一句是什么)
网络上经常有很多好玩的梗和词语出现，最近一段时间是在下输了这个更非常火爆，不少小伙伴表示一头雾水，那么是在下输了是什么梗？是在下输了是什么意思？出自哪里？下面小编为大家带来是在下输了梗的含义及出处介绍，感兴趣的小伙伴一起来看一下吧…
投稿号
热点 2023年8月17日
2330

发表回复

登录后才能评论

一招分辨刷榜作弊大模型，博士小哥开源AI数学“照妖镜”

关于作者

热点推荐

发表回复