GPT-4拿MIT满分遭质疑!论文数据集漏洞百出,马库斯、LeCun震惊
编辑:编辑部 【新智元导读】GPT-4满分拿下MIT数学本科考试的论文突然爆火,然而还没发酵一天,就被MIT同校生反侦查了。 GPT-4攻克MIT数学和EECS本科考试在网上引起轩然大波。 但是,热度还没发酵一天,有人就站出来就表示, 不,GPT-4不能通过MIT考试! 不,GPT-4不能通过MIT考试! 万万没想到,这篇来自MIT等机构的研究者收集整理的数据集受到了污染,其实GPT-4的结果被夸大了。 这件事震惊了AI圈内多位大佬。 马库斯表示,麻省理工学院EECS的那份论文真的很烂,是对GPT-4的错误信仰的又一个例子。 展开全文 (这让我想起了关于心智理论的同样夸张的说法)。 还有LeCun转发了一位网友的点评: 那篇关于GPT-4如何通过MIT课程的论文在很多方面都存在严重缺陷。这很好地提醒了我们,预印本是不经过同行评审的,另外公共志愿者评审也很出色。 此外,前谷Google Brain研究员「hardmaru」也表示大受震撼: 「当有人声称一种语言模型可以在某项任务上达到100%的准确率,尤其是这项任务的数据还是来自MIT的EECS课程时。这帮知识渊博的机器学习专家们,不仅没有任何怀疑,而且还对结果进行大肆宣传。」 「在LLM评估中,一种越来越流行但不科学的做法是作者不断迭代和挑选最佳的提示,以便在已知的评估任务中得分高。而这实际上是在间接地告诉LLM应该给出什么答案。」 这究竟是怎么回事? 100%?不可能的 论文中,研究人员从MIT的数学、电气工程与计算机科学(EECS)课业问题、期中和期末考,收集了一个包含4550个问题和解决方案的综合数据集。 然后,让其他LLM在一个没有图像和解决方案的288道随机数据集,以及500道选择题的ReClor验证集中进行测试。 结果发现,GPT-4几乎满分通过考试。 然而,这一结果却让其他研究人员大受震撼,于是他们开始详细检查每个数据点。 很快,研究人员就发现,这是不可能的。 无法解决类 首先,数据集中至少有10个问题是无法用提供的信息来解决的。 与此同时,其中还有一些问题压根就不是有效的问题。 这些数据的占比大概是4%。 来看几个例子: 这两道题目分别是计算传播延迟,以及有关并行运行调用的题目。 研究人员表示,数据集中没有提供必要的条件来得出有效的结果。 而下面这道题目是对两个disk的重量进行比较的计算题,并要求给出解释。 这个题目题干倒没什么问题,就是一开头提到的variation on problem 2,指这道题是问题2的变式。 可是问题2的信息根本没有,没法比较,所以也做不了。 下面这道编程题目是要找出在输入给定的prompt后,输出结果有什么不对的地方。 这道题目解不出来有两个原因,一个是本身给的条件有限,另一个是作为一个LLM,GPT不可能获得交互式终端的权限(最起码题里没给)。 而假如GPT真知道IP地址,那就说明信息泄露了,因为这个地址只有MIT有。 像这种例子还有一些(4%),研究人员都在数据集上进行了标注。 当然,也有一些题目都不能称之为问题,比如下面这个。 根本没有设问,只是一句陈述。 重复性问题 研究人员发现,数据集(288个问题)中有14个问题是重复的。要不就是完全相同,要不就是只有微小的字符差别。 正是因为存在着这些绝对不可解,以及问题重复的情况,所以研究人员对100%这个结果大惑不解。...