GPT-4拿MIT满分遭质疑!论文数据集漏洞百出,马库斯、LeCun震惊
AI论文助手

GPT-4拿MIT满分遭质疑!论文数据集漏洞百出,马库斯、LeCun震惊

编辑:编辑部 【新智元导读】GPT-4满分拿下MIT数学本科考试的论文突然爆火,然而还没发酵一天,就被MIT同校生反侦查了。 GPT-4攻克MIT数学和EECS本科考试在网上引起轩然大波。 但是,热度还没发酵一天,有人就站出来就表示, 不,GPT-4不能通过MIT考试! 不,GPT-4不能通过MIT考试! 万万没想到,这篇来自MIT等机构的研究者收集整理的数据集受到了污染,其实GPT-4的结果被夸大了。 这件事震惊了AI圈内多位大佬。 马库斯表示,麻省理工学院EECS的那份论文真的很烂,是对GPT-4的错误信仰的又一个例子。 展开全文 (这让我想起了关于心智理论的同样夸张的说法)。 还有LeCun转发了一位网友的点评: 那篇关于GPT-4如何通过MIT课程的论文在很多方面都存在严重缺陷。这很好地提醒了我们,预印本是不经过同行评审的,另外公共志愿者评审也很出色。 此外,前谷Google Brain研究员「hardmaru」也表示大受震撼: 「当有人声称一种语言模型可以在某项任务上达到100%的准确率,尤其是这项任务的数据还是来自MIT的EECS课程时。这帮知识渊博的机器学习专家们,不仅没有任何怀疑,而且还对结果进行大肆宣传。」 「在LLM评估中,一种越来越流行但不科学的做法是作者不断迭代和挑选最佳的提示,以便在已知的评估任务中得分高。而这实际上是在间接地告诉LLM应该给出什么答案。」 这究竟是怎么回事? 100%?不可能的 论文中,研究人员从MIT的数学、电气工程与计算机科学(EECS)课业问题、期中和期末考,收集了一个包含4550个问题和解决方案的综合数据集。 然后,让其他LLM在一个没有图像和解决方案的288道随机数据集,以及500道选择题的ReClor验证集中进行测试。 结果发现,GPT-4几乎满分通过考试。 然而,这一结果却让其他研究人员大受震撼,于是他们开始详细检查每个数据点。 很快,研究人员就发现,这是不可能的。 无法解决类 首先,数据集中至少有10个问题是无法用提供的信息来解决的。 与此同时,其中还有一些问题压根就不是有效的问题。 这些数据的占比大概是4%。 来看几个例子: 这两道题目分别是计算传播延迟,以及有关并行运行调用的题目。 研究人员表示,数据集中没有提供必要的条件来得出有效的结果。 而下面这道题目是对两个disk的重量进行比较的计算题,并要求给出解释。 这个题目题干倒没什么问题,就是一开头提到的variation on problem 2,指这道题是问题2的变式。 可是问题2的信息根本没有,没法比较,所以也做不了。 下面这道编程题目是要找出在输入给定的prompt后,输出结果有什么不对的地方。 这道题目解不出来有两个原因,一个是本身给的条件有限,另一个是作为一个LLM,GPT不可能获得交互式终端的权限(最起码题里没给)。 而假如GPT真知道IP地址,那就说明信息泄露了,因为这个地址只有MIT有。 像这种例子还有一些(4%),研究人员都在数据集上进行了标注。 当然,也有一些题目都不能称之为问题,比如下面这个。 根本没有设问,只是一句陈述。 重复性问题 研究人员发现,数据集(288个问题)中有14个问题是重复的。要不就是完全相同,要不就是只有微小的字符差别。 正是因为存在着这些绝对不可解,以及问题重复的情况,所以研究人员对100%这个结果大惑不解。...
巴黎奥运会 | 顶尖选手挑战“路的尽头”——巴黎奥运会冲浪项目前瞻
AI论文助手

巴黎奥运会 | 顶尖选手挑战“路的尽头”——巴黎奥运会冲浪项目前瞻

  新华社曼谷7月23日电 顶尖选手挑战“路的尽头”   ——巴黎奥运会冲浪项目前瞻   新华社记者林昊   巴黎奥运会冲浪项目将在7月27日至8月5日期间的4个比赛日在法属波利尼西亚群岛塔希提举行。在距离巴黎1.5万公里的南太平洋上,世界最优秀的冲浪选手将争夺男女两枚金牌。其中,15岁的中国女孩杨思琪将成为首位亮相奥运赛场的中国冲浪选手,实现中国冲浪运动的突破。   冲浪在东京奥运会成为正式比赛项目。巴黎奥运会冲浪比赛在塔希提举行,是本届奥运会唯一在法国海外领地举行的项目,也是1956年墨尔本奥运会马术项目在瑞典斯德哥尔摩举行后,再次有奥运会比赛项目在举办城市以外的大洲举行。   冲浪的比赛地提阿胡普被称为“路的尽头”,是世界上最知名的冲浪胜地之一,独特地形造成的水下暗流、水面浪涌以及风力形成了强劲的浪况,尤其以“管浪”闻名。即使是对最优秀的冲浪选手而言,提阿胡普也是巨大的挑战。   巴黎奥运会冲浪项目比赛规模有所增加,从东京奥运会的男女各20名选手增加到各24名、共48名选手。冲浪强国巴西在男女项目均拿到了最多的3个参赛资格,共6位选手参赛。美国队拿到了5个参赛名额,澳大利亚、日本和东道主法国各有4名选手参赛。在东京奥运会上夺得女子项目金牌的美国选手摩尔将力争卫冕,男子银牌得主、日本选手五十岚卡诺亚也将再次参赛。   巴黎奥运会将是中国运动员首次亮相奥运冲浪赛场。在2024年冲浪运动会上,15岁的中国女孩杨思琪为中国队拿到了一张宝贵的巴黎奥运会入场券,标志着中国冲浪迎来突破。加拿大、萨尔瓦多、墨西哥、尼加拉瓜和西班牙也将首次有选手参加奥运会冲浪项目。   “有一名中国选手参加(巴黎奥运会冲浪比赛)是一件很棒的事情。”国际冲浪协会主席费尔南多·阿格雷在接受新华社记者电话采访时说,“她(杨思琪)有优秀的身体条件,她了解大海,冲浪时就像一位已经冲浪多年的老手。”   巴黎奥运会冲浪赛事首轮比赛将选手分成8组,每组3位选手。根据赛制,每位选手将至少有两次比赛。经过首轮比赛,小组排名第一的选手将直接晋级八分之一决赛,另外两位选手将会继续参加复活赛的争夺。   杨思琪分在第7组,同组对手为西班牙的纳迪娅·埃罗斯塔贝和新西兰选手萨菲·维特。   杨思琪已经抵达塔希提展开最后阶段的备战。“奥运会最重要的就是第一轮的比赛,一共八组,每组三人,但是只有小组第一能晋级第三轮,第二名和第三名掉入第二轮,进入第三轮就是并列第九名。所以我们会把所有的精力放在第一轮比赛。”杨思琪的教练罗洋说。(完) 点击进入专题: 2024年巴黎奥运会
【携手数字合作 共享数字红利】“四融”升“七融” 中国电信最新AI技术成果亮相南博会制造业馆
AI论文助手

【携手数字合作 共享数字红利】“四融”升“七融” 中国电信最新AI技术成果亮相南博会制造业馆

云南网讯(记者 李品娥)中国电信作为全球最大的电信服务提供商之一,为国际运营商、跨国企业和海外中国客户提供全方位、高质量的综合信息服务解决方案。第8届南博会期间,中国电信通过国际互联网的专题展区,重点展示海外能力布局和两亚资源布局及业务合作两个能力。 中国电信展位 实习生 田嘉初 摄 今年,中国电信原有的“四融”(融云、融AI、融安全、融平台)将升级为“七融”,在云、网、数、智、安、量子、数字平台等战略性新兴产业全面注智,进一步推动七大战新产业布局与中国电信基础业务全面深度融合。中国电信积极落实国务院“人工智能+”行动的决策部署和国资委的要求,开展“人工智能+”的专项行动,立足国家云的智算升级,充分发挥AI能力,将人工智能与客户需求深度融合,加快AI技术的内部应用和外部赋能,将AI技术充分赋能到产业应用的各个方面。通过实物展示、互动体验、视频宣传等方式,中国电信研发的星辰·大模型、星海·AI中台、星河·AI赋能平台等最新AI技术成果在现场展出。 中国电信量子云服务 实习生 田嘉初 摄 在卫星通信方面,中国电信作为国内唯一一家天地一体全业务的电信运营企业,中国电信一直致力于打造“陆海空天”一体化卫星通信能力,构建天地协同的立体网络。天通卫星业务是中国电信依托中国自主研发的“天通一号”卫星移动通信系统及网络,采用1740专属号段,信号覆盖中国大陆、亚太地区及周边国家,提供全天候、全天时、稳定可靠、方便快捷的卫星语音、数据通信服务,广泛应用于海洋渔业、应急救援、旅游探险、物联网等多个应用场景。 据了解,日前工业和信息化部组织召开国际通信业务出入口局工作座谈会,会上向中国电信颁发许可,正式批复同意在云南昆明设立国际通信业务出入口局。中国电信将加快推动昆明国际通信业务出入口局建设,积极服务外资外企引进和企业国际化发展,主动服务和融入国家发展大局、增强云南辐射能力、深化改革创新,全力推进互联互通,为云南经济社会高质量发展赋能助力。 海量资讯、精准解读,尽在新浪财经APP
孙华:从这件倒立鸟足顶尊神像,看三星堆国家的绝对王权已经形成丨三星堆文化与中国青铜时代学术研讨会①
AI论文助手

孙华:从这件倒立鸟足顶尊神像,看三星堆国家的绝对王权已经形成丨三星堆文化与中国青铜时代学术研讨会①

四川在线记者 吴梦琳 文/图 在三星堆众多出土文物中,倒立鸟足顶尊神像可谓青铜器中的“明星”,也是堪称三星堆博物馆“镇馆之宝”之一的存在。这件总体高度超过2.5米的青铜艺术杰作,复杂、多元、神秘的造型彰显出三星堆人蓬勃的想象力和创造力。 三星堆博物馆中陈列的文物复原3D打印件(图据三星堆博物馆) 7月23日,由四川广汉三星堆博物馆、四川省文物考古研究院主办的“吉金铸史——三星堆文化与中国青铜时代学术研讨会”在德阳广汉举行。会上,北京大学考古文博学院教授、三星堆研究院学术院长孙华,对这件青铜瑰宝进行了再“详解”。在他看来,青铜器最上端的青铜立人,很可能就是三星堆国家的国王,同时也传递出一个信息——三星堆国家的绝对王权已经形成。 据悉,这件青铜器由出自1986年发掘二号坑出土的铜鸟足人像、2021年三号坑出土的爬龙铜器盖、2022年八号坑出土的铜顶尊撑罍曲身人像、铜持龙立人像、铜杖形器等跨坑部件组合而成,造型前所未见。 其中最顶层的人像,头戴高冠,双脚踏龙、双手握龙,很多人好奇他的身份是什么?为什么能够立于这件器物的最上层?一直以来有着多种说法。但在孙华看来,这位青铜人像更可能是国王,而不是巫师。 孙华解释,经过长期对三星堆出土青铜人像的对比研究,三星堆的统治者是由辫发和笄发两个社群组成,其中笄发社群有可能是掌握神权、从事宗教祭祀活动的神权社群;而辫发族则是占统治地位、掌握行政军事权力的世俗贵族社群。 孙华主题发言 这件握龙踏龙的青铜立人,其发式是辫发,应当属于世俗贵族社群。同时,青铜立人的地位高于鸟足神像和神龙,并非普通贵族,很有可能就是社群首领——三星堆王国的国王。铜人像手持龙杖,可能就是获得至高无上的授权的象征。 同时,这件器物也是古蜀文明开放包容、兼收并蓄的典型例证。三星堆人将人像、神像等三星堆的独特创造与来自中原地区的尊罍等酒器器形组合在一起,让这件组合器物成为中原商文化与古蜀地域文化的完美结合。孙华认为,从制造工艺和纹饰来看,这件器物中的尊壘部分,不是外来的成品,而是由三星堆人仿制的。“这件器物制作很精美,仿制的过程中虽然可能有外来工匠的指导,但却应该是有三星堆工匠参与的情况下完成的。”孙华说。 “青铜器是人类伟大的创造,在人类历史发展上具有重要意义,我们把青铜作为一个时代的标志。”孙华表示,三星堆出土了大量丰富的青铜器,也是三星堆如此令人着迷的一大重要吸引力,对于学术界来说,研究这些青铜器的铜矿资源的来源、铸造技术、造型风格、装饰细节、使用、传播等等,都可以为三星堆研究提供非常丰富的历史信息。 海量资讯、精准解读,尽在新浪财经APP