AI资讯站在时代最前沿

ChatGPT、文心一言等大模型做高考数学题看谁的表现更好?
AI与数学

ChatGPT、文心一言等大模型做高考数学题看谁的表现更好?

作者|杨文 袁博 编辑|六耳 来源|AI先锋官 高考已经接近尾声,小编先预祝各位考生金榜题名,前程似锦。此次高考不仅是各位考生们的大考,也是各家AI大模型之间的暗中较量。 之前小编也让文心一言、讯飞星火、GPT-4秀了一把作文能力。同时,我们也非常好奇它们的数学能力到底如何? 我们在今年的高考数学I卷中共挑选了13道题(其中选择题8道、填空题2道、解答题3道),共计84分。我们分别测试了GPT-4、通义千问、文心一言、讯飞星火四个大模型,其中GPT-4得分最高为36分,讯飞星火得分最低为19分。按百分制分别为43、35、26、23分。 一、选择题 测试题目:单选题5道、多选题3道。 选择题得分:GPT-4:19分;文心一言:22分;通义千问:29分;讯飞星火:9分。 答题过程描述:在解答选择题的时候,四个大模型表现都较其它题型要好。其中,通义千问答对了全部5个单选题,不过每道题都回答了4到5遍左右。这不禁让小编怀疑它答题也是靠“蒙”?文心一言在解答前两道选择题时,都是一遍对。 然而,讯飞星火表现的表现就有点掉链子。即便小编把答案告诉它,它依旧坚持选择错误答案,一副死犟死犟的范儿。 二、填空题 测试题目:2道 填空题得分:GPT-4:5分;文心一言:0分;通义千问:0分;讯飞星火:5分。 答题过程描述:在填空题方面,四个大模型表现都比较一般。GPT-4、讯飞星火得分相对较高。文心一言、通义千问得了一个零蛋。 在通义千问答题过程中,小编发现它还很固执。比如,在解答第13题时,我们让它做了不下10遍,无一次正确。甚至,通义千问还表示:“并不想考虑每类至少选修1门的限制”,这种“犟”劲儿有点让人哭笑不得。 三、解答题 测试题目:3道 得分:GPT-4:12分、文心一言:0分、通义千问:0分、讯飞星火:5分。 答题过程描述:在解答题方面,四个大模型的表现都很一般,出现胡编乱造的情况,甚至一度让自己陷入死循环。 相对而言,GPT-4更胜一筹,基本上能答一道大题中的一个小题。讯飞星火次之。文心一言、通义千问则全军覆没,全部答错。
人工智能颠覆教育市场:Chegg能否应对ChatGPT挑战?
AI与数学

人工智能颠覆教育市场:Chegg能否应对ChatGPT挑战?

本文介绍了美国在线教育平台Chegg在面临ChatGPT等人工智能技术冲击的情况下,对其业务和股价的影响。尽管有人认为这是杞人忧天,但Chegg公司已做好准备迎接新一代教育模式。作为最早整合OpenAI最新模型的教育科技公司,Chegg将继续结合系统力量和教育内容,为学生提供更好的在线教育服务。然而,ChatGPT模仿人类语言的优势,使其在各类场景中得到应用,但也存在不精准和潜在危险的问题,这使得Chegg等在线教育公司需重新审视自己的竞争优势和发展策略。
ChatGPT在工作场景中的局限性与潜力
AI与数学

ChatGPT在工作场景中的局限性与潜力

这篇文章强调了ChatGPT在工作场景中不适合处理敏感信息,如财务细节、密码等,因其存在安全漏洞。同时,OpenAI新引入的“隐身”模式虽能保护隐私,但用户需自行判断其可信度。文章还指出,ChatGPT无法提供准确的法律或医疗建议,其功能主要适用于提供一般性信息,且无法完全理解复杂情况下的微妙差别。此外,尽管AI技术在某些领域具有前景,如医疗诊断,但需以专业 certified 的 AI 系统形式实现,而非通用产品。最后,文章提醒读者,人工智能无法完全取代人类的情感共鸣和道德标准,对于严重的情绪或心理问题,应寻求专业人士帮助,同时强调ChatGPT并非权威来源,信息需与可信赖的渠道进行核实。
ChatGPT已加入数学家的工作
AI与数学

ChatGPT已加入数学家的工作

陶哲轩介绍 说到天才数学家,就不得不首先介绍一下数学神童陶哲轩了。他是一位华裔美国数学家,13岁获得国际数学奥林匹克竞赛数学金牌;16岁大学毕业,17岁硕士毕业,21岁获得普林斯顿大学博士学位,24岁起在加利福尼亚大学洛杉矶分校担任教授。2006年31岁时获得菲尔茨奖(数学界最高奖项)、拉马努金奖和麦克阿瑟天才奖,2008年获得艾伦·沃特曼奖,2015年获得科学突破奖—数学突破奖。陶哲轩的兴趣横跨多个数学领域,包括调和分析、非线性偏微分方程和组合论等。而ChatGPT刚发布没有多就,就已经成为天才数学家陶哲轩的研究助手了!期间,各种ChatGPT的“隐藏功能”都被陶哲轩挖了出来。 用于公式求解 总的来讲,陶哲轩大概的意思就是:ChatGPT数学能力虽然不咋滴,但对做学术研究的人来说是个发散思维的好工具。陶哲轩直接给出了他用ChatGPT求解数学题的一个例子。刚开始,他直接把同事询问的问题逐字逐句抛给了ChatGPT。ChatGPT也有模有样地回答了起来,期间还提到了一个高度相关的术语:对数矩生成函数,甚至在给出的答案中还讨论了一个具体的例子。这术语,这举例…乍一看,甚至骗过了陶哲轩的“法眼”,不过在检查一遍之后,陶发现:答案是错的!按理说一般人的逻辑到这里就该结束了——得出结论:ChatGPT的数学能力不太行。但陶哲轩还没有止步,他仔细分析了ChatGPT给出的解答过程,发现并不是完全错误的,还是有可取之处。比如说,ChatGPT在解答过程中用的是lmgf公式,而在克拉默定理给出的标准答案中用到的是lmgf公式的Legendre变换。虽然不是正确的解题思路,但也很接近正确答案了。紧接着他又用ChatGPT手机短信版再试了一个数学问题:我该如何证明有无穷多个素数?虽然给出的证明的是意料中的不完全正确,但陶发现ChatGPT给出的论证思路是可以被固定下来的,并且这个思路他之前还从未见过。这一通试用下来,直接打开了陶哲轩的思路。既然ChatGPT在具体数学问题上给出的答案是不完全正确的,那不如索性发挥发挥它生成答案部分正确的特性:在处理数学问题时,可以让ChatGPT这类大语言模型做一些半成品的语义搜索工作。也就是说,ChatGPT不用提供确切的答案,只用生成一些可能的提示,这样就对数学家的解题过程提供了很大的帮助。还有人脑洞大开,想知道AI能否提出一些全新的数学猜想。AI能不能提出猜想不知道,但是AI自动、半自动证明定理已经是现实,并且走向实用化了。 为什么 话说回来,既然都只是用作数学研究中的一个工具,为啥在陶哲轩眼中AI会更合适,而传统搜索引擎就不太行呢?因为AI“思维逻辑”更发散!陶直接从传统计算机软件和AI工具的内部运行逻辑分析了一通。先来说传统的计算机软件,它的运行逻辑类似于函数,这是一个很标准的数学概念。具体来说,若输入的在给定域中,软件就能够可靠地给出范围中的单个输出,若输入不在给定域中,则就不能给出结果或者说乱给一些结果。而AI工具,就不会像传统计算机软件那样死板,它运行的逻辑不是基于经典函数,而是类似于概率输入,AI会从一个概率分布μₓ中采样,然后随机输出。而这个概率分布,集中在完美结果附近。不过这样也会导致一些随机偏差和不准确结果的产生。但整体比较下来,AI工具还是具有一定的优势。一方面它更加灵活,可以比传统的软件工具更优雅地处理嘈杂或格式不好的输入。另一方面,在一定程度上AI的“思维方式”也会更加发散。但对于AI半自动证明定理的论文,审稿人就难了。陶哲轩对AI的观察,也在学术圈引起了一场讨论。他指出,阅读AI写的论文和人写的论文体验完全不同。阅读人写的论文,通常能在上下文和风格上捕捉到一些线索,通过这些线索可以快速分离出论文的“肉”,加快阅读速度。AI生成的数学论文,文字看起来都很有说服力,必须一行一行仔细看才能发现其中的缺陷。纽约大学教授马库斯将其解读为:同行评议从此更难了。不过网友中也有人认为,让审稿人必须一行一行仔细看,而不是依赖于肤浅的格式信号,也算得上一件好事。 其他用途 可以用于资料的查找。但首先要有技巧地抛出一个问题,假设陶想找库默尔定理但记不起来这个定理的名字,他是这样来问的:我正在找一个关于(balabala)的公式,它是一个经典的理论但我想不起名字,你能给我解答吗?最终ChatGPT给出的答案是Legendre公式(一个相关的结果),然后根据这个答案用传统的搜索引擎就可以轻松找到库默尔定理。还可以用AI写邮件,改写论文语句、查询小语种数学名词的发音等。 AI在数学上应用展望 IBM研究员Jason Rute展示了一种受AlphaGo启发的方法,将定理证明类比成围棋,下一个步骤相当于下一手棋,得证相当于获胜。谷歌科学家吴宇怀则分享了大语言模型在自动形式化(Autoformalization)上的进展。而陶哲轩本人对AI的兴趣也不止于此,用机器学习解决实际问题也在他的涉猎范围之中。刚刚在澳大利亚的一场讲座上,他还分享了如何用数学结合机器学习预测火灾变化。既然ChatGPT能在纯数学中都得到应用,那其他行业肯定也能得到更好地应用,让我们拭目以待。2023年3月11日

AI论文助手超级助手