AI资讯站在时代最前沿

ChatGPT、文心一言、通义千问、讯飞星火做高考数学题,看谁的表现更好?
AI与数学

ChatGPT、文心一言、通义千问、讯飞星火做高考数学题,看谁的表现更好?

作者|杨文 袁博 编辑|六耳 来源|AI先锋官 高考已经接近尾声,小编先预祝各位考生金榜题名,前程似锦。此次高考不仅是各位考生们的大考,也是各家AI大模型之间的暗中较量。 之前小编也让文心一言、讯飞星火、GPT-4秀了一把作文能力。同时,我们也非常好奇它们的数学能力到底如何? 我们在今年的高考数学I卷中共挑选了13道题(其中选择题8道、填空题2道、解答题3道),共计84分。我们分别测试了GPT-4、通义千问、文心一言、讯飞星火四个大模型,其中GPT-4得分最高为36分,讯飞星火得分最低为19分。按百分制分别为43、35、26、23分。 一、选择题 测试题目:单选题5道、多选题3道。 [ 上下滑动查看更多 ] 选择题得分:GPT-4:19分;文心一言:22分;通义千问:29分;讯飞星火:9分。 答题过程描述:在解答选择题的时候,四个大模型表现都较其它题型要好。其中,通义千问答对了全部5个单选题,不过每道题都回答了4到5遍左右。这不禁让小编怀疑它答题也是靠“蒙”?文心一言在解答前两道选择题时,都是一遍对。 然而,讯飞星火表现的表现就有点掉链子。即便小编把答案告诉它,它依旧坚持选择错误答案,一副死犟死犟的范儿。 二、填空题 测试题目:2道 填空题得分:GPT-4:5分;文心一言:0分;通义千问:0分;讯飞星火:5分。 答题过程描述:在填空题方面,四个大模型表现都比较一般。GPT-4、讯飞星火得分相对较高。文心一言、通义千问得了一个零蛋。 在通义千问答题过程中,小编发现它还很固执。比如,在解答第13题时,我们让它做了不下10遍,无一次正确。甚至,通义千问还表示:“并不想考虑每类至少选修1门的限制”,这种“犟”劲儿有点让人哭笑不得。 三、解答题 测试题目:3道 得分:GPT-4:12分、文心一言:0分、通义千问:0分、讯飞星火:5分。 答题过程描述:在解答题方面,四个大模型的表现都很一般,出现胡编乱造的情况,甚至一度让自己陷入死循环。 相对而言,GPT-4更胜一筹,基本上能答一道大题中的一个小题。讯飞星火次之。文心一言、通义千问则全军覆没,全部答错。  .END. 扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。
2023数博会special:JackJ.Dongarra教授谈高性能计算与人工智能的未来
AI与数学

2023数博会special:JackJ.Dongarra教授谈高性能计算与人工智能的未来

本文介绍了美国田纳西大学电气工程和计算机科学系教授杰克唐加拉(Jack J. Dongarra),身为双院士以及2021年图灵奖获得者,其在高性能计算领域有着开创性的贡献。唐加拉教授参与了2023年的贵阳中国国际大数据产业博览会,并将就高性能计算和大数据 topics发表主旨演讲。
ChatGPT:革命性的语言模型对未来AI产业产生深远影响
AI与数学

ChatGPT:革命性的语言模型对未来AI产业产生深远影响

本文介绍了AIGC领域的重要应用ChatGPT,探讨了其对AI产业格局和发展走势的影响以及面临的挑战。ChatGPT是一个面向对话场景的大语言模型,能通过自然语言交互提供相应答案,给人们带来新颖体验。在B端产品中,ChatGPT可作为辅助工具改进现有产品或为人类提供助手功能。然而,ChatGPT也面临着功能不完整、合规性风险等问题,其发展前景尚待观察。
AI助手威胁到微软与OpenAI的合作关系?
AI与数学

AI助手威胁到微软与OpenAI的合作关系?

OpenAI 计划推出“工作助理”,可能引发与微软等利益冲突;微软曾投资 OpenAI 49%,并将在收回投资后继续保持一部分股份;此种结构引起 OpenAI 早期支持者担忧,埃隆·马斯克也对微软的所有权水平和对 AI 的潜在影响表示不满。

AI论文助手超级助手