ChatGPT、文心一言、通义千问、讯飞星火做高考数学题，看谁的表现更好？

AI与数学 3 years前 0 29

作者｜杨文袁博

编辑｜六耳

来源｜AI先锋官

高考已经接近尾声，小编先预祝各位考生金榜题名，前程似锦。此次高考不仅是各位考生们的大考，也是各家AI大模型之间的暗中较量。

之前小编也让文心一言、讯飞星火、GPT-4秀了一把作文能力。同时，我们也非常好奇它们的数学能力到底如何？

我们在今年的高考数学I卷中共挑选了13道题（其中选择题8道、填空题2道、解答题3道），共计84分。我们分别测试了GPT-4、通义千问、文心一言、讯飞星火四个大模型，其中GPT-4得分最高为36分，讯飞星火得分最低为19分。按百分制分别为43、35、26、23分。

一、选择题

测试题目：单选题5道、多选题3道。

[ 上下滑动查看更多 ]

选择题得分：GPT-4：19分；文心一言：22分；通义千问：29分；讯飞星火：9分。

答题过程描述：在解答选择题的时候，四个大模型表现都较其它题型要好。其中，通义千问答对了全部5个单选题，不过每道题都回答了4到5遍左右。这不禁让小编怀疑它答题也是靠“蒙”？文心一言在解答前两道选择题时，都是一遍对。

然而，讯飞星火表现的表现就有点掉链子。即便小编把答案告诉它，它依旧坚持选择错误答案，一副死犟死犟的范儿。

二、填空题

测试题目：2道

填空题得分：GPT-4：5分；文心一言：0分；通义千问：0分；讯飞星火：5分。

答题过程描述：在填空题方面，四个大模型表现都比较一般。GPT-4、讯飞星火得分相对较高。文心一言、通义千问得了一个零蛋。

在通义千问答题过程中，小编发现它还很固执。比如，在解答第13题时，我们让它做了不下10遍，无一次正确。甚至，通义千问还表示：“并不想考虑每类至少选修1门的限制”，这种“犟”劲儿有点让人哭笑不得。

三、解答题

测试题目：3道

得分：GPT-4：12分、文心一言：0分、通义千问：0分、讯飞星火：5分。

答题过程描述：在解答题方面，四个大模型的表现都很一般，出现胡编乱造的情况，甚至一度让自己陷入死循环。

相对而言，GPT-4更胜一筹，基本上能答一道大题中的一个小题。讯飞星火次之。文心一言、通义千问则全军覆没，全部答错。

.END.

扫码邀请进群，我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型，顺便学一些AI搞钱技能。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章

OpenAI官方的Prompt工程指南：你可以这么玩ChatGPT机器之心Pro2023-12-18 14:46北京机器之心Pro2023-12-18 14:46北京

OpenAI官方的Prompt工程指南：你可以这么玩ChatGPT机器之心Pro2023-12-18 14:46北京机器之心Pro2023-12-18 14:46北京

AI与数学 2 years前 22

ChatGPT上线一年：被AI“重塑”的世界丨寻找临界点•世说新语⑤封面新闻2023-12-22 09:00封面新闻2023-12-22 09:00

ChatGPT上线一年：被AI“重塑”的世界丨寻找临界点•世说新语⑤封面新闻2023-12-22 09:00封面新闻2023-12-22 09:00

AI与数学 2 years前 17

探究谷歌Gemini大模型与OpenAIGPT之间的高下：GeminiPro的突破与进化

探究谷歌Gemini大模型与OpenAIGPT之间的高下：GeminiPro的突破与进化

AI与数学 2 years前 31

多模态交互：AIeyesontheworld

多模态交互：AIeyesontheworld

AI与数学 2 years前 18

Leave a Reply Cancel reply