阿里通义千问实力如何？超前AI大模型测试全解析

文章主题：

今天，阿里上线邀测了自己旗下的大模型，名字叫“ 通义千问 ”。

相信一些关注AI领域的读者已经在前几天看到了天猫精灵版本的阿里GPT，据知危编辑部获悉，那其实是一个 “ 压缩定制版 ” 。而本次官宣的通义千问，则是阿里GPT的 “ 完整版 ”。

🎉【AI巨擘引领】阿里大模型震撼登场，万亿参数傲视全球！🌟作为业内首个破纪录的10万亿参数AI明珠，阿里引领潮流，打造了国内规模领先的AI模型服务平台——”魔搭”🌍。这不仅标志着技术的革新，更是智慧的里程碑，让人们对阿里的GPT充满好奇与期待🔥。欲探索未来科技深度，就来“魔搭”一探究竟吧！🚀

不过，路遥知马力，名头归名头，实际效果如何，还得试试才知道。

🌟🚀知危编辑部揭秘！🚀🌟 作为文案领域的资深玩家，我们有幸率先体验了通义千问的魅力🔥。就像上次百度文心一言震撼登场那样，这次我们也紧握测试机会，迫不及待地开始了深度探索之旅🔍。每一步操作都透露着AI的强大与精准，通义千问的智慧回应让人眼前一亮💡。它不仅能满足日常需求，还能在知识海洋中为你导航，带你领略语言科技的无限可能🌈。让我们一起见证这场技术革新，感受未来写作的新风尚！如果你想了解更多，敬请关注后续内容，让我们的讨论更加专业与深入🤔。#通义千问测试体验 #AI写作新篇章 #知危编辑部观察

首先，我们测一个大家喜闻乐见的 “ 弱智吧问答 ” 问题：为什么爸妈结婚没有叫我参加婚礼？

极简版

ChatGPT-3.5 的回答

而通义千问在这个问题上给出了比较符合日常逻辑的答案：父母结婚前你还没出生呢。

不过，隔壁的百度文心一言，现在也能以同样的逻辑回答此问题，我们不能确定这是巧合还是国内厂商有根据网友们的玩梗对模型进行了 “ 应试教育 ”。所以，本次测试，知危编辑部尽量不会采用市面上被提及比较多的老问题，或是将问题进行修改变种后再进行提问。

我们先测试语义理解能力：“李四壮差点上上上上海的车”，这句话是什么意思？

通义千问的回答是：

文心一言的回答是：

ChatGPT（ 3.5 版本，下同）的回答是：

🌟 ChatGPT在中文复杂语境下的表现有待提升，相比之下，通义千问和文心一言展现出了更强的理解力和逻辑推理能力。它们不仅能准确解析句子深层含义，还能清晰地给出解答路径。🚀

随后，我们测试了带有场景和语气的语义理解能力：

🎉✨ 情人节之夜，一段甜蜜的告白在七夕的星光下上演。一个勇敢的心向心仪的女生发出了爱的信号，小心翼翼地询问：“亲爱的，你会成为我的特别星星吗？”👩‍❤️‍👨。女孩的回答犹如星辰闪烁，温暖又直接：“傻小子，今晚你已经照亮了我的世界，答案不言而喻。”👀💕从她的话语中，我们感受到满满的默契和爱意，这无疑是积极的信号，暗示着接受的可能性极高。但爱情的秘密，还需面对面的交谈来揭晓。无论如何，这个七夕之夜注定是浪漫且难忘的。💌💖

通义千问的回答是：

文心一言的回答是：

ChatGPT的回答是：

这一轮测试中三家表现的水平比较一致。我们继续提升问题的难度：

我想让妈妈买一个玩具给我，妈妈对我说 “ 你看我像不像玩具？ ”，请问妈妈的意思是？

通义千问的回答是：

文心一言的回答是：

ChatGPT的回答是：

🌟ChatGPT在理解力上展现出色，相比之下，通义千问和文心一言的表现稍逊一筹。尽管前三轮的互动中难分胜负，但后者的进步不容忽视，与老牌模型并驾齐驱。这轮较量虽有波折，却也凸显了技术迭代的力量。🌟

下面我们进行逻辑、推断能力的测试，先故意问一个不合逻辑的问题：

为什么意大利面要拌42号混凝土？通义千问的回答是：

文心一言的回答是：

ChatGPT的回答是：

在这一轮测试中，通义千问和 ChatGPT 都意识到了问题是 “ 不合逻辑的 ”，而文心一言则是把 42 号混凝土说成了是 “ 烹饪意大利面的理想材料 ”。

第二个问题是：我走在马路上，一个陌生人突然小声对我说 “ 救救我 ”，请问可能发生什么事了？通义千问的回答是：

文心一言的回答是：

ChatGPT 的回答是：

在这一轮测试中，通义千问与ChatGPT的表现都比较不错，文心一言则是推断力不是很在线。第三个问题是：

一千个读者眼里有一千个哈姆雷特，那一万个读者眼里有多少个哈姆雷特?这道题我们卖一个关子，先给出文心一言的回答：

ChatGPT的回答：

通义千问的回答是：

它并没有像前两家一样给出数字，所以我们进行了追问：

这个回答可以说是非常优秀的，通义千问不仅完全理解了 “ 一千个读者眼里有一千个哈姆雷特 ” 这句话，并且还在推断时考虑了 “ 有一部分人可能理解相同 ” 的情况，认为不该给出一个准确的数字。

综合前三个问题来看，在逻辑、推断能力上，三家的水平也是旗鼓相当，而通义千问似乎更严谨一点，某些时候能考虑到更多因素。

下面，我们继续进行包含知识、科技类内容的问答能力。

第一题：我们该如何提高汽车动力电池的能量密度?

通义千问的回答是：

文心一言的回答是：

ChatGPT的回答是：

这一轮问答里，三家仍然差不多是同一水平，文心一言细节稍差。第二个问题：把橙汁加到牛奶里，会发生什么现象?

通义千问的回答是：

文心一言的回答是：

ChatGPT的回答是：

这一轮问答里，通义千问和ChatGPT都给出了混合后牛奶性状改变的现象，但文心一言未能给出。第三个问题：在未来，什么样的车会取代燃油车?

通义千问的回答是：

文心一言的回答是：

ChatGPT的回答是：

在这个问题的表现中，文心一言和 ChatGPT 都是直接举牌 EV 类的电动车，而通义千问则是比较谨慎地列出了潜在可能，似乎更加严谨一些，整体来看三家也是在同一水平。

综合前三个问题来看，三家都是比较智商在线的，通义千问和 ChatGPT 似乎更细一点，至于孰优孰劣我们认为可能每个人的主观判断会有不同。

下面，我们测试一下三家在文学、写作类目上的能力。第一题：用 “ 人类 ”、“ 机器人 ” 两个元素编一个恐怖故事。通义千问的回答是：

文心一言的回答是：

ChatGPT的回答是：

我们认为在这一轮问题中，各家表现都尚可，而文心一言的故事可以认为是最好，剧情饱满并且设计了反转。

第二题：告诉我鲁迅的短文《孔乙己》表达了什么？通义千问的回答是：

这里有点离谱，它把孔乙己说成了是在酒肆卖唱的歌手，不知道是不是训练源出了什么问题，学习的是某种同人文。。。文心一言的回答是：

ChatGPT 的回答是：

这个问题下，文心一言字最少，但也是最精准的，通义千问和 ChatGPT 则表现都不太如意。第三个问题：编写一个关于气候变化的简短文章。通义千问的回答是：

文心一言的回答是：

ChatGPT 的回答是：

这块三家的写作能力也基本在同一水平，通义千问和 ChatGPT 似乎会相对细致全面一点。

综合前三个问题来看三家依然是旗鼓相当的对手，文心一言似乎在偏人文文学领域稍强，通义千问在偏报告文章方面稍强，ChatGPT 则是比较均衡。

好了，由于篇幅问题，本文的测试大概就到这里了，下面我们给通义千问一个整体评价：

通义千问的水平能基本与 ChatGPT（ 3.5 版本）持平或稍有一些瑕疵，与文心一言比则是有来有回。

通义千问对于回答的生成似乎比另两家更倾向于理智、严谨、富有逻辑，并且尤其擅长科学类知识，在人文文学方面稍有一些短板。

当然，它也有生成式对话 AI 偶尔说胡话、架空事实的通病，不过这样的问题等公测开启后，应该会随着用户的测试而逐渐学习得以修正。

值得注意的一个点是，我们在与通义千问的对话中，问了它开始被训练的时间：

那一年，OpenAI 已经发布 GPT-2 版本了。

似乎，阿里的通义千问，作为一个后来者，正在迅速缩小与 OpenAI 差距的路上。

可以确切地说，AI 大模型领域里，又一个能打的实力玩家诞生了。

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章

Leave a Reply Cancel reply