《探索国内首批大模型产品的特点与差异》

智慧启航，AI引领未来！加入公众号，紧跟AI发展步伐，探索最新AI应用，用智能工具助力您的创新之路！

文章主题：备案, 大模型, 人工智能, 知识广度

大模型实用性测评丨8款国产大模型 PK ChatGPTmp.weixin.qq.com/s/UdTyzuPyaLJwpdrTzvd9fw

在8月31日这个特殊的日子里，我国终于有8家企业或机构成功通过了《生成式人工智能服务管理暂行办法》的备案，这一重要时刻标志着它们可以正式地面向公众，提供一系列高质量的AI服务。这些企业或机构经过严格的审核和评估，展现出了其在AI领域的实力和潜力，从而获得了官方的认可。这也预示着未来AI技术的广泛应用和发展，将给我们的生活带来更多的便利和创新。

这8家包括：（后附链接）

百度（文心一言）：https://yiyan.baidu.com/抖音（云雀大模型）：https://www.doubao.com商汤（日日新大模型）：https://www.sensetime.com/智谱AI（GLM大模型）：https://chatglm.cn百川智能（百川大模型）：https://www.baichuan-ai.com/MiniMax（ABAB大模型）：https://api.minimax.chat上海人工智能实验室（书生通用大模型）：https://intern-ai.org.cn/home中科院（紫东太初大模型）：尚没有单独的网页版或APP产品

对于许多人，包括极客智谷，我们都对我国首批备案的大模型充满了好奇。这些大模型的特色和实用性究竟如何呢？它们与 ChatGPT 相比又有何种表现？带着满心的期待和兴奋，我决定亲自上手尝试这些国产大模型产品，同时也探索一下 ChatGPT 的功能。

作为一名文案狗，我的主要技能 tested 在多个方面，包括知识广度与新鲜度的掌握、不同文体的写作技巧、以及创新和创意能力的发挥。此外，我还注重交互性、自我优化能力和便捷性的运用。

值得关注的是，紫东太初目前还没有独立的网页版或APP产品，书生大模型的官方网站也暂时没有提供体验的入口，而在本文作者体验期间，商汤科技的交流始终处于升级状态，因此无法成功注册。

逻辑有余，创意不足

在我的 initial investigation, I put the knowledge base of large-model products to the test. Using the popular internet phrase “E人和I人的含义” as my question, I received accurate answers from all four models – Wenchen AI, Baichuan AI, ZhiPu QingYan, and MiniMax’s MM Intelligent Assistant. In terms of comprehensiveness, Baichuan AI and ZhiPu QingYan not only provided an explanation for “E人” and “I人”, but also pointed out that the concept was first proposed by psychologist Carl Jung, and further emphasized that human personality may contain multiple traits, and the classification is not absolute. In contrast, Wenchen AI’s answer was relatively simple and rigid.

智谱清言：

文心一言：

在本次评估中，抖音的豆包和ChatGPT的表现相对较差。其中，豆包对E人的理解存在显著误差，它将E人定义为具有情绪化特质的个体。

豆包：

ChatGPT 在首次回应中明确指出了 E 和 I 这两个词并非通用中文词汇，因此其含义难以精确理解。在接收到简单的提示后，ChatGPT 能够给出猜测性的解释。然而，当采用不同的提问方式二次咨询时，ChatGPT 却能够提供准确的答案。这表明 ChatGPT 并非没有相关的知识储备，而是在对中文的理解上，相较于我国本土的大模型存在一定的差距。

ChatGPT：

在一次针对小学语文课文中的“狼牙山五壮士以及狼牙山的地理位置”的问题的讨论中，极客智谷表现出了极高的专业知识。然而，这次对话中，百川与智谱清言却表示自己尚未掌握解答此类问题的技能，无法提供所需的信息。与此形成鲜明对比的是，ChatGPT、豆包和MM智能助理都给出了精准的答案。在这场对话中，百度文心一言展示了自己在语义理解和分析方面的不足。当问题涉及到两个相互关联的问题时，文心一言仅选择性地回答了其中一个，暴露出其在处理复杂问题时的局限性。尽管如此，文心一言在知识储备方面显然是有相关准备的。

文心一言：

之后，笔者又提问了一些诸如“人工智能的发展历程”、“人工智能的技术体系”等问题，无论是国内大模型还是ChatGPT均能给出相对详细的答案，准确性也更高。整体来看，ChatGPT的知识储备更全，但中文的理解方面稍逊一筹，国产大模型在某些细分领域需要更多数据信息的采集与训练。

在传统新闻稿的写作上，我以近期“瑞幸与茅台联名推出酱香拿铁”为题，百川、智谱清言、文心一言以及MM智能助理都提供了还不错的答案，无论是逻辑性还是文章的完整性上都值得参考。但豆包仅是列出了其搜索到的新闻网站中的信息，并未完成新闻稿创作的指令。

豆包：

而ChatGPT虽然也撰写了一篇完整的新闻稿，但其中编造了很多不实、虚假信息，诸如产品推出时间、高管姓名及发言等。

ChatGPT：

紧接着我又让它们为酱香拿铁的宣传片写一个脚本，这次大模型产品们都完成了任务，但从逻辑上来看，豆包的回复仍稍显敷衍，只是将每一幕的场景简单描绘，而其它几款大模型则分出了镜头画面与旁白等，更加清晰有逻辑。

豆包：

最后，我想重点考验一下大模型们的创意创作能力。于是提问了大模型们关于“库迪的品牌联名建议”以及“如果为蜜雪冰城和五粮液的联名产品起名字和广告语”等问题，最终所有大模型给出的回复都比较常规，参考意义不大。

总体来说，各家大模型都基本具备了多种文体和风格的写作能力，对比来看，豆包写作能力稍弱，ChatGPT则更喜欢胡编乱造，易产生AI幻觉。但在文本创意上，大模型的帮助都不大。

除此之外，在使用过程中，笔者也发现，MM智能助理的反应速度相较其它大模型产品来说较慢，其官网也指出了体验用户（未充值）调用接口时会被限速。

基因不同，各有特色

在体验过程中，笔者也发现几款通过备案的大模型产品各有特色。而特色背后，则是公司基因决定的。

文心一言是国内首个发布的生成式AI产品，于2023年3月16日开启邀测，基础模型文心大模型早在2019年就在国内率先发布。作为百度AI十余年成果的集大成者，文心一言与其它大模型相比，功能及场景更全。其中最与众不同的是，在官网界面上，文心一言提供了百度搜索、览卷文档等四大插件，百度搜索默认启用，这也决定了其知识检索收集能力相较其它大模型更强。除此之外，文心大模型在图文创作方面也有着绝对的优势，其它产品基本只支持文本创作。

抖音的豆包入场时间较晚。从官网界面设计上看，其也沿袭了抖音的社交基因，更加拟人化，将自己定位成“你的智能小助手”，看上去主打聊天属性，实用性稍弱。

智谱AI是由清华大学计算机系技术成果转化而来的公司，其研发的智谱清言最具特色的地方是具备青少年模式，对话内容来自于权威教辅数据训练所生成，并且有禁用时间和对话轮次限制，颇有学研风范。

百川大模型背后的百川智能成立时间还不到半年，但在大模型赛道炙手可热，其是由前搜狗CEO王小川创立，已经对外发布了三款大模型产品。百川大模型的官网界面也是几款大模型产品中最为简约的。

MM智能助理背后的MiniMax，是由前商汤科技副总裁、通用智能技术负责人闫俊杰成立的大模型初创公司，其ABAB大模型从今年3月开始面向企业用户开放API平台，B端特性也让MM智能助理具有较高的使用门槛。

写在最后

或许一个普通用户的体验远远算不上测评，但可以确定的是，伴随着首批大模型产品通过备案，大模型有望从拼参数到迎来下一个阶段的应用之战。

然而C端用户付费意愿相对较弱，通用大模型的商业模式将如何跑通？极客智谷认为，B端市场是大模型落地相对较短的路径。讯飞星火大模型已经在教育、办公、汽车、金融、工业、医疗等展开了布局，百度也在持续推出大模型重构的产品及解决方案，B端之战已经打响。在这场应用之战的较量中，谁能率先抢到更多B端筹码，才能在大模型时代画下浓墨重彩的一笔。

备案, 大模型, 人工智能, 知识广度

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

逻辑有余，创意不足

基因不同，各有特色

写在最后

相关文章

Leave a Reply Cancel reply