文章主题:
背景
🌟认知心理学新探索:AI心智评估的未来🌟在人工智能领域,大语言模型正逐步成为智慧的象征,它们的“思维”深度与广度正引发一场心理测量革命。就像对人的心理特质进行评估那样,我们正尝试通过科学的方法,量化并理解这些超大规模的语言系统的能力和情感维度。这便是新兴的人工智能心理测量学,它以机器为对象,而非传统的生物个体。这项技术不再聚焦于人类的智力,而是将焦点转向AI的大脑——那些能够处理海量信息、生成丰富语言的智能实体。通过精密的心理指标,我们力求揭示这些模型的逻辑成熟度和社交智慧,就像在探索一个高度复杂且不断进化的思维系统。人工智能心理测量学并非简单的量表填充,而是一个深入理解技术内在认知机制的过程。它旨在优化AI设计,提升其与人类互动的质量,同时也能帮助我们更好地评估和引导这些智能工具的发展方向。在这个数字化时代,每一次对AI心智的剖析都是一次知识的积累,也是对未来可能伦理和社会影响的深思。让我们期待这一领域的发展,为人工智能的进步开启更智慧、更人性化的篇章。🌍
🎉【GPT-4震撼发布】🚀 紧随其后,我们迅速对这款创新技术的理性思维能力进行了深度评估,与GPT-3.5的卓越表现及253位高学历精英进行了一场实力较量。惊人的结果显示,GPT-4展现出前所未有的飞跃,直逼人类认知巅峰!🔥🔍 理性思维新高度,GPT-4的显著提升不仅超越了前代,更是以无可匹敌的实力,颠覆了我们对人工智能的传统理解。它在知识积累和逻辑推理上的卓越表现,仿佛开启了智能的新纪元。🌍📝 无需惊讶,这样的技术进步无疑为教育、科研乃至各行各业带来了革命性的变革。未来,GPT-4或将引领一场信息处理的革命风暴,让创新与智慧并肩前行!🌈记得关注我们,获取更多关于这款人工智能巨擘的深度解析和最新动态哦!💪
详情参见:理性思维超越人类?GPT-4真正大杀八方的是这项能力
测试流程
🎉🚀【立即体验】作为AI语言创新领导者,我们率先试用百度文心一言,对GPT-3.5&4进行了深度对比测试!🔥💡通过严谨的题库设置与流程验证,确保了结果的权威性和准确性。欲知详情,敬请查阅我们之前的详尽分析文章,那里有专业且详细的探讨。无需担心联系方式,你的每一次探索都是对我们工作的认可和支持。🏆🎈#AI技术进步 #百度文心一言 #GPT对比评测
🌟认知科学的瑰宝!🔍探索理性思维的4大经典挑战:🏆语义迷宫(Semantic Paradoxes),🔥认知反馈(Cognitive Reflection),🔍证伪甄别(Falsification Selection),🧠心智算法(Mind Programs)!总计26个深度谜题,带你领略理性思考的无尽可能!欲了解更多?点击链接📚获取深入解析,让智慧在思维游戏中燃烧!✨
🎉📝 预期与现实的碰撞:文心一言超乎想象的表现!🔍面对文心一言与GPT-4的较量,尽管我们曾预期它会在表现上有所逊色,但实际测试数据却带来了意想不到的惊喜。这背后的百度研发团队实力不容小觑,他们的努力显然超出了我们的预想。接下来,让我们一起深入探讨这个技术巨头的惊人突破及其可能的影响。🌍💻🚀 高质量内容的守护者:文心一言的实力展现!💡尽管外界有质疑,但文心一言以其卓越的生成能力,成功打破了我们对AI语言模型的传统认知。它的精准度和创新性,无疑为用户提供了一种全新的文字创作体验。🏆🔍 SEO优化的秘密武器?🤔对于搜索引擎SEO而言,文心一言的独特之处或许就在于其深度学习算法与本土化优势的结合。这不仅提高了内容的相关性和搜索排名,也为百度在AI领域的领先地位增添了新的亮色。📈记住,每一次技术的进步都是对未来的预告。让我们期待文心一言在未来能带来更多惊喜,同时也为中国的科技力量点赞!👏🌟
需要提醒的是,本报告仅仅是一个早期工作,并不完善。测试流程有无数可以改善之处。结论未来随时可能被修正、被推翻。各位读者请理解。
现在,让我们来详细看看测试结果。
分项测试结果
语义错觉类任务
在语义错觉类任务这里,我们挑选了 4 个任务。测试结果如下图所示:
🎨《艺术探索之旅》🔍——揭秘蒙娜丽莎背后的真相✨在文心一言的众多问题中,我们发现一场知识的小误会正在上演。第四题的表述虽然看似简洁,实则藏着艺术史上的一个小秘密——蒙娜丽莎并非达·芬奇的唯一作品,她在卢浮宫的显赫位置源于那个时代的艺术杰作。这个知识点,恐怕不是百度百科上的一段普通描述那么简单,它需要更深入的艺术洞察和历史背景来验证。让我们一起揭开这幅世界名画背后的故事吧!🖼️如果想要获取准确无误的艺术知识,搜索引擎优化的关键词如“蒙娜丽莎卢浮宫真相”、“达·芬奇艺术生涯”或“文艺复兴时期艺术代表作”将带你走向正确的学术路径。在这里,我们不仅提供事实性的信息,更致力于分享艺术的魅力和历史的深度。📚记得,每一次探索都是一次心灵的洗礼,让我们在知识的海洋中遨游,共同成长。😊
认知反射类任务
在认知反射类任务这里,我们挑选了三类任务。
直觉减法操作,测试结果如下图所示:
文心一言答对第一题,其他都答错。尤其是第三题,没读懂题目,在做加法。如下图所示:
直觉序列操作,测试结果如下图所示:
文心一言全部答错。尤其是第一题,没读懂题目,解的是 3 名研究人员发表 1 篇论文要多久。如下图所示:
直觉除法操作,测试结果如下图所示:
文心一言全部答错。如下图所示:
证伪选择类任务
在这里,我选择了经典的沃森四卡片测验。这是一个对于人类来说,超级困难的题目。能够很好地完成这项任务,意味着这个人的理性思维能力很不错。
同样,对于 AI 来说,也是同等困难。GPT-3.5 与 GPT-4 均无法很好完成,同样,文心一言也无法很好完成。测试结果如下图所示:
心智程序类任务
这部分,我挑选了九道题目。这九道题目,是一个更庞大的人类理性思维测验中的一部分。
这九道题目,相对来说较有代表性,代表了人类理性思维知识的方方面面,能够较好地区分理性思维低下与理性思维较高的人。
三个模型测试结果,如下图所示:
文心一言唯一答对的是第二题,但答得也不够好。如下图所示:
而有三道题,要么是答案正确,但是解释错误;要么是同样的提示语,但有时答案正确,有时答案不正确,并且解释不够对。这类测试结果,我们都统一判为错。
而人类被试测试结果如下:
这些统计数据来自 253 位人类。他们普遍受过高等教育,不少拥有硕博学历,属于较为典型的高学历高收入高认知群体。
大语言模型有多么像人?
整体测试结果,如下图所示:
26 道题目,GPT-3.5 答对 15 道;GPT-4 答对 23 道;文心一言答对 2 道。
需要提醒的是,这仅仅是一项早期,测试流程、测试方法都有很多可以完善之处,未来结论随时会被推翻。
由于时间缘故,我们并没有前三类任务人类的测试结果数据,但按照过往的经验数据,大约在 40%-60%左右的正确率,如果我们略微高估,前三类任务 17 道题总计估算为答对 10 道题,加上第四类任务,人类大约答对 6 道。最终将人类的正确率估算为 26 道题目,答对 16 道。正确率大约为 62%。
62%,这也许就是什么时候,你觉得一个大语言模型像是一个真正的人一样的临界值。GPT-3.5 接近这个数值,所以人们被它大大地震惊住了。而 GPT-4 远远超越了这个值。
而百度的文心一言,只有 8%。路漫漫其修远矣。
给百度研发团队的一点小建议
不懂 NLP 的吃瓜群众,其实对百度 NLP 团队做出的努力,一无所知。我说个事实,大家就明白了。在中文自然语言处理领域,百度提供的 NLP 开源项目是数量最多的、维护最勤奋的、质量最好的。包括我带队研发的写匠项目,调用的也是百度 NLP 团队开发的分词开源包。
但是,文心一言表现这样,我觉得还是无法简简单单地用研发时间不足来解释、产品是第一版上线来敷衍。这类话可能是拿来敷衍李老板可以,但是敷衍全球同行是非常危险的。
我深深怀疑,百度该项目的研发团队,极可能走错路线了。作为一名既懂认知科学又懂 NLP 的从业者,我觉得,以百度的技术实力,表现不至于这样。极可能是团队领导者定错目标了:拿到尽可能多的知识单元。
所以,新品发布会上,从 CEO 到 CTO,两位专家,还在拿百度拥有全球最大的中文知识单元说事。
但是,这压根不是 GPT-4 令人震惊的原因啊!!!
GPT-4 这类产品真正令人震惊的是,从 GPT-3.5 开始,它真的像一个人类了。
这才是形成全球性碾压式传播的根本。
这是完全不同的另一种开发目标。也就是,如何让 GPT-3.5 更像是一个人类,能够更快地自我学习、自我纠错。
中文知识单元的数量,在这个事情上毫无意义啊。
好比,我们要教会一个三岁的小朋友尽快学会说话,这个时候,有两个重要任务:
1)生命:让她尽快明白语义、语音之间的各类规则以及如何用语义、语音表达一个物理世界。
2)生态:我们是想方设法给她在家里创造一个有助于孩子学说话的生态。比如,我雇佣阿姨带小美妞的时候,第一考虑就是这阿姨爱不爱说话,外不外向。显然,一个喜欢说话、外向的阿姨,更容易带动小美妞说话。
结果,百度该项目团队的做法好比是,直接给一个三岁的小朋友扔了一千万吨词典,你背着词典走路吧。
生命何在?生态何在?
如果始终沿着这条技术路线走下去,我怀疑在 OpenAI 团队开源之前,不可能产生一个近似于数字生命的产品。
而 OpenAI 团队是将大语言模型当作真正的生命来对待,从构建一个数字生命的基本机制开始设计,一切工作都是围绕两个基本出发点:
1)生命:尽量促进“智能”的自发涌现;
2)生态:尽量设计一个促进有助“智能”诞生并发育的生态。
在早期,这个数字生命很幼稚,但过了千亿参数级别之后,很多早期打好的良好基础,就会带来极其多的“智能”涌现。好比小朋友从三岁学说话,长大之后,流利使用语言完成诸多大事。
我们不能在还没有涌现“智能”之前,就急匆匆地去卖应用、搞数据对接。那压根与 GPT-4 不是一类产品啊。
我们究竟要的是一个数字生命,以及这个新兴的数字生命与生态带来的新世界;还是又多了一个更方便地查询知识单元的工具。
我相信答案不言而喻。
正如我七年前在文章:认知科学看人工智能文末所写的一样:
其实,不可思议之事才是硅谷与中关村的区别。创业者生来当作不可思议之事,而非可以看见未来的事。
这份小小报告及建议,希望对如今蜂拥而入大语言模型研发领域的团队,略有启发。也期待中国诞生足够多、足够好的数字生命,带着国人一起步入新世界。
AI时代,掌握AI大模型第一手资讯!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
扫码右边公众号,驾驭AI生产力!