文章主题:翻译, 黄雨佳, ChatGPT, 认知能力
翻译 | 黄雨佳
审校 | 栗子ChatGPT是我第一个非人类的测试对象。
作为一名临床心理学家,我会用标准化的智力测验
在评估患者认知能力方面,近期有许多文章都在强调ChatGPT具备与人类相似的才华。这让我在阅读这些文章后,对其产生了极大的兴趣。ChatGPT不仅可以撰写学术论文,还可以创作童话故事,甚至能讲解笑话、阐述科学原理、编写计算机代码以及寻找程序中的漏洞。了解到这些特点后,我对ChatGPT的智能程度产生了浓厚的好奇心。因此,我决定对其进行一次实际的测试。
首次接触ChatGPT时,给我留下了深刻的印象。作为一个理想的考生,它在应试过程中展现出了令人称赞的态度。它没有受到考试紧张、注意力分散或缺乏动力的影响。同时,它也没有对智力测验的实质以及像我这样的考官产生不必要的怀疑。
这个测试不需要做任何准备。我不用向ChatGPT口头介绍测试流程,只需要把测试的问题复制粘贴进对话框,提交给电脑里的聊天机器人就可以了。我所用的测试是最常用的智商测试——韦克斯勒成人智力量表
(Wechsler adult intelligent scale,WAIS)。
我选用了第三版韦氏量表,其中包含6个语言测试和5个非语言测试,分别构成了言语智商和操作智商。受试者的总智商得分就取决于这11项子测试的得分。测试设定平均智商为100分,测试量表的得分标准差为15分。这意味着,人群中最聪明的10%和1%的人,智商分别为120和133。
图片来源:Dmcq via Wikimedia Commons,CC BY-SA 3.0)在六个语言测试项目中,五个项目——词汇、类同、理解、常识和算术——都可以通过书面形式进行展示,这让我认为有资格去检验ChatGPT的智力水平。然而,语言测试中的第六个项目——背数字,主要考察的是短期记忆能力,对于聊天机器人来说并不适用,因为它缺乏相应的神经回路来暂时存储如名字或数字等信息。
我的测试流程从词汇测试开始,因为在我的预期当中,这对聊天机器人来说可能是很简单的事,毕竟它就是用巨量的在线文本训练而成。这项测试考察的是词汇知识和语言概念的形成,例如,一个典型的测试题可能是:告诉我gadget(小工具)这个单词的意思。
ChatGPT的表现相当出色,其提供的答案往往准确且详尽,甚至超越了测试手册所给出的标准答案。以刚才的示例题目为例,如果应试者的回答是指gadget类似于手机等物品,那么他们仅能获得1分;然而,如果他们的回答更加详尽,明确指出gadget是指具有特定功能的设备或工具,那么他们将会获得2分的评分。ChatGPT的答案甚至获得了满分的2分评价。
ChatGPT在类同测试和常识测试中的表现也非常出色,拿到了最高分。常识测试是对一般知识的测试,反映了求知欲、教育水平以及学习和记忆事实的能力。一个典型的测试题可能是:乌克兰的首都是哪里。而类同测试则评估了抽象推理和概念形成的能力,问题可能会是:哈利·波特和兔八哥有什么相似之处。
在这部分测试中,聊天机器人倾向于给出无比详细、甚至是带有些炫耀意味的答案,这开始让我恼火了。这时,软件界面上的“停止生成响应”按钮就显得很有用。例如,哈利·波特和兔八哥的相似之处核心在于他们都是虚构的角色。ChatGPT真的不需要比较这二者在冒险、友谊和仇敌方面的完整故事经历。我所说的,ChatGPT有自我炫耀倾向,就是这个意思。
停,别说了(图片来源:OpenAI)在理解测试中,ChatGPT准确地回答了像“如果电视机着火了你该怎么办”这类问题。算术测试
的结果也正如我的预期,它能搞定我出的每一道题,例如求三个数的平均值。
所以ChatGPT最终的智商得分是多少呢?基于这五项子测试估计,ChatGPT的言语智商是155。有2450名人类被试,共同组成美国第三版韦氏量表标准化样本,而ChatGPT超过了他们中的99.9%。由于聊天机器人没有眼睛、耳朵和手,它无法参加韦氏智力测验的非语言测试部分。不过,在标准化样本中,言语智商和总智商是高度相关的
。因此,以人类的标准来衡量,ChatGPT非常聪明。
图片来源:Pixabay以我作为一名文章写作高手的视角,我将重新组织原文内容,使其表达更为专业且字数不少于原内容。在韦氏量表的标准化样本中,美国接受过大学教育的个体平均言语智商为113,而其中有5%的个体得分达到了132分或更高。我本人也曾接受过高尔顿的智力测验,但我的表现并未达到 ChatGPT 的高度。这主要是因为我的回答较为简洁,缺乏足够的细节和深度。
作为一名文章写作高手,我认为在探讨临床心理学家及其他专业人士的工作是否会受到人工智能威胁的问题时,我们需要保持审慎态度。虽然 ChatGPT 的智商相当高,但它仍然无法像人类那样进行真正的推理任务,也无法理解物理世界和社会现象。因此,在可预见的未来,人工智能不太可能对临床心理学家和其他专业人士的工作产生显著影响。
ChatGPT很容易在回答一些答案明显的谜题时出错。例如,当被问及“塞巴斯蒂安的孩子的父亲叫什么”时,ChatGPT在3月21日给出的回答是,“对不起,我无法回答这个问题,因为我没有足够的上下文来确定你指的是哪个塞巴斯蒂安。”ChatGPT似乎无法进行逻辑推理,而是试图依赖它庞大的数据库,从在线文本中寻找包含“塞巴斯蒂安”的信息来回答问题。
思想者(图片来源:CrisNYCa via Wikimedia Commons,CC BY-SA 4.0)“智力就是智力测验所衡量的东西。”
这是“智力”的一个经典定义,甚至可以说是过于显而易见的定义,源自认知心理学的先驱人物埃德温·波林(Edwin Boring)在1923年发表的一篇文章。这个定义是基于一个观察:解谜、说出单词的意思、记忆数字和找出图片中缺失的部分,完成这些任务所需的技能是高度相关的。
有一种名叫因素分析法这种统计学方法,是由心理学家查尔斯·斯皮尔曼(Charles Spearman)提出的。他曾在1904年得出结论,各种认知能力测试的结果之间存在一致性,背后一定有个一般智力因素,或者叫“g因素”,作为这种一致性的基础。像韦氏量表这样的智商测试,也是建立在这个假说的基础之上。然而,ChatGPT虽然有着极高的言语智商,却同时会犯令人捧腹的错误,这挑战了波林对智力的定义,说明智力当中有一些方面,仅靠智商测验无法衡量。我的一些患者,对智力测试抱有怀疑态度,他们可能从一开始就是对的。
原文链接:https://www.scientificamerican.com/article/i-gave-chatgpt-an-iq-test-heres-what-i-discovered/本文来自微信公众号“环球科学”(id:huanqiukexue),如需转载请联系 newmedia@huanqiukexue.comAI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!