文章主题:人工智能, Hubert Dreyfus, Jaron Lanier, What Computers Can’t Do
图片来源@视觉中国
文 | 追问nextquestion
在人工智能(AI)的初级阶段,Hubert Dreyfus在他的经典之作《What Computers Can’t Do》(1972年)中阐述了一种观点,即由于计算机与人类存在诸多差异,因此计算机将永远无法拥有真正的智能。然而,近期,Jaron Lanier在《纽约客》杂志上发表了一篇文章,强调计算机仅仅是一种工具,而非具有智能的存在。他标题中的“没有所谓的人工智能”表达了这一观点。虽然这些AI批评者的观点尖锐,但他们并非反对技术的发展。事实上,Dreyfus的著作激发了人工智能领域的许多创新,而Lanier则提出了虚拟现实的概念,并且一直致力于创新。但是,Dreyfus和Lanier的观点都存在一定的误判,他们混淆了两个关键的问题。
在《计算机不能做什么——人工智能的极限》一书中,作者指出符号处理式的AI研究存在局限性,因为人类智能不仅涉及对符号、规则或事实的处理,它还深深根植于人类的生理体验以及所处环境之中。这一观点在当时引起了极大的争议。然而,随着神经网络和机器学习技术的不断进步,对作者的批评也逐渐得到了重新审视和探讨。
一个是技术问题:计算机是否能够具备智能;
另一个则是科学问题:人类及其他动物是如何表现出智能的。
要回答这两个问题,我们首先需要对“智能”这一概念达成一致的理解。在这篇文章中,我们将采用常见的定义,避免将“智能”仅仅视为成年人的特有属性,而将其视为解决复杂且具有一定认知难度的問題的能力。基于这样的理解,关于计算机是否拥有智能的问题实际上已经有了明确的答案。尽管Dreyfus和Lanier可能并不愿意接受这一结论,但是多年的研究表明,计算机确实具备智能。
ChatGPT和其他大型语言模型的近期进化,标志着数十年技术突破的产物。这些语言模型,简称LLMs,具备生成清晰且具有说服力的文章的能力,同时在科研领域也发挥着重要作用。更令人惊喜的是,它们还能编写可编译并执行的计算机代码。近年来,ChatGPT在医疗领域的表现尤为出色,其准确性和同情心甚至得到了病人的认可,堪比人类医生 [3]。
ChatGPT 并非完人或完美的系统,这在使用过程中是显而易见的。虽然其开发者试图打造一个无懈可击的工具,但在实践中,我们仍然能够发现,基于互联网的大规模语言模型训练中存在着种族偏见和性别歧视的问题[4]。另外,ChatGPT 偶尔会出现其开发者所称之为“幻觉”的情况,也就是不根据事实进行空穴来风。
大语言模型的能力并不等同于智能,这取决于我们如何定义智能。大语言模型能够通过统计上可能的词序来回应查询,但这并不意味着它们试图真实地描述世界。相反,它们专注于生成清晰、流畅的句子以回答问题,在这方面它们表现得相当出色。因此,我们可以把大语言模型视为擅长应对复杂且具挑战性问题的“政治家”。与政治家相似,大语言模型拥有现成的答案,并且倾向于编造事实。然而,尽管这两者都可能编造事实,但政治家具备更广泛的智能。同样,虽然大语言模型需要根据事实进行验证,但它们的训练过程主要集中在生成连贯的文本,而不是对现实世界的真实反映。综上所述,大语言模型在生成连贯、有意义的文本方面表现出色,但我们需要认识到它们并非真正地反映现实世界。因此,将大语言模型视为具有智能的实体是有限的,因为它们并没有完全准确地反映现实世界。
然而,尽管当前的大语言模型展现出一定程度的智能,但它们与人类的智能并不相同。例如,根据语料库研究,美国儿童到两岁时听到的英语单词数量在1000万到3000万之间(不幸的是,这个数字与社会经济地位存在悲剧性的相关[5])。相比之下,人类儿童的语言学习方式与大型语言模型的训练过程迥然不同。以ChatGPT-3.5为例,该模型在大约570GB的文本数据上训练,涵盖约1150亿个参数。换句话说,ChatGPT需要的训练集是典型儿童所听到单词数量的5000多倍,这一点在比较它们的学习方式时尤为明显。
要回答人类(和其他动物)如何能够表现出智能这一科学问题,首先需要认识到我们与大语言模型有何不同。虽然人类能够熟练地使用文本信息并从中迅速学习(就像大语言模型一样),但与文本的互动仅仅是我们理解周围世界的众多方式之一。阅读和写作作为进化较新、发展上较先进的技能,并非是每个人都能轻易掌握的。在人类大部分历史中,我们——与其他动物一样——主要通过与外部世界和同类的具身互动来了解周遭环境;而直到今天,绝大多数人依然在依赖这种方式来认识世界。
根据当代认知科学中的具身观点[6],理解人类智能的关键在于承认我们的具身性。仅凭任何计算系统(包括大型语言模型)是无法完全解答科学问题的。从这个观点来看,我们不仅是逻辑思维的主体,更是不断与物质、社会、文化和技术环境互动的活生生的生物。
作为生物,我们有特定的新陈代谢需求,这与我们的身体性质紧密相关。为满足这些需求,我们拥有调校得恰到好处的运动和感知系统。以青蛙为例,它以捕食苍蝇为生,它们是捕捉这些食物的大师,正如现代人善于寻找杂货店和餐馆一样。
在生命体中,感知和移动方式紧密相连,感知世界旨在引导行动,并常常包含行动本身。人类和其他动物通过移动来体验周围世界,比如转动眼球、伸长脖子、走近物体以便更好地观察事物。这种活动不仅仅是观察的辅助,它实际上是观察的一部分。
换言之,从具身的角度看,人类的视觉不仅仅是眼睛或大脑某区域的功能,而是整个动态系统的协作。看见世界的主体当然包括大脑和眼睛,但这些眼睛总是在移动(多亏了肌肉),而且它还嵌入在一个移动的动物头部、颈部和躯干上。要解释人类智能,必须考虑这整个的具身系统。这种体验与行动之间的紧密联系是人类智能的核心特征,但这是大语言模型所欠缺的。大语言模型的智能不是具身的,因此,它们的智能与我们的不同。
另一个区别在于,虽然ChatGPT的运作和训练可能需要消耗大量(且未公开的)能量,但与生物不同,大语言模型并不像动物那样具有新陈代谢的需求。我们的代谢需求暗示着我们对世界中情境体验内在地带有积极或消极的评价[7]。生物因需求而存在,因此有些情境会比其他情境体验起来更理想。即便是单细胞生物也会对其环境中特定化学物质的不同浓度做出不同的反应,以努力维持在其生存所需的条件范围内。从根本上来说,人类的认知是一套我们用来维持生存的工具,这就是为什么我们会体验到某些情境是好的,而另一些则不是。我们人类受到温暖、饱腹和被爱的需求驱动,这种动机渗透我们的体验,甚至影响到看似最公允的认知过程。
人类的生活本质上是社会化的。我们在另一个人体内开始我们的生命,并以完全无助的状态出生。我们在与其他人类共存的世界中成长,特别是那些提供我们温暖、食物和爱的照顾者,他们是我们继续前行的支持。与大型语言模型相比,我们之所以能更快地学习语言,部分原因在于,对我们来说,词语的出现总是伴随着面部表情、语调、手势以及时间延续的人际互动背景。这些互动不仅是交流的媒介,还是语言学习的关键因素。此外,我们还生活在特定的文化和技术环境中,这些环境深刻塑造并促进我们的活动和思维方式。作为具身的生物,我们在复杂的人际情境中航行,调整自己的面部表情、语调和手势,以适应不断变化的环境和我们在其中的角色[8]。例如,我们作为演讲者进入讲堂的方式与作为听众时截然不同;我们在东京的行为模式也可能与在多伦多时有所不同。
人类智能的一个关键特征是我们的适应能力,特别是对新技术的适应能力。我们不仅能够采用新技术,还能通过它们改变我们的思考和生活方式。书写文字,作为一项“古老”技术,就是这种适应能力的早期体现。到了2023年,智能手机和人工智能(包括大语言模型)无处不在,它们通过改变我们的环境和所需的认知技能,从而改变我们的认知模式[9]。这一转变,无论好坏,已成定局,无法逆转。
这些差异综合起来,指向了John Haugeland所说的“在乎”(giving a damn)的生活方式和智能方式*[10]。人类在乎,“在乎”不仅仅是对维持个体存在和与世界及他人关系的承诺,更包括对自我认知状态的深切关心——关心自己是处于“幻觉”,还是在述说真相。ChatGPT无法关心这些事情,因为它不是一个具身的有实体生物,不是一个活着并参与其生成文字所描述的世界的生物。当我询问ChatGPT这个问题时,它确认大语言模型并不在乎。当然,未来的人工智能模型(可能会融合大语言模型技术)或许会被构建成在乎这些事情的样子。
*注:出自John Haugeland的Giving a Damn: Essays in Dialogue with John Haugeland。其中“在乎”(giving a damn)指的是一种根植于个体身份和存在方式的深刻承诺和关注。这意味着个体的认知过程和智能表现不仅仅是冷冰冰的信息处理,而是与个体的情感、价值观和社会互动密切相关。
我们从如今的大语言模型中学到的是,智能的表现方式不止一种。我们的智能方式并非唯一,也不是大语言模型所采用的方式。这一认识并没有从技术成就上削弱大语言模型,但这清楚地表明,就回答关于人类及其他动物智能的科学问题而言,大语言模型并无太大帮助。认知科学家们仍有大量工作要做。开展这些工作需要我们仔细关注我们作为具身的存在——我们是活着的、能移动的、社会化的、有文化的生物,我们是会在乎的生物。
参考资料:
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!