文章主题:NLEP, 大模型推理, 自然语言处理, 人工智能
NLEP 可突破大模型推理瓶颈。
作者|罗鸿胤
编辑|王博、苏霍伊
* 这篇文章是由麻省理工学院(MIT)的年轻科学家罗鸿胤独立提供的,”甲子光年”经过他的授权后进行了编辑和发布。罗鸿胤是一位专注于人工智能领域的博士后研究员,MIT计算机科学与人工智能实验室(CSAIL)的成员,他的研究重点在于自然语言处理领域,包括自训练算法、内在模型和语言模型推理问题等。他拥有来自MIT电子工程与计算机科学系的博士学位,并师从Jim Glass博士;同时,他也曾在清华大学计算机系获得本科学位,并师从刘知远教授。
人工智能领域一直存在着学派之争。
在过去的一段时间里,我们可以观察到两种不同的AI技术路线,分别是”建制派” symbolism AI 和经验主义 AI。其中,”建制派”的AI被视为”唯一的主导力量”,主要基于逻辑驱动的方式运行。而另一方面,经验主义 AI,特别是深度学习,则倾向于放弃对解释和逻辑的追求,转而利用神经网络和大数据开启”暴力美学”的大门。这两种不同的AI技术路径在各自的领域中都有其独特的优势和应用场景。
GPT系列等大型语言模型作为“暴力美学”路径的代表,如今已取得一定的成功。然而,这一路径仍存在一定的局限性,值得关注与探讨。
从人工智能诞生的第一天起,计算机科学家们一直在比较以神经网络为代表的经验主义AI 与以数理逻辑为代表的符号主义AI的优劣。简单来说,经验主义AI主张通过对大量数据的学习来获取知识,而符号主义AI 则强调精确的任务定义和严谨的数学工具。
在过去的十年里,我们见证了计算能力的显著提升,这使得神经网络——作为一种典型的经验主义AI模型——得以迅速发展。然而,神经网络所具备的非结构化信息处理能力和泛用性,以及其难以生成非结构化数据(例如自然语言)的特点,使其在符号主义AI领域逐渐占据上风。这使得符号主义AI的存在价值和影响力受到了一定程度的冲击。
但是在我看来,基于符号和逻辑的推理 ( reasoning ) 远比基于经验和数据的感知 ( perception ) 复杂。经验主义 AI发展的顶点,正是符号主义AI大放异彩的起点。
知名语言模型评论家Gary Marcus博士曾经 precision 的指出:”大语言模型无法执行一些具有严格定义的工作,例如遵循国际象棋规则、计算五个数字的乘积、在国际家族树中进行可信的推导,或者比较不同物体的重量等。”
” 火力全开 ” 的 Marcus 博士指出了目前大语言模型存在的问题,但是这个问题并非没有解决方法,我认为:大语言模型(LLM)只是不能通过生成文本做有严格定义的工作。大语言模型可以通过生成 “自然语言嵌入式程序“ (natural language embedded program, NLEP)准确完成上述工作。
NLEP 是我与麻省理工学院(MIT)、香港中文大学(CUHK)研究团队共同研发的一种兼顾符号推理和自然语言生成的程序。它将语言智能抽象为「” 思维 ” 编程 + 程序执行」两个步骤,能让大语言模型同时具有生成自然语言和精确执行复杂推理任务的能力。
在传统认知里,符号 AI 无法处理非结构化数据和生成自然语言。而NLEP 的方法证明,符号AI可以处理非结构化数据、自然语言,还可以强化非结构化数据深层的结构规律和推理能力。
或许在不久的将来,符号主义有潜力替代经验主义。
接下来,我将从 Marcus 博士的锐评出发,讨论以下内容:
经验主义AI难以突破推理的瓶颈;
文本到思维的抽象、思维的程序化表示;
OpenAI 代码解释器的局限;
NLEP 范式的能力与优势。
1. 大模型与醉酒的人相似
当前最先进的神经网络模型其实与醉酒的人相似。
在这个高度互动的社会中,人们都在努力寻找与他人的联系,并尝试遵循简单的指示来产生信息。值得注意的是,部分人群甚至尝试参与到交通出行领域,从而进一步推动社会的发展。然而,他们的行为也带来了一定的商业机会和社会潜在风险,并可能导致广泛的讨论。
人类认知功能不完整时(如醉酒、梦呓、疾病等),语言行为往往是脱离逻辑思维的。
这时,人类只是依赖语言本能,把输入信号强行拼凑成有一定语法结构的句子(文本补全)。表达的内容可能是如李白斗酒诗百篇般的艺术瑰宝,也可能只是毫无意义的胡言乱语。
人类大脑语言区域的发现,源于临床医生对认知功能受损、但仍保留部分语言能力的患者的深入研究。这种科学方法也广泛运用于探索人工智能(AI)模型的行为和规律。
随着算力的快速发展,OpenAI 等机构花费数百亿美元构建了参数量远超人类语言器官的神经网络,和文本量远超人类阅读极限的训练数据,为体积远大于人脑的机器赋予了类似的文本补全能力。
但此类模型生成的究竟是 ” 语言 ” 还是 ” 梦呓 “?
这个问题已经在学术界引起了激烈争论。争论的结果关乎社会和业界对 AI 可解释性、可靠性、安全性的认可程度。而决定结果的关键就在于语言模型是否存在可控、准确的思维能力。
为了回答这一核心问题,谷歌旗下研究机构 DeepMind 的最新论文指出,语言模型本质上是信息的压缩模型。
只要模型的表示能力足够强(参数量足够)、被压缩的训练数据量足够大,语言模型就能在压缩信息的过程中抽象出一定的思维能力,包括推理、计算、预测等等。
语言模型的最新进展,如GPT-4,在回答问题、执行指令以及编写代码等方面展示出了超越人类的能力。然而,要认为基于GPT-4的各类Agent已经足够可靠,这或许还为时过早。
GPT-4 是极端经验主义 AI 的代表:把世界上所有的高质量文本、程序、数学、对话数据压缩到算力允许的最大模型里,再抽象出这一技术路线蕴含的最强思维能力。它没有可靠推理引擎的支撑,完全依赖简单粗暴、类似 ” 死记硬背 ” 的大量训练。无论多少计算和数据资源,都无法掩盖和弥补 GPT-4 本质的推理缺陷。就如同酒驾的司机,无论酒量多好、多么侥幸,都无法避免酒精对人反应和判断能力的本质危害。
正如不同的任务对人的思维严谨程度有不同要求,当前的语言模型更适用于能容忍甚至欢迎一些噪声的应用场景,但在需要执行准确、可控的复杂推理任务时,其可靠性有根本的缺陷。GPT-4 甚至会在回答一些并不复杂的问题时生成自相矛盾的文本,如下图所示:
实际上,吴丹(U Thant)是第一位来自于亚洲的联合国秘书长,潘基文(Ban Ki-moon)是第二位来自于亚洲的联合国秘书长,上图中 GPT-4 的回答并不准确。
能力如此强大的 GPT-4,却依然会在简单的问答中生成自相矛盾的语言,这也佐证了现阶段语言模型推理的不可靠性。
2. 文本补全模型的瓶颈就在文本
人类运用语言的能力可以抽象成知识、推理、计算三大模块,并且语言绝对不等于文本。
许多语言模型(文本补全模型)的问题难以解决,绝非模型不够强大,而是因为自然语言文本是思维结果的表达,并不是思维过程的载体。
比如,我们想要学好物理,” 事半功倍 ” 的办法就需要从物理定律、求解问题、设计实验的思路出发;反之 ” 事倍功半 ” 的办法则是死记硬背一百本物理习题却不理解牛顿定律。采用这种方法的学习者花费更多的时间,但还是无法融会贯通地解决没见过的问题。
这个缺陷并不是解题模型——人类大脑的问题,而是训练数据的缺陷——问题的答案只是物理定律的表象,而解题思维代表着对物理定律的直接应用。
不可否认,” 死记硬背 ” 是实现 ” 答对考题 ” 的技术路线之一。与之相似,使用大型神经网络在大规模数据集上学习文本补全能力,也是当前 AI ” 获得思维 ” 的技术路线。
虽然巨量的计算资源与数据的投入让这种技术路线取得了成功,但诸多的研究和应用已经证明,这种技术路线的可靠性瓶颈会带来诸多挑战:臆想、推理能力有限、隐私泄露、合规问题等等。
大语言模型的能力是一把双刃剑:可以处理不存在于训练数据中的新问题,但也会在其不知情的情况下,输出错误的推理结果。
作为通过压缩文本提炼思维的黑盒模型,其知识、思维、推理能力都储存在神经网络的权重中。AI 的优势和不足都体现在以下几个方面:
抽取真实或失实的知识和信息;
规划非结构化的推理流程;
由模型执行有误差的计算。
由于以上三个模块都有可能出错,大模型的行为难以验证、解释、控制、改进。
针对 ” 在美国,哪种新冠病毒造成了最高的 ICU 占用量 ” 这个问题,GPT-4 模型的回答是 ” 德尔塔变种导致的 ICU 占用量最高 “。
那真实的情况是什么?
在 11 月 6 日的 OpenAI 开发日前,没有搜索引擎增强的 GPT-4 模型会给出定性的回答和解释:
开发日后的 GPT-4 系统默认调用必应搜索引擎,会基于搜索结果给出数据、作出一定解释和参考资料引用:
中文翻译:
获得搜索增强的 ChatGPT 生成了更有说服力、文本更专业的回复。尤其是在其中三处引用了参考资料网址,更加提高了用户阅读答案后的满意度(和被误导的可能性)。
遗憾的是, ChatGPT 的用户很难验证答案的正确性。事实上,重复问最新的(2023 年 11 月 13 日)、搜索引擎加持的 GPT-4 同样的问题,它还会生成各种不同的回答 :
回答 a:” 奥密克戎变异 – 占用了高达 30.4% 的 ICU 病床。”
回答 b:” 虽然感染了德尔塔变异的病人最多占用了 31% 的 ICU 病床,但奥密克戎病人占用了更多。”
回答 c:” 好像不是奥密克戎变异,好像是德尔塔变异。”
虽然在不同尝试中 GPT-4 的回答自相矛盾,但是每一次回答生成的文本看起来都很正式、客观、有说服力、甚至附带搜索引擎给出的参考文献。未经多次验证答案的读者很容易受到误导。
语言模型的这种能力非常适合于创作和想象:给一个标题,写三个小故事之类的任务对于 ChatGPT 而言恰到好处。但遗憾的是,这种不可控的行为模式,在回答需要严谨推理的问题时应该被尽量避免。
更遗憾的是,虽然给了 GPT-4 多次尝试的机会甚至搜索引擎的加持,上述新老 GPT-4 猜测的答案中没有一个是正确的。
根据权威统计机构数据看世界(Our World in Data)信息,美国因新冠病毒导致的 ICU 病床日占用量峰值应发生在 2020 年冬天阿尔法变异流行期间。GPT-4 基于必应搜索引擎提供的大量 ” 比较德尔塔与奥密克戎变种病毒 ” 的文章得出 ” 德尔塔或奥密克戎变异造成了最高的 ICU 病床占用量 ” 是不准确的。
那么,GPT-4 在知识、推理、计算的哪一步出现了错误?是搜索的数据出了问题,还是对于三个峰值比较大小的运算出了问题?用户并不了解。
在上述例子中,GPT-4 的可解释性和可靠性都会受到质疑。为了改进语言模型的事实性、可解释性、可控性和可靠性,OpenAI、Meta、麻省理工学院、香港中文大学(CUHK)、卡耐基梅隆大学、滑铁卢大学等机构的研究人员分别提出了不同的基于编程语言以及程序解释器增强的技术方案。
其中,比较广为人知的方案是 OpenAI 开发的 ChatGPT 代码解释器和 Meta 提出的 Toolformer 模型。它们在文本生成的过程中将一部分内容 ” 外包 ” 给程序或 API,例如数学运算。
代码解释器或者可靠 API 能够保证在输入正确的情况下永远计算出一致、正确的结果,并将结果返回到语言模型生成的内容里,比如:
最后的总分是由一段 python 代码计算得到:
虽然 ” 外包 ” 了一部分推理任务给可靠的代码解释器,ChatGPT 的主干仍然是自然语言。上述例子只在最后一步计算总分时调用了代码解释器,而步骤 3 中 “30 分 ” 的中间结果仍然是由自然语言完成的推理。
最新的研究表明,在很多任务上 ChatGPT 负责调用代码解释器的数据分析 ( Data Analysis ) Agent 仍不能取得准确的推理效果。比如,它拒绝用代码解决一些非结构化问题中的结构化推理任务,因此得到错误的结果:
在这个例子中,我们的问题是 ” 有几位联合国秘书长不是来自欧洲?” 虽然使用了 ChatGPT 的数据分析 agent,但它拒绝使用代码分析,而是使用自然语言 ” 敷衍了事 “。这也就造成了,虽然 GPT-4 生成了正确的人物列表及国籍,最后的计数却漏了来自亚洲的潘基文秘书长。
这里正确答案应为 5 位联合国秘书长来自欧洲,而 ChatGPT 数据分析 Agent 偷工减料推理得到的结果是 4 位。
3.NLEP方案:符号主义 AI的极致尝试
NLEP 是一种同时提高自然语言、符号推理能力的神经符号 ( neuro-symbolic ) 方法。
针对 ChatGPT 代码解释器的种种痛点,麻省理工学院(MIT)和香港中文大学(CUHK)的研究人员提出了一个大胆的假设:” 哪里有自然语言,哪里就有不严谨的思维。”
基于这种假设,我们提出了一种独特的语言生成方案:natural language embedded program ( NLEP,自然语言嵌入式程序 ) 。
OpenAI 采取了 ” 文本补全 + 代码解释器插件 ” 的范式,在自然语言中必要处添加代码和插件的调用。NLEP 则通过生成可一键运行的程序解决一切自然语言、数学、符号推理、编程问题,只在程序中必要的地方嵌入自然语言。
在完成程序生成后,点击 ” 运行 ” 按钮,由程序打印出自然语言的回答。例如在之前的联合国秘书长计数问题中,NLEP 生成的内容如下:
在图中可以看到,语言模型生成了一段逐步解决问题的程序:定义结构化知识、实现计算结果的函数、打印自然语言回复。完成程序的生成后,运行完整的程序,即可得到正确的结果。在五次独立重复实验中, GPT-4 API 的正确率为 40%,ChatGPT 代码解释器的正确率为 60%,而 NLEP 的正确率为 100%。
NLEP 与 ChatGPT 代码解释器相比有显著的区别:
ChatGPT以自然语言文本为主干回复用户输入。在生成某个词的时候切换到代码运行,再将代码运行结果添加到生成的内容里,然后继续生成文本;而 NLEP以程序为主干,首先生成完整的程序,然后执行程序、打印出包含自然语言文本、图表等要素的回复。
同时,NLEP 的编程语言框架也可以比自然语言框架更自然地链接数据。
相比于自然语言框架,NLEP 作为完整的可运行程序,可以更自然地链接知识库和数据库。NLEP 可以准确调用谷歌知识图谱里的真实数据,回答此前 ” 哪个新冠变种导致了最高的 ICU 日占用率 ” 的问题并提供数据可视化作为解释:
NLEP 的回答是 “The COVID variant caused the highest daily ICU occupation in United States is Alpha ( 在美国造成最高 ICU 占用的新冠病毒变种是阿尔法 ) .” 并以此生成出自动可视化数据:
以上功能由 NLEP 的生成工具 LangCode 实现。
此外,NLEP 还可以自动生成结构化 Agent。
NLEP 与 ChatGPT 的本质区别在于是否采用结构化的语言生成框架。ChatGPT 以非结构化的自然语言文本补全为基本范式。因此在上周的 OpenAI 开发日,OpenAI 公布的 GPT store 也更多集中于非结构化的 agent,即 chatbot 的自动搭建。
而早在 OpenAI 公布 GPT store 一个月前,我们就利用融合了符号、结构、自然语言的能力的 NLEP 为 Anchoring AI 平台实现了自动生成结构化 Agent 的功能。
如图所示,Anchoring AI Agent 可以服务结构化的输入和输出。其推理过程、自动生成的提示信息也显示在自动生成的独立模块中,透明可控、清晰准确,便于团队协作开发 AI 应用。
如 GPTs Agent:
以及根据一句自然语言指令自动生成的 Anchoring.ai Agent:
4. 符号主义终将 ” 接棒 “
经验主义与符号主义 AI 争议纷扰六十余年,其核心矛盾在于:经验主义AI侧重强大的泛化能力,而符号主义 AI 侧重精确地推理能力。
近二十年来,拔地而起、粗放增长的 AI 研究和产业强调扩展 AI 的应用场景。因此,泛化能力成为了近十年 AI 的主题。尤其在 ChatGPT 横空出世的 2022 年底,经验主义 AI 发展到了极致:GPT 模型有着极强的泛化性能,能够处理非常广泛的数据和应用。
但在后 GPT-4 时代,AI 的粗放增长会迅速来到瓶颈期,转而进入精益发展的阶段。下一个十年 AI 领域的主题将是精确推理、可解释性、安全可控。依托于经验主义 AI 的坚实基础和强大泛化能力,符号主义将接过解决 AI 诸多挑战的重任,在未来的 AI 发展中大放异彩,带来无数崭新的可能。
甲小姐对本文亦有贡献
* 本文配图由作者提供
(封面图来源:拍信创意)
END.
NLEP, 大模型推理, 自然语言处理, 人工智能