AI与物理
夕小瑶科技说 原创 作者 | 小戏、Python 虽然我们都说当下大模型最引人瞩目令人浮想联翩的神奇能力在于它的推理判断能力,但是如果提一个问题,“这种通过语言、文本信息学习到的推理判断能力真的可以面对现实世界的复杂情况吗?”,换言之以一个人类视角如果没有与现实世界中的种种实体有过互动交流,我们真的可以在一些涉及物理世界环境的推理判断中的做出正确的选择吗? 来看下图中一个 ChatGPT 的例子: 来自加州大学圣地亚哥分校、伊利诺伊大学香槟分校、MIT、CMU 的研究者们组织了一些简单的问题,比如依次向 ChatGPT 描述桌子上有手机、橙汁和苹果,并在描述之中插入一些不相关的动作描述,然后问 ChatGPT 桌子上有几件东西,按理来说这个只是计数统计的任务按理来说应当对被宣称具有 9 岁小孩心智的 ChatGPT(GPT-3.5)来说应当轻而易举,但是答案却出乎意料,ChatGPT 似乎被那些不相干的动作描述所迷惑,“忘记”了手机、橙汁和苹果中的其中一个,只回答了有两个东西在桌子上。 紧接着研究者们又告诉 ChatGPT 书放在沙发上,再问它书在哪里,以及问它如何看电视,他们惊讶的发现,ChatGPT 的回答都发生了错误,这一点开始让研究者们思考是什么导致了 ChatGPT 的错误回答,反思人类的做法,只要我们告诉了一个人桌子上有手机、橙汁和苹果,不论我们中间和他谈了多少天气好坏,名人轶事,历史故事,桌子上就是有三个东西不多不少。但是这一点对“没见过世面”的 AI 而言似乎有些困难,这些不相干的“语言表述”会直接影响 ChatGPT 的逻辑判断。 基于这个看法,研究们开始构思为大模型构建一个“世界模型”,并基于世界模型对这些大规模语言模型进行微调以让他们可以更好的适应和拥有在物理世界中的推理与行动能力,作者们将这一过程称为 Embodied Experiences from World Models (E2WM),这里的世界模型是指一个“模拟器”,让大模型拥有一个虚拟的身体可以模拟在真实环境中的物理交互(如 VirtualHome),通过让大模型在这个“平民版现实世界”中进行微调来增强其对物理世界运行的知识,并保留大模型本身的通用性,增强其在实体任务中解决问题的能力。 这篇工作的论文与项目代码如下: 论文题目:Language Models Meet World Models: Embodied Experiences Enhance...