🔥ChatGPT为何不直接用监督学习？强化学习的秘密在哪？🤔

文章主题：关键词：强化学习, 监督学习, ChatGPT, 词汇语义学

作者 | Yoav Goldberg 责编 | OneFlow

翻译｜贾川、徐佳渝、杨婷

ChatGPT为何不走传统路线，而是青睐强化学习？背后的深层逻辑并非一目了然。以色列巴伊兰大学的Yoav Goldberg教授深入剖析了强化学习在大型语言模型中的关键作用，相较于监督学习，他巧妙地展示了两者间的异同。这不仅揭示了强化学习在面对复杂任务时的独特优势，也为技术的未来发展提供了宝贵的洞见和可能的方向。

🏆博士学历成就卓越🌟 Goldberg, 一位在自然语言处理(NLP)领域深耕十余载的领军人物，现任艾伦人工智能研究所以色列分部的研究主管，曾任Google纽约研究院的资深研究科学家。他的专长涵盖词汇语义学与句法分析，特别是在深度学习驱动的语言处理技术上贡献显著。SEO优化后的表述如下:🌟2011年荣获本古里安大学博士学位的专家🌟 Goldberg，现任艾伦AI以色列分支负责人，曾任全球知名Google纽约研究院的研究核心人物。他在NLP领域的深厚造诣，特别是在深度学习语言处理上的卓越贡献，广受赞誉。记得用#词汇语义学 #句法分析 #深度学习语言处理等标签哦！

为何使用强化学习？

极简主义在当今社会中越来越受到推崇，它不仅是一种设计理念，更是一种生活态度。通过去除冗余和不必要的元素，我们能更好地专注于本质，追求简洁与高效。无论是家居装饰，还是工作方式，甚至是个人成长，极简都能帮助我们实现内心的平静与满足。ChatGPT等技术的兴起，进一步推动了这一理念在科技领域的应用，强化学习（RLHF）作为其中的关键工具，正以其独特的优势挑战着传统的教学模式。相较于依赖大量示例进行指导的学习，基于人类反馈的强化学习更强调个体与环境的互动，让机器通过不断试错和改进来学习，这无疑是一种更为自然且深入的过程。然而，对于许多人来说，最初可能对RLHF的理解存在疑惑：为何要舍弃直接模仿？其实，这并非削弱模仿的力量，而是将它提升到了一个更高的层次。通过RLHF，我们不仅教会机器如何回应，更教会它理解与生成的逻辑，使其具备了真正的智能和创造力。这种训练方式就像艺术家磨练技艺，而非仅仅临摹画作。在技术日新月异的时代，拥抱极简并运用RLHF，意味着我们愿意接受挑战，不断优化，以适应变化。这不仅有助于提升生产力，也可能引领我们进入一个更加人性化、智能化的未来。让我们一起探索这个简洁而强大的世界吧！🎉💻

我提出了一个有说服力的理论论据。不过我意识到还有另一个论点，它不仅支持强化学习训练，而且尤其适用于 ChatGPT 等模型。OpenAI 的 John Schulman 在其演讲的前半部分进行了详细论述。本文的大部分内容都引用了 John 的论点，但增加了一些他没有明确表述的内容（不过我确信这些内容都是 John 考虑过的）。

🌟📖深入了解全文？没问题！这里为你梳理了详尽的背景信息📚，让你轻松跟上每一步。想要直击关键，别错过”核心论证”部分，那里有我们精心提炼的观点摘要💡。一起探索知识的海洋，让每个字句都熠熠生辉吧！🎓

背景：监督学习 vs 强化学习

简要地解释一下这两种学习场景，以便我们能够达成共识。如果你已经了解了这些内容，可以跳过此部分。

🌟🚀原内容改写：在预训阶段，我们设想让语言模型通过对海量文本的大规模学习，预测下文的精确 token。每一道词序列都激发了模型对潜在接续词的多维概率分配，从而赋予了语言独特的内在表示。🔍📈原文中的假设和步骤被巧妙地融入到新的表述中，保留了原意但去掉了具体信息，同时增加了SEO关键词如”预训阶段”、”大规模学习”、”内部表示”等。使用emoji符号增添了轻松和专业的感觉，使整体更吸引人且利于搜索引擎优化。

🎉训练升级完成！🚀模型已展现出强大的文本生成能力，它能无缝衔接前缀，创作出流畅自然的后续内容。💡然而，尽管它在信息生成上表现出色，却并不具备传统的 ‘对话’ 能力。当你向它抛出一个问题时，它可能会提供答案，也可能引发一系列相关思考，甚至可能指出这是个关键于…的情境问题。但它不会像朋友那样陪你闲聊哦！😊

这些都是遵循自然语言文本问题的有效延续（continuation）。我们可以通过编写输入文本，来使模型执行我们所希望的语言行为，该延续会解决我们的问题（也被称之为 ” 提示工程 “），但是对于只想提出问题或指令就让模型进行回答的非专家用户来说，这种交互模式并不非常方便。

如果我们希望模型能够持续回答查询而不是仅仅完成当前指令，就需要对其进行引导，这个过程称之为 ” 微调 “，即继续训练预训练模型，进而使其表现出我们想要的行为（有些人称这是 ” 对齐 ” 模型与使用者期望行为）。

监督训练：在监督学习中（也称为从演示中学习或 ” 指令微调 “），我们会收集一组人类编写的文本，这些文本以问题或指令的形式出现，并包含了期望的输出。例如，这些文本可以是某一问题和答案，或者是像带有人类编写总结的 summarize the following text {text} 这样的任务。

通过在相同的 ” 给定前缀预测下一个 token” 的目标上继续训练模型，但这次是在指令 – 输出对集合上，模型学会通过执行指令来响应。即模型接收到给定问题的正确输出的演示，并学会复制输出结果。我们希望通过这种方式将其泛化到训练中尚未出现的问题中去。

强化学习（RL）：在强化学习中，我们为模型提供指令，但并不提供人工编写的答案。模型需要自己生成答案。评分机制（例如人类）会读取生成的答案，并告诉模型这些答案的质量。模型的目标是如何回答以获得高分。

另一种机制是模型生成多个答案，评分机制告诉模型哪个答案最好。模型的目标是学习生成高分的答案，而不是低分的答案。在这两种情况下，模型通过生成答案并接收反馈来学习。（注意：许多研究人员将强化学习的范围限定在基于 credit 分配机制的某些技术层面。于他们而言，” 我们是否需要强化学习 ” 的问题也许归结为我们应该使用该技术还是采取其他相关技术来替代。我与他们同样好奇，但就本文目的而言，我认为任何使用外部评分函数的方法均可视为强化学习，无论其运行机制如何。）

强化学习比监督训练难得多，原因如下：首先是 “credit 分配 ” 问题。语言模型生成一段 token 序列，且仅在序列末尾才能获得一个分数。由于信号很弱，我们不能确定答案哪些部分是良好的，哪些部分是糟糕的。许多有关强化学习的相关技术研究都在尝试解决该问题，但在本文中我们先不谈这个问题。

credit 分配问题是一个活跃的研究领域，但已经存在合理的解决方案。其次，我们需要一种评分机制来对答案进行评分（或为答案评分或比较两个答案），而在基于语言的任务中，很难生成自动评分机制（尽管这可能正在改变，下文会简单论述）。

因此，我们会在强化学习的每一步留下 ” 人类反馈 “，但这种方式成本高昂且效率低下，考虑到每个人类反馈只能给出一个相当稀疏的信号，问题会更加糟糕。基于以上困难，我们为什么还要使用强化学习呢？为什么不仅仅选择监督学习呢？

多样性论证

对于语言生成模型来说，监督学习 / 指令调优最大的问题是它们只能复制演示者给出的确切答案，但实际上，人类语言可以用多种方式传递相同的信息，它们都是切实可行的。如果因模型轻微偏离人类规定的文本而受到 ” 惩罚 “，可能会使模型产生困惑。

我们当然可以继续逼迫模型去学习更难学习的遣词造句，尽管模型已经学会了生成具有同样意思、合法的替代性回答。因此，我们非常看好强化学习训练提供的多样性表达。考虑到监督学习在实践中的良好应用，以及训练强化学习模型所面临的挑战，这是一个非常直观的论点，但不够有说服力。一直以来，我并不认为这是一个足够核心的问题，现在我仍这样想。

理论论证

监督学习只允许正反馈（我们向模型展示一系列问题及其正确答案），而 RL 允许负反馈（模型被允许生成答案并得到反馈说 ” 这答案是不正确的 “），这是我提出的第一个关于 LLM 领域的监督学习 vs 强化学习的强有力论点。

从严格的学习理论的角度来看，两者之间有很大的区别：相比正反馈，负反馈要强大得多。从理论论证的角度，当模型只从演示中学习时，对抗型（或粗心的）演示者（demonstrator）可以隐瞒重要例子，从而误导学习者（learner）学习错误的假设。

演示者控制着整个学习过程，但如果学习者能够形成自己的假设，并询问老师（teacher）假设是否正确（例如强化学习设置），通过这种方式，即使是对抗性老师也无法再欺骗学习者学习错误假设，它必须如实告知这一假设是错误的，这种方式赋予了学习者主动性，让学习者更加强大。（当然，前提是对抗型或粗心的老师仍然遵守规则，始终提供真实答案。这是理论框架中的合理假设，这一假设并不影响我们的主体观点：从互动或提问中学习比从演示中学习更加强大）。

这是我们选择强化学习的部分原因，但就通过提问训练大型语言模型交流方面，还有一个更加重要的额外论点。

核心论证

以下是我们需要强化学习或类似技术的核心原因。前两个论点依赖于假设，例如 ” 模型可能更难学习 ” 或 ” 粗心的演示者可能会混淆模型 “，这些假设在实践中是否成立是未知的，

相反，下面的论点可以被证明是成立的。

语言模型（至少）有三种交互模式：（a）文本型（text-grounded）：为模型提供文本和说明（” 总结此文本 “，” 基于此文本，以色列的人口是多少 “，” 本文中提到的化学名称是什么 “，” 将此文本翻译成西班牙语 ” 等），让模型基于我们提供的文本生成答案；（b）求知型（knowledge-seeking）：向模型提供问题或指导，让模型根据内在知识（” 流感的常见原因是什么 “）提供（真实）回答。（c）创造型（creative）：为模型提供问题或说明，然后让模型进行创造性输出。（” 写一个关于 … 的故事 “）

我们的论点是基于第二种交互模式（求知型查询），希望在这种查询中得到真实（自信）的答案，我们希望模型在对答案没把握的情况下能够如实回答 ” 我不知道 ” 或拒绝回答这一问题。

对于这类交互模式，由于监督训练可能会让模型撒谎，所以我们必须使用 RL。核心问题是：我们希望模型根据内部知识进行回答，但我们并不知道模型内部知识包含的内容。

在监督训练中，我们给模型提供问题及正确答案，并训练模型复制提供的答案。这里有两种情况：（1）模型 ” 知道 ” 答案。这种情况下，监督学习能够正确推动模型将答案与问题相关连，并且有望让模型执行相似的步骤，回答将来遇到的类似问题。这是所期望的行为。（2）模型不知道答案。在这种情况下，监督训练还是会促使模型给出答案。

现在，我们有两种选择。一种可能是，它会促使模型记住特定的问答对。这种做法本身并没什么坏处，但不太高效，因为我们的目的是让模型具有泛化能力，并且能回答任何问题，而不只是那些在训练数据中出现的问题。但如果我们使模型在这些情况下能做到泛化，那么实际上就是在教模型捏造答案，相当于鼓励模型 ” 说谎 “，这很不好。

由于我们无法确定模型知道哪些信息或不知道哪些信息，所以无法避免第二种情况，这对监督训练来说是一个真实且严重的问题。

我们不能仅依靠监督学习来训练模型生成可信任回答，还需要强化学习的加持。与监督学习不同，强化学习不会鼓励模型编造答案：即使模型最初确实猜对了一些答案并错误地学习了 ” 编造 ” 行为，但长远来看，模型会因编造答案的得分较低（很可能是不正确的）而学会依赖内部知识或选择放弃回答。

教导模型放弃回答

当模型不知道答案时，我们希望它能够放弃回答并给出 ” 我不知道 ” 或类似的答案。但由于我们不知道模型是否知道答案，所以这并不是一件容易的事，在监督环境中很难做到。我们可以引导模型规避某些类型的问题（例如 ” 从不回答涉及人类的问题 “），并回答 ” 我不知道 “。但这不是在答案未知时放弃回答的预期行为，只是一个非常薄弱的替代方法（proxy）。

然而，这对于强化学习设置也具有挑战：模型可能从一开始就不会生成 ” 我不知道 ” 的答案，因此我们无法鼓励它作出这种回答。解决这个问题的方法之一是，先进行一些监督训练，学习在某些情况下生成 ” 我不知道 ” 的答案，然后再进行强化学习训练。

但这种方法也有弊端，即在监督学习和强化学习中，模型可能会过度回答 ” 我不知道 “。这是一个开放的研究问题，可以尝试通过 ” 定制奖励函数 ” 来解决：将正确答案赋予非常高的分数，放弃回答的答案赋予中低分数，不正确的答案赋予强烈负分。当然，想做到这一点也并非易事。

模型窃取 / 蒸馏的影响

OpenAI 在 GPT 模型的强化学习类型调优（RL-type tuning）方面投入了大量精力。原因有很多，他们的部分动机是希望通过鼓励模型在不知道答案时放弃回答来确保准确性和真实性。

最近有一种趋势，即采用其他公开可用的基础语言模型，并对它们进行训练，以期能够复制 GPT 模型的出色行为。

这种做法类似于监督式训练或指令调优：通过训练，模型可以准确生成 GPT 模型的答案。这对于教模型执行指令应该很有效，但却不适用于回答知识查询类问题（案例 b）。

公开可用的基础模型和 OpenAI 模型可能具有不同的知识集，因此训练模型以复制 GPT 的答案可能会面临与监督学习同样的问题，即鼓励模型编造事实，或在它知道正确答案但 GPT 模型不知道的情况下放弃回答。那么，解决方案是用强化学习对这些模型进行训练，但这是否太过昂贵？

无人类反馈的强化学习

长期以来，使用强化学习训练生成语言任务对大多数玩家来说都不切实际：由于缺乏可靠的自动评分指标，强化学习训练需要对每个训练样本进行人工反馈。这既耗时又昂贵，特别是对于需要查看数千到数万甚至数十万个示例才能学习的模型。

然而，强化学习训练现在变得实用了：首先，出现了可以从较少示例中学习的大型预训练语言模型。更重要的是，这些模型为强化学习循环（RL loop）中去掉人类参与铺平了道路。

监督训练对于文本相关的任务非常有效，而且大型模型可以很好地学习执行一些任务。例如，让模型确定两个文本是否意思相同，或者一个文本是否包含另一个文本中没有的事实（还可以将任务分解，让模型 ” 生成所有可从该文本回答的所有问答对 “，然后针对每个问题询问 ” 在其他文本中是否有该问题的答案，答案是什么 “）。

根据经验来看，大型语言模型（甚至中型语言模型）可以使用监督学习可靠地学习执行这些任务，这为我们提供了可用于强化学习设置的有效自动评分机制。

我们可以使用人类提供的指令 – 响应对进行训练，不过，要让模型生成自己的响应，而不是直接复制人类响应，然后用在监督方式下进行训练的专用文本对比模型（text comparison model）将模型生成的响应与人类提供的响应进行比较，这样就获得了一种自动打分的办法。

▶

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章

Leave a Reply Cancel reply