《语言模型的逻辑推理能力：从记忆到逻辑的转变》

文章主题：记忆, 语言模型, 逻辑推理, 数学问题

666AI工具大全，助力做AI时代先行者！

1 背景

印象中，语言模型都是靠记忆，是没有逻辑推理能力的。

拿这个数学问题来说

如果语言模型见过类似问题，只要见的足够多，背的足够多，是能回答的还不错。

但一旦题目做一些改动，改个数字，逻辑稍微改一下，他的错误率就会直线上升。

ChatGPT在某些方面的表现出人意料地出色，能够在题目经过多次调整时仍保持较高的准确性。这一成就得益于众多公开论文、文章和数据集的研究支持，我们将在本文中深入探讨它是如何实现这一目标的。

这里基于一些公开的论文，文章，数据集合，来讨论OpenAI是如何解决此类问题的。

2 从记忆到逻辑推理——样本设计

人脑的工作机制类似于GPTChat的回答过程，它将复杂问题分解成诸多细小部分，并逐步解决这些细化后的子问题。这种分步解决问题的方法与人类思考的过程非常相似。

参考样本集合GSM8K，它的样本按照人类的逻辑流程，step by step的给出了答案，如下图

好处是什么？

生成模型都是根据上文来预测下文，上文越多，下文预测的就越准。上文逻辑越简单，预测的也更准。

拆分成小问题后，如x+y=什么这种预测，因为简单，所以特别准。

小问题预测准了之后，提供了更丰富的上文，反过来促进最后结果预测的准确率。

最后的效果，参看这篇论文

https://arxiv.org/pdf/2103.03874.pdf

对比直接拿结果学习，提升了10个点的auc。

3 更小的参数也能带来不错，甚至更好的效果

参考这篇OpenAI的论文——https://arxiv.org/pdf/2110.14168.pdf

在纯finetuning的探索中，我们尝试了不同规模的大规模预训练模型，包括3、6、12以及1750亿参数。显然，1750亿参数的模型表现最为出色。

但参数多，模型慢，计算资源增大。

在许多情况下，性能可能是最重要的考虑因素，但準確性需求可能较为宽松。然而，如果你打算推出几个G的模型并将其部署到线上，那么後端的脸可能会变得非常阴沉。在过去，BERT时代经常采用的方法是蒸馏技术。

这篇论文方法有点不太一样，单独训了一个verifier，流程如下图

把generator生成的结果，再去打分，送给verifier去train。

在这里，我们可以探讨许多与炼丹技巧相关的因素。首先，训练的周期长度是一个重要的参数，它会对最终的炼丹效果产生显著影响。其次，样本量级大小也会对结果产生影响，较大的样本量可以提高模型的稳定性和准确性。此外，选择合适的候选模型也是一项关键的任务，这会直接关系到最终的效果。同时，我们需要明确验证器的作用，是评估最终的结果还是每个步骤的效果呢？这个问题值得我们深入思考。另外，动态 Dropout 可以有效提升模型效果，但具体如何应用还需要根据实际情况进行调整。以上这些因素都是我们在进行炼丹实验时需要考虑的重要因素。

在一系列炼丹操作之后，6Billion Verifier的表现优于175 billion纯finetuing，这表明其效果更为显著。