AI与数学
这篇文章探讨了语言模型在数学问题上的表现,发现它们虽然能通过记忆大量样本达到不错水平,但在面对改动或复杂逻辑时错误率显著升高。ChatGPT凭借OpenAI的样本设计策略展现出较好的适应性,通过结构化的样本集(如GSM8K)按人类解题步骤生成答案,这种方法相对于直接学习或FineTuning提高了10个点的评估指标。尽管如此,大模型的训练成本和速度是问题,而6Billion规模的验证器在某些情况下甚至超越了175Billion预训练的纯Finetuning效果。作者对ChatGPT是否真正具备高级逻辑推理能力持保留态度,计划深入研究其代码学习能力以揭示其底层逻辑运作。