ChatGPT:从AI学渣到学术大佬,轻松理解AI热门话题
这篇文章主要介绍了ChatGPT和InstructGPT这两个AI模型,它们是GPT-4之前的预热模型,使用指令学习和人工反馈强化学习进行训练。ChatGPT是一个对话模型,通过SFT、RM和PPO三种技术进行训练,其中SFT是对GPT-3进行有监督的微调,RM是引入强化学习,RM技术能告诉模型生生的内容好不好,而不告诉模型怎么才能变好。InstructGPT/ChatGPT的训练过程中,通过人工标注结合强化学习,成功地将强化学习引入到预训练语言模型中,这是这个算法的最大创新点。



