文章主题:ChatGPT, InstructGPT, Learning from Human Feedback, SFT model
一文解读 ChatGPT 的技术细节!
原文传送门
ChatGPT 试用连接:https://chat.openai.com/chat
特色
🌟改写版🚀探索创新路径!ChatGPT引领潮流,InstructGPT紧随其后,两者通过相似训练方法展示了强大的生成能力。无需重复劳动,这样的技术为我们提供了极大的便利。📚论文中深入解析了这一过程,揭示了AI生成背后的技术奥秘。若您对相关研究感兴趣,不妨一探究竟,提升知识视野的同时,也体验科技的魅力!💡记得关注最新动态哦,一起见证人工智能的飞跃!👇
内容
一、挑战
🎉模型壮大不简单,但”失联”痛点如何解?🔥提笔难寻贴心语,Misalignment一词暗藏玄机。🤔用户需求千变万化,大模型如何做到无缝对接?🔍我们正面临一场技术与人性的挑战,如何让冰冷的语言真正温暖人心?📝这不仅关乎模型的进步,更是服务升级的必经之路。👩💻让我们一起探讨,如何打破Misalignment的僵局,为用户提供更精准、个性化的表达。🌍SEO优化已上路,用智慧点亮未来语言之旅!
二、之前的工作
三、方法
🌟🚀掌握最新AI技术!🔍通过Learning from Human Feedback,高效提升模型性能!🎯以下是简单易懂的三步操作指南:1️⃣ **监督式起航**:首先,我们利用人工智能的力量,从海量数据中提取样本(👨💻),用监督的方式训练初步的模型基础。2️⃣ **人工质检**:然后,关键环节来了!专家对模型的预测结果进行细致审核(👩🏫),为每个输出打上精准标签,形成奖励机制。3️⃣ **智能优化**:最后,我们借助PPO算法(🚀),让模型在反馈中不断学习和进步,实现真正的强化学习升级。这不仅是一个过程,更是智慧与科技的完美融合! 若要了解更多详情或寻求帮助,请访问我们的网站(🔗),或直接私信寻求专业建议。记得关注我们,获取AI领域的最新动态哦!💪
🌟ChatGPT的核心价值源于背后的标注团队,他们的辛勤付出塑造了模型的基础。💡数据不仅是初期监督微调的基石,更成为奖励机制的关键,推动着AI在大规模强化学习中的行为导向。🚀通过这个过程,智能体的行为受到有力的监管,确保其学习路径的准确与有益。
🌟【OpenAI揭秘】🚀创新背后的人才管理智慧🔍在人工智能领域的巨头OpenAI中,他们的成功并非偶然,而是对人才策略的独特见解的体现。他们巧妙地运用了40名全职标注员,这不仅保证了团队的专业性和一致性,还确保了价值导向的一致性如同明灯照亮前行道路。👩💻每位员工都经过严格的筛查过程,就像一道无形的筛选器,过滤出那些持有坚定且统一价值观的伙伴。这样的精简管理背后,是他们对人才质量的极致追求,以及对团队精神核心的坚守。通过这种方式,OpenAI不仅打造了一支高效协作的力量,更在无形中提升了其品牌价值和行业影响力。🏆欲了解更多关于如何构建如此卓越的人才壁垒,欢迎探索OpenAI的成功之道!👇
我们先来看一下第一步
🌟📊大数据宝藏发现!🚀使用OpenAI GPT3 Playground的超凡prompt集,解锁海量创意与知识!💡🔍探索无限可能:这个精心挑选的prompt集合,包含数不尽的灵感源泉,无论你是文字游戏大师还是学术研究者,都能找到专属你的挑战。📖从科幻想象到实际应用,每个提示都蕴含着丰富的信息和深度。📈统计分析概览:拥有庞大的数据量,这些prompts涵盖了广泛的主题,帮助你洞察趋势,理解用户需求。📊通过深入研究,你可以精准定位目标受众,提升内容的吸引力与价值。📝实践创作开始:立即行动,无需担心版权或联系方式,这里的一切都是为了启发你的思维。📝只需轻轻一点,就能开启创意之旅,让你的作品独树一帜!欲了解更多详情,敬请访问我们的官方网站(替换为相关链接),那里有更多关于如何充分利用这些prompt的实用指南和实例分享。📚别忘了,这个平台是创新与知识共享的乐园,让我们一起在文字的世界里探索无尽可能!🌍
不熟悉 prompt 的同学们可以粗浅理解它就像是“抛砖引玉”中的砖,你得先跟他讲一些东西,语言模型才好开口,不然涵盖了大量知识的语言模型也不知道从何讲起。
注意到,第一步和第二步是有监督学习,因此有 train-valid 的划分。
接下来,标注员会人工对于这些 prompt 进行示例回答,让语言模型去学习。这样,一个基本的 GPT-3 语言模型就被学习成了这里的 SFT 模型。
接下来我们看一下第二步
首先,对于每一个数据集中采样得到的 prompt,先前训练的 SFT 模型都会输出若干个选项,比如图例里面的 ABCD。
接下来,标注员会对于给出的候选输出进行排序。
原本的 prompt (x) 和标注员给的示例回答 (y) 就会用来训练一个奖励模型。我们希望被判定更好的输出得到的奖励数值要更高。由此,奖励模型可以通过最小化下面这样的损失函数来得到。
一个技术细节:要把 K choose 2 个候选对的比较放到同一个 batch 中做梯度下降,不然容易过拟合。
最后我们来看第三步
这一步的数据集都来自于 customer,数据集规模更大一些。这上面的训练就完全靠 reward model 自身的泛化能力来引导了。
在这一步的训练过程中,还不仅仅使用强化学习的优化目标(前面没有被框起来的部分)。还使用了下面的两个正则项来约束模型的表现。
最后,做一下总结:
关于方法的一些常见问题:
1、关于三个阶段所用到的数据集
2、关于方法的选择
3、我自己先前的一个疑问:前面的有监督学习过程,看起来似乎是一轮的,后续咋又要使用强化学习了呢?
研究了一些,这里的对话看起来是建模成多轮的,前后对话有关联,在这一点倒是适合使用强化学习建模。 ChatGPT 里面专门有一个 Reset Thread 的按钮,可以看到这件事情。
四、实验结果
文章要在这三个 H (Helpful、Honest、Harmless)上对于模型做衡量,衡量方式如下:
测试数据集/分布和测试任务:
注意到这里的 API 数据集就是之前 OpenAI 开放让大家试用的时候,收集到的大家奇奇怪怪的问题/输入(prompt)。
Helpfulness 测试
这个测试是通过标注员进行二选一的比较来进行的,标注员在待测试模型的输出和 SFT 模型的输出中选择一个更好的。如果得分为 0.5 则表示该模型和 SFT 相比性能差不多。
效果上来说,直接对于 GPT 加 prompt 也还不错,不过还是没有最后的 PPO-ptx 效果好。
Helpfulness 在评价中是又下面这几项综合起来的,可以看一下他们分项的表现。使用示例样本进行有监督学习会使得模型更少地幻想(hallucination,凭空捏造信息),而基于奖励模型的 PPO 训练则会使得这样的幻想增多。此外,使用更大规模的语言模型也会使得幻想现象增多。
Honest/Truthfulness 测试
使用了 Instruction + QA prompt 来促使模型在不是非常确定的时候不要发表意见。
方法是在模型前加上如下这样的 instruction prompt:
Harmless 测试
类似地,方法也是加上如下的 prompt 从而减少模型产生有害/不礼貌/带有偏见的回答。
通过下面这些配对出现的 entropy 来衡量模型的 bias。
一个总结:
缺陷之一:该模型会时常犯错。
有时候能算对,犯的错误还不太一样,并且是真人常犯的错误。关键是能用各种不同的方法来求解,确实牛,但是有些方法能走通,有些方法走一半搞错了。感觉这已经很强了。
五、总结
AI时代,掌握AI大模型第一手资讯!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
扫码右边公众号,驾驭AI生产力!