文章主题:一手到四手, 信息, 行业大牛, 沟通
欢迎关注公众号: 『诗品算法』,禁止一切未经本人@琦琦许可的转载。转载必须注明出处。
前言
最近更换了工作方向,从面向业务的推荐算法转向基于ChatGPT大模型的推荐算法,内心狂喜。ChatGPT是个令人惊叹的模型,它虽然没有开源,但是它相关的很多技术都有论文可借鉴。市面上目前有很多关于ChatGPT的技术博客和原理解读,令人眼花缭乱,有一些确实质量很高,但有一些的深度和准确性仍有待考量。
信息来源
曾经看过一本书,书中将信息分为四个等级,分别从一手到四手。什么意思呢?
以下是关于一手到四手信息的定义,摘录自《跃迁》这本书。
1、一手信息:知识的源头。一手研究论文,行业的学术期刊,行业最新数据报告;行业大牛的最新沟通和思考,通过谈话获得。
2、二手信息:忠实转述一手信息。二手信息含金量很多,忠实转述,但是有清晰的出处和论据。名校教科书、维基百科、中立第三方调查报告;讲述底层逻辑的书和文章,各行业领军人物推荐的书单等。
3、三手信息:畅销书。为传播而简化和极端化观点的陈述,改成公众可以理解的文字,加入大量的案例、故事以及不精确的概念。
4、四手信息:个人经验的情绪表达。根据畅销书和理论,写了很多基于个人体验的鸡汤,加入了太多的个人故事或者情绪因素。大部分公众号属于此类。我们应该尽量多去获取接近信息源头的一手信息或者二手信息,虽然理解成本和学习成本会升高,但是若从三四手信息中获取了有偏差甚至错误的信息,未来纠错的成本会更高。所以我推荐大家阅读论文原文以及ChatGPT的官方文档(一手信息)。但考虑到论文众多,且阅读成本高,我将在未来的几个月内,在《诗品算法》专栏和公众号中,为大家持续输出关于ChatGPT论文相关技术的论文精读(二手信息),希望减少大家的学习成本。
必读论文
以下是待解读的部分论文或官方报告,对于大家理解ChatGPT的深层结构和底层原理将大有裨益:
1、Transformer——Attention is All You Need
ChatGPT的鼻祖,值得反复研读
GPT是一种通过生成预训练来改善语言理解的模型。
GPT-2: 语言模型作为 unsupervised multitask 学习者。GPT-2 是一种基于深度学习的语言模型,是自然语言处理领域的重要进展之一。作为一种语言模型,它具备了处理和生成自然语言文本的能力。与其他语言模型不同,GPT-2 采用了一种多任务学习的策略,能够同时处理多个任务,而无需人工特征工程和监督学习。具体来说,GPT-2 在训练时会同时学习多个任务,例如文本分类、命名实体识别、情感分析等。通过这种方式,它可以从大量的无标签数据中学到有用的信息,从而提高了模型的泛化能力和表现力。与传统的监督学习方法相比,GPT-2 的多任务学习策略可以更好地处理未标记数据,并且能够更好地适应不同的应用场景。除了多任务学习之外,GPT-2 还具有一些其他的优点。例如,它能够自动从文本中提取特征,并且可以生成连贯的文本序列。这些能力使得 GPT-2 在自然语言生成、机器翻译、对话系统等领域具有广泛的应用前景。总结起来,GPT-2 是一种非常先进的语言模型,它的多任务学习和自适应能力使得它在自然语言处理领域具有广泛的应用潜力。
4、GPT3——Language Models are Few-Shot Learners
5、GPT4——GPT4-Technical Report
在第六部分中,我们将讨论如何使用指令微调(Instruction Tuning)来训练语言模型并遵循人类的反馈。这种方法的目标是提高语言模型的表现力,以便更好地执行特定的任务。通过将人类提供的指令与模型生成的响应相结合,我们可以训练模型更准确地理解并执行复杂的命令。这使得指令微调成为一个非常有用的技术,特别是在那些需要高度精确性和严格控制的领域,如医疗保健、金融服务等。总的来说,指令微调是一种强大的工具,可以帮助我们构建更加智能和灵活的机器人系统。
在本篇中,我们将探讨如何通过针对性的人类评判来优化对话代理的对话对齐。这一方法被称为“Sparrow”。
RLHF(增强型强化学习与人类反馈)是一种融合了人类反馈的强化学习技术。通过这种方法,智能体在与环境互动的过程中不仅获得奖励或惩罚信号,还能接收到来自人类的额外反馈。这种额外的反馈可以帮助智能体更好地理解其行为结果,进而优化自身的行为策略。具体而言,RLHF的核心思想是通过收集并分析智能体在特定情境下的行为数据以及人类提供的反馈信息,来更新智能体的行为策略。这样一来,智能体就能根据这些新的信息调整自己的行为方式,从而在同样的环境中实现更好的性能表现。RLHF作为一种先进的强化学习算法,广泛应用于各种领域,如自然语言处理、计算机视觉和机器人控制等。在自然语言处理领域,RLHF能够帮助机器学习模型更好地理解和生成自然语言,提高文本摘要、情感分析和问答系统的性能。在计算机视觉领域,RLHF可以协助机器学习算法更准确地识别图像中的对象和场景,提升物体检测、语义分割和目标跟踪等任务的表现。此外,RLHF还在机器人控制方面发挥着重要作用,助力智能机器人实现更加灵活、安全和高效的行动。总之,RLHF作为一种结合了人类反馈的强化学习技术,为机器学习领域带来了巨大的潜力。它不仅有助于提高现有智能系统的性能,还能推动人工智能技术向更加智能化、人性化的方向发展。
TAMER是一种通过人类强化实现与人类互动的智能代理。
10、PPO——Proximal Policy Optimization Algorithms
11、In-Context Learning——Why Can GPT Learn In-Context? Language Models Secretly Perform Gradient Descent as Meta-Optimizers
12、Prompt——Pre-train, Prompt, and Predict- A Systematic Survey of Prompting Methods in Natural Language Processing
13、A History from BERT to ChatGPT
14、BERTnesia- Investigating the capture and forgetting of knowledge in BERT
15、GLM- General Language Model Pretraining with Autoregressive Blank Infilling
16、Large Language Models are Zero-Shot Reasoners
17、P-Tuning v2- Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks
18、P-tuning v2——Parameter-Efficient Prompt Tuning Makes Generalized and Calibrated Neural Text Retrievers
19、PET——Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference
20、SELF-INSTRUCT- Aligning Language Model with Self Generated Instructions
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!