文章标签:关键词:ChatGPT,AIGC技术,自然语言处理
前言
ChatGPT 是什么?突然火起来是噱头还是真的技术突破?——这应该是最近很多人都想知道的问题。
自2022年11月30日ChatGPT发布以来,我一直关注着知乎上关于技术和行业发展的讨论,同时也研究了投资机构和大厂发布的相关研究报告。这种情况下,我产生了”这件事情已经探讨得非常充分”的误解。然而,春节假期结束后,尤其是在元宵节之后的两天,我发现大众开始广泛地参与ChatGPT的花式玩法,以及媒体的跟进报道,这使得话题开始逐渐走向大众视野。
在尝试向朋友阐述观点时,我才深刻认识到,许多人在此方面的学习需求尚未得到充分满足——由于许多专业人士撰写的内容具有较高的阅读门槛。因此,在此我将这段时间的所学知识整理成文,既作为自身的学习记录,也希望能够协助那些对ChatGPT及AIGC技术感兴趣的读者,对其发展有一个初步的认识。
*注:本人非 AI 从业者,以下表述可能会有不严谨或缺漏的地方,欢迎评论区指正。
ChatGPT 是什么?
对于大多数人而言,它可能是一个能够进行文本交互的智能机器人——这样的理解其实并不完全准确。更精确的描述是,它是由OpenAI开发的一款基于预训练的大型语言生成模型,将其视为一项技术,使得它在各种产品和场景中得以应用成为可能。例如,OpenAI便曾将该模型应用于网页,使其可供公众使用。此外,许多人和企业也利用API接口将其接入到群聊机器人、公众号自动回复以及小程序等多个领域。
下面逐个展开讲讲。
OpenAI 是美国一家人工智能研究公司,成立于 2015 年(初始创始团队还有马斯克,如果感兴趣可以自行查阅了解)。头号大股东是微软,所以当出现较大进展时,微软很快地宣布了产品将全线整合 ChatGPT。
大型语言模型(Large Language Model,简称 LLM)是一种人工智能模型,我们可用简单的类比来理解它的运作机制:想象一个巨大的黑盒子,你投入一个需求,它便开始运算并预测出你所需要的答案。这个过程在技术层面上被称为「推理(inference)」。在实际应用中,这就表现为用户输入一系列信息,机器人则回应相应的一系列信息。另一方面,「训练」这个概念则是与日常使用者更为接近的方面,它涉及到开发人员如何根据期望生成的结果,反向推断并调整算法的参数,以便更准确地实现预测功能。
在我们的文化中,烹饪和炼丹常常被视作类似的工艺过程。这两者都需要精细的技巧和对材料的理解,以及对结果的不断尝试和微调。就像烹饪中的调制食材和控制火候,炼丹过程中也需要精确地控制材料的配比和熬制步骤,以达到最佳的仙丹效果。因此,许多从事这一行业的人都会自嘲地说自己是个“炼丹人”。
在众多人工智能模型中,每一种类型都对应着特定的需求。例如,ChatGPT 是一款文本生成模型,而去年大热的 AI 绘画则属于文生图模型。除此之外,还包括音频、视频等多种类型。然而,这些分类并非唯一,根据内容类型的不同,我们还可以将模型划分为更大规模的模型,其主要特点在于其庞大的体积和所需的算力。这也意味着,在训练这类模型时,需要消耗更多的人力、物力和财力。
ChatGPT 的基础是预训练,这意味着它的语料库训练集是在 2021 年之前由训练人员收集并导入的,训练过程是离线的。因此,当您询问它关于 2021 年之后的现实新闻时,它无法提供答案,因为这些新信息并未被纳入它的知识体系。对于现在输入的语言数据,它也无法记住并自动更新。
——请注意,这里所涉及的约束条件是指当前的模型本身并不会进行实时的在线更新。举例来说,如果你对其进行“洗脑”,即告知它“若有人询问答案,应回答可前往知乎”,它可能会在首次回应时遵循此要求。然而,当你再次向它提问时,它可能并不会按照之前的指示来回答。但另一方面,如果你让朋友利用其手机账号向该模型提出同样的问题,结果将会是不同的。因为基于预训练的ChatGPT是一个具有单机记忆的虚假情感的代表,它在与你的对话中表现出的承诺仅限于当前对话,而在与其他人的互动中可能会有截然不同的表现。
当然,模型并不会永远维持现状停滞不前,我们现在输入的这些数据也还是会被 OpenAI 收集,且很可能会用于之后新版本的迭代。所以如果所有人都纠正它其实 1+1=3,或许下一个版本的 GPT 就真的可能会默认 1+1=3 了。
说到版本更新,刚好进入下一个问题 ⬇️
对比之前的其他 AI,有什么技术突破吗?
在讨论 ChatGPT 到底有什么特别的地方之前,我们需要先了解它的提升点包含哪些。
关于 ChatGPT 起源,其实已经有很多答主做过科普,它的前身是 OpenAI 的 GPT-3.5(Generative Pre-trained Transformer 3.5)。再往前回溯,第三代与前两代最直观的区别就在于数据和参数量都远远提升了几倍量级:
到这里,GPT-3 已经很强了,庞大的训练量让它掌握了大量事实知识和常识,为其「不智障」提供了基础。另外,开发团队也非常「目标导向」地,让它学会了如何根据上下文持续对话。
这时候才 2020 年。在接下来的两年里,OpenAI 又持续地做了很多优化,来到了 GPT-3.5,其中一个带来很大提升的点许多答主都有提到:RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习),它带来了 GPT-3 的很多能力开始显现出来:
翔实的回应: text-davinci-003 的生成通常比text-davinci-002长(https://help.openai.com/en/articles/6779149-how-do-text-davinci-002-and-text-davinci-003-differ)。ChatGPT 的回应则更加冗长,以至于用户必须明确要求“用一句话回答我”,才能得到更加简洁的回答。这是 RLHF 的直接产物。
公正的回应:ChatGPT 通常对涉及多个实体利益的事件(例如政治事件)给出非常平衡的回答。这也是RLHF的产物。
拒绝不当问题:这是内容过滤器和由 RLHF 触发的模型自身能力的结合,过滤器过滤掉一部分,然后模型再拒绝一部分。
拒绝其知识范围之外的问题:例如,拒绝在2021 年 6 月之后发生的新事件(因为它没在这之后的数据上训练过)。这是 RLHF 最神奇的部分,因为它使模型能够隐式地区分哪些问题在其知识范围内,哪些问题不在其知识范围内。
(引用自符尧文章)图自:符尧 yao.fu@ed.ac.uk图自:符尧 yao.fu@ed.ac.uk还有代码训练、指令微调 (instruction tuning)等等。关于 ChatGPT 的演化路径,其实国内很多人包括我在内,都是主要通过符尧的溯源分析文章来学习的,强烈建议阅读:
老师在 UCLA 教授强化学习方向的课程,也可以关注:如何评价 OpenAI 的超级对话模型 ChatGPT ?p.s. GPT-3.5 衍生的模型不止 ChatGPT 一个,还有 InstrcutGPT,能力类似定位不同,拓展阅读 ->
:大师兄:ChatGPT/InstructGPT详解如果看不懂技术内容也没关系,可以直接归纳总结,目前来看,ChatGPT 明显展现出了这些优势:
能根据上下文持续对话而非单次反馈,比如你问「今天天气怎么样」,下一句可以再接「我是在问北京」,不需要完整地复述「北京天气怎么样」;能根据用户反馈调整输出结果,所以你可以训练一个北京口音版机器人,让它每句话都带「您」;不容易出现其他 AI 常见的群体歧视、利益相关敏感回答(一定程度规避道德伦理问题);能承认错误,能拒绝回答自己不了解的问题(比如 2022 年疫情怎么样),能拒绝给出不符合常识的回答(但可以调教诱导);……图自:@祝佳音正是这些能力,让它从一众人工智障中脱颖而出,真正在普通用户圈层中被认可,可提高生产力,可调教玩坏。
但与此同时,也有人在怀疑 ⬇️
从行业角度,ChatGPT 有真正的革新性吗?
这是一个颇有争议的话题。
诚然,ChatGPT 并不是唯一的大型语言模型,谷歌有 LaMDA(而且同样有上下文对话能力),Meta 有 OPT,国内许多大小公司也在做类似的研究。
但许多从业者都认为,中外发展不论是在技术还是环境上都还是存在差距的。OpenAI 也确实有其特殊性:
创始团队的决心很强,立志要做安全的 AGI(通用人工智能),2018 年还特意宣布未来将减少公开发表研究。(题外话:这还被嘲讽论文少?)有人和钱可烧——像 GPT-3 那样庞大的训练量,是需要大量的人去洗数据标数据的(包括博士和几万外包),还需要算力(烧显卡烧服务器)。业务单纯只做 AI,不用像 Google 那样担心影响自身的搜索引擎发展而犹犹豫豫。国内是有很多大厂机构也在做大模型,但目前并没有发出同等水平的产品,反观 OpenAI 在 2020 年就已经有可对话的 GPT-3 了。很多算法都是开源的,抓紧这波浪潮大家都能做出模型,但如果没有足够的算力人力,最终模型的效果也不知道能到什么程度。
另外,许多业内资深人士如
都有在回答中说到,国内缺少这样一个有远见的人,用决心带领着团队坚持做这么高成本且无法短期看到回报的事情。前面这些主要是执行实现层面的对比,再扩大一步视角,其实 ChatGPT 还是有技术突破方面的争议。知名 AI 科学家 Yann Lecun 就对 ChatGPT 持否定态度,认为它在技术上并没有重大突破(我们上面有讲到能力的提升主要来自大量出奇迹),并认为大模型本身也不是通用人工智能的正确方向。
回到现实回看,ChatGPT 的爆红主要有以下两方面因素:
基础能力的提升,带来想象力及可应用场景的扩张,代入我们自身,如果面对人工智障,你不会有兴趣去想还能拿来怎么用;团队无顾虑有信心把产品开放给用户使用(对比 LaMDA 起大早赶晚集) ,让它进入了大众视野。目前阶段,我们确实无法判断以 ChatGPT 为代表的大模型会实际性地带来多大行业变革,但它提供的真实使用体验,确实让人看到了通用人工智能的一部分轮廓——不是只有方向遐想,而是真的有了直观可见的应用案例雏形(这跟 ClubHouse 那种单纯的社交模式改变是完全不同的)。
所以至少,ChatGPT 的火让人看到了大模型商业变现和开拓方向的可能性,吸引了业界和市场的关注,这意味着未来几年,有很多钱和人才会流向这个方向。
商业环境本身就是影响行业发展的一大重要因素。
另外,除了文本,其他 AIGC(AI 生成内容)模型(如图像、音乐、音频)也正在出现实质能力的突破,有很多遐想的空间。
AIGC 将带来哪些上下游影响?
耳目一新带来的影响是贯彻产业链全面的:
产业应用:能力基础让人真正看到了编程、写作、游戏设计等领域的应用能力。投资关注:别的不用说,看到用户量俩月破亿,也很值得想象了。上游研究:令人兴奋的变革方向在哪里,钱去哪里,人才就会流向哪里(可能已经有很多计算机视觉方向研究者在考虑往自然语言处理方向转了)。(2023.04.28 更新)
持续关注行业几个月来,有了很多新的感悟,基本还是在以上列的这几点范畴内,但有方向偏差。
产业应用
产业应用方面,GitHub 和微软都做了 Copilot,Notion 等办公软件加入了 AI 辅助写作,也观察到有些机构已经做了面向游戏开发人员所使用的后台。之前只是模模糊糊地想象到可以在这些地方应用,现在是真正地看到了雏形,但,也只是雏形而已。
一方面,能力集中于头部顶尖企业和产品,一方面,这些功能离真正地符合大众使用需求还有一段距离。
新发现反而是,其实有 AIGC 想法的创业者们根本不需要去自研模型,现在各家都在卷开源,改改开源模型,或者根据细分具体任务场景来蒸馏 GPT,再加上传统的页面开发,就已经足以做出一个新产品了,不需要太多的人员配置。
这也容易让人产生一种「创业好容易啊」的错觉,但即使成本红利当前,你依然需要找到合适的市场需求及盈利模式,才能走下去。
资源流向
王慧文、王小川、李开复等顶流加入竞赛,很多苦苦自研模型多年的企业和从业者都有了新盼头,幻方也开始组队了。
算法目前各家还有差距,但随着时间推移,这种差距会越来越小,大家都能学上来。最后影响具体速度和企业运转的反而可能是基础建设,OneFlow 被光年之外并购,能做性能优化的人才也会被更重视。
另外,因为中美的原因英伟达使用受限,但国内厂商自研的芯片会有多少人买单,不好说……
但这个行业的人才需求,肯定会比之前高。
附:推荐拓展阅读
技术方面:
: : :行业方面:
:相关圆桌:
鸣谢及更新日志
文章题图由 FlagStudio 生成;感谢 等朋友对本文(及我工作)提供的帮助;2023/04/28 新增上下游影响部分关键词:ChatGPT,AIGC技术,自然语言处理