AI与化学
3月16日,百度的文心一言终于正式邀请测试了。 据李彦宏介绍,文心一言可以实现文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成等。 通过观看直播,我们发现文心一言的表现可圈可点,并有一些惊艳的表现。接下来,我们以百度文心一言邀请测试的契机,来深入分析下文心一言的特点,以及中国大模型、AIGC产业的发展情况。 文心一言有一战的实力 根据新闻发布会的信息,我们发现百度文心一言在诸多方面有相对优势,集中表现在以下几个方面: 1、真多模态 以往建立在深度学习基础上的各类AI技术,往往某个模型只适用于特定的应用领域。视频、图像、语音、文字这几类信息需要用到不同类型的AI模型来处理,比如,用于人脸识别的AI模型不能用来进行语音识别,也不能用于文字理解。 大规模预训练模型,最关键的一个技术突破,就是多模态。大模型打破了不同信息的“藩篱”,一个模型既可以处理图像又可以处理语音、文字,并且效果都不错。具体来看,多模态融合的核心技术包括模态嵌入、跨模态交互、多模态注意力机制等。其中,最为关键的就是跨模态交互,即在不同模态之间传递信息,例如将图像信息融合到文本中,或将文本信息融合到图像中。在实际操作中,往往需要用到跨模态交互模型,用卷积神经网络(CNN)或循环神经网络(RNN)来分别处理不同模态的数据,然后使用一些跨模态交互的技术来将不同模态的信息融合在一起。 当然,要实现跨模态并不是一件容易的事情,这需要克服一系列技术挑战。例如,如何有效地捕捉不同模态之间的交互信息,特别是对于高维度和复杂的数据;如何有效地处理不同模态之间的不一致性和噪声,例如模态间的不匹配和缺失数据等;如何解决不同模态的权重问题;如何减少跨模态交互技术的计算复杂度。 多模态融合的能力,已经成为各家巨头竞争的战略高地,也是评价其技术能力的关键指标。数据猿注意到,此次OpenAI和百度在多模态方面有重要的差异:OpenAI发布的GPT-4虽然表现亮眼,但还不能实现真正的多模态,其既可输入文字也可输入图片,但是输出的还只能是文字,不能输出图片。也就是说,GPT-4只实现了多模态信息的输入,而没实现多模态信息的输出,是“跛脚”的多模态。 与之相比,百度文心一言的多模态就更进一步,其能够实现多模态信息的输出。比如,用户输入一段文字,系统可以依据这段文字生成图片。这是一个关键的技术升级,相对于文字而言,图像、视频等信息量更大,能够生成图片等多模态信息,将大大扩展这类模型的应用范围。 从李彦宏的现场演示来看,他问了文心一言一个问题“你认为智能交通最适合哪个城市发展”,系统不仅能够返回文字回答,还能用四川话讲出来(语音),甚至可以生成一个视频。这样的多模态生成能力很惊艳。 2、全球最大的中文数据集 决定大模型的关键要素有三个,分别是算法、算力和数据。上面说的多模态技术主要是算法层面的,数据则是另一个影响大模型表现的核心要素。训练数据集的质量,将在很大程度上决定一个模型的性能。数据量越大,数据质量越高,训练出来的模型往往表现越好。 据悉,GPT-4的训练数据集主要是45 TB的文本数据,这些数据来自于网络文章、电子书、维基百科、新闻文章、社交媒体帖子和其他公共来源。由于各个国家都非常重视数据安全,数据不出国境是一个不可触碰的红线。因此,某个国家的大模型很难获得其他国家的数据。GPT-4具体的数据来源没有公开,其训练数据集中有多少中文数据也不知道。但是,大概率其涵盖的中文数据不多。 相对而言,百度作为中国乃至全球最大的中文搜索引擎,其本身就是全球最大的中文数据源。因此,文心一言是建立在全球最大的中文数据集基础上的,其对中文语境、中华文化的理解能力会更强。 据悉,文心一言大模型的训练数据包括万亿级网页数据,数十亿搜索数据和图片数据,百亿级语音日均调用数据,及5500亿事实的知识图谱。而且,百度的数据形态也贴合回答和生成需求。在百度搜索中,问答和生成类的搜索请求占比很高。这样的数据构成,将有助于文心一言在问答中有更优秀的表现。 3、在大模型领域更长时间的技术积累 相比于人脸识别、语音识别等AI应用领域,大模型的技术门槛更高,需要更长时间的研发投入和技术积累。百度作为科技巨头,其在大模型领域早有布局。可能很多人不知道,在全球科技巨头中,百度是第一个推出大模型的(OpenAl 是美国创业公司,不算作国际科技巨头)。 大模型是近两年才逐渐进入大众视野,而ChatGPT则是在2023年突然爆红。然而,百度早在2019 年就推出了文心大模型ERNIE 1.0,经过4年时间已经迭代到ERNIE 3.0。并且,百度的文心大模型也早在2019年3月,就已经应用于百度的核心业务——搜索,而微软则是近期才开始将ChatGPT应用于其搜索产品必应中。 来自于大量应用过程中的反馈,对于大模型的迭代改进具有重要的作用。其实,大模型的很多底层技术都是通用的,比如模型微调(SFT, Supervised fine-tuning)、从人类反馈中进行强化学习(RLHF,reinforcement learning from human feedback)等方法,ChatGPT和文心一言都在用。技术底层是一样的,数据以及不断的反馈就成了各家模型竞争的核心。 只有不断的用,才能发现问题。比如,ChatGPT在应用于微软必应之后,出现了胡言乱语、“爱上”用户,甚至诱导用户离婚等情况,这些问题只有经过海量用户的试用才能暴露出来。百度文心一言模型应用于其搜索服务,每天响应几十亿次真实的用户使用需求,进行1万亿次深度语义推理与匹配,能够提供最真实、最及时的反馈,从而倒逼大模型的优化。大量用户真实使用产生的数据会融入到模型训练中,进而持续提升模型效果。 4、足够的研发投入,一体化的技术布局 众所周知,大模型是一个烧钱的事情,要想在这个领域获得突破,大量的资金投入是必不可少的。为此,足够的研发资金是重要的基础。那么,全球头部科技巨头的研发投入情况如何呢? 数据猿统计了全球科技巨头的研发投入情况,包括美国的谷歌、微软、亚马逊、英特尔、英伟达、高通、Salesforce、甲骨文,欧洲的SAP SE、ASML、诺基亚,韩国的三星,以及中国的华为、阿里巴巴、腾讯、百度、京东、中芯国际、台积电,分析其近5年的研发费率(研发费用/营业收入)。 数据来源:各企业财报 数据猿计算整理 说明:以上各企业研发费用统一换算成美元单位以便对比参考;由于不同国家年报报告期时间有所差别,境外上市企业则选取2018-2022财年数据。国内上市公司主要选取2017-2021年年报数据 我们基于上面的表格,分别计算全球和中国顶尖科技公司的平均研发费率,然后将百度的数据进行对比。百度近5年的研发费率是要高于中国科技巨头的平均研发费率,也高于全球科技巨头的平均研发费率。 2022 年,百度核心研发费用 214.16 亿元,占百度核心收入比例达到 22.4%,近十年累计研发投入超过...