文章主题:《三体》, 刘慈欣, 文心一言, 续写角度
图片来源 @视觉中国
文 | 根新未来,作者 | 陈根
ChatGPT 的爆火点燃了人工智能万亿赛道,互联网科技巨头纷纷入局。其中,百度作为中国领先 AI 技术公司,同时也是最大的中文搜索引擎,成为了第一个冲刺国产版 ChatGPT 的公司。蓄势了一个多月,承载着万众的期盼或好奇,“国产版 ChatGPT——文心一言“终于在 3 月 16 日正式亮相。
百度同时公布了文心一言的邀请测试方案。3 月 16 日起,首批用户即可通过邀请测试码,在文心一言官网体验产品,后续将陆续开放给更多用户。此外,百度智能云即将面向企业客户开放文心一言 API 接口调用服务。
那么,承载万众期待的 ” 文心一言 ” 满足了众人的期待吗?百度推出 ” 文心一言 ” 后,国产版 ChatGPT 局面又将发生怎样的变化?
百度文心,十年磨一剑
在中国众多科技大厂中,百度是最早针对 ChatGPT 做出明确表态的公司之一,也是中国最早布局人工智能的公司之一。
2022 年 9 月的世界人工智能大会,百度创始人、董事长李彦宏就在开幕式上发表视频演讲,表示百度已在人工智能领域摸爬滚打 10 年,10 年累计研发投入超 1000 亿元,2021 年核心研发占比 23%,研发投入强度持续位于全球大型科技公司前列。相较而言,去年前三季度,阿里、腾讯、美团的研发投入占比分别约为 15%、10% 和 8%。
持续的研发投入让百度在人工智能领域愈发沉淀。在2023 年百度Create 大会暨百度AI 开发者大会上,李彦宏提到,百度是如今少有的同时具备人工智能四层能力的公司,这包括芯片层的昆仑 AI 芯片、框架层的飞桨深度学习框架、模型层的文心大模型和应用层的搜索、自动驾驶、智能家居等产品。
芯片层方面,百度是中国第一批自研 AI 芯片的互联网公司。百度的昆仑 AI 芯片研发始于 2011 年,正式发布于 2018 年。对外发布时,昆仑已支持百度业务多年。到 2020 年秋天之前,已有超 2 万片昆仑芯片每天为百度搜索引擎、广告推荐和智能语音助手小度提供 AI 计算能力。
框架层方面,百度飞桨是国内最早启动研发的自研深度学习框架。2016 年百度推出的飞桨在 2021 年成为中国开发者使用最多的深度学习框架,在全球排名第三,开源至今,飞桨已凝聚 406 万开发者,服务过 15.7 万企事业单位,开发模型达 47.6 万个。飞桨能帮开发者快速创建、部署模型,它现在已拥有 535 万开发者,服务了 20 万家企事业单位,创建了 67 万个模型。
模型层方面,百度在 2019 年发布文心大模型,它可以根据用户的描述生成文章、画作、视频等多种内容,这就是去年至今大热的 ” 生成式 AI”。目前,百度的文心大模型已更新迭代至文心 ERNIE 3.0,参数规模高达 2600 亿,是全球最大的中文单体模型。与此同时,文心 ERNIE 3.0 还支持生成式 AI,具备强大的跨模态、跨语言的深度语义理解与生成能力。
基于文心大模型,百度目前已发布 11 个行业大模型,大模型总量达 36 个,已构成业界规模最大的产业大模型体系。目前已大规模应用于搜索、信息流等互联网产品,并在工业、能源、金融、汽车、通信、媒体、教育等各行业落地应用。
百度的” 文心一言 “也正是基于文心大模型而开发的国产版 ChatGPT。2 月 7 日,百度公布其类 ChatGPT 项目名为 ” 文心一言 “,预计将于 3 月完成内测并向公众开放。当时,百度宣布这一消息后,百度港股股价跳涨 15% 以上。
实际上,百度这些技术布局,也往往始于技术微末之时,甚至冠以 ” 烧钱 ” 的字眼。但也正是十年饮冰的坚持投入,使得百度AI 大底座成为了行业内首个全栈自研的智算基础设施。又正是长期技术积累带来的全栈自研能力,给行业和百度本身,都带来了更深远的影响。
文心一言,水平如何?
3 月 16 日下午 2 点,百度的邀请测试展示正式召开。现场,李彦宏展示了文心一言在五个使用场景的表现,包括文学创作、商业文案创作、数理推算、中文理解和多模态生成。
🌟文学创作指南🌟🔍《三体》深度解析🔍——科幻巨作的探索与想象🚀🔥作品速递🔥——聚焦刘慈欣笔下的宇宙史诗,《三体》带你穿越星际迷航,从硬核科学到哲学思考,每一章节都扣人心弦!📖📚核心解读📚——这部科幻巨著的核心要素,文心一言以清晰的3大支柱和5个创新角度,深度剖析了《三体》的科技想象、人性探索与宇宙哲思。💡📝续写创作📝——想要延续刘慈欣的科幻奇想?这里有5种可能:外星文明入侵、时间旅行悖论、人类生存挑战或是更深层次的哲学探讨。🔥🌟作者揭秘🌟——但请记住,这里不是获取联系方式或直接购买的地方,我们尊重原作,只分享知识与灵感。📚#三体文学# #科幻深度解析# #续写创作建议
在商业文案创作中,文心一言则顺利完成了给公司起名、写 Slogan、写新闻稿的创作任务。在连续 3 次内容创作生成中,文心一言既能准确理解人类意图,又能清晰地表达。并且,在回答之余,文心一言会自动增加冗余的额外解释——尽管整体内容更倾向于正确的废话。李彦宏称:” 这些训练数据包括万亿级网页数据、数十亿的搜索数据和图片数据、百亿级的语音日均调用数据,以及 5500 亿事实的知识图谱等。”
除了基本的文学方向,文心一言还可以尝试解决含逻辑思维的数学推演题目,现场演示中,鸡兔同笼经典题型,文心一言的确表现出能理解题意,还给出了正确的解题思路,就像学生做题一样,按正确的步骤,一步步算出正确答案。当然,解答本质上和当下的小猿搜题、作业帮等第三方解题软件并无区别。
🌟【文心一言,语言科技新高峰】🚀在中文语境中,文心一言以其卓越的自然语言处理技术闪耀着智慧的光芒。演示现场,它精准解读了成语”洛阳纸贵”背后的深意——不仅诠释其文学价值,还能巧妙关联经济学原理。不仅如此,它还以这四个字为灵感,创作了一首别具匠心的藏头诗,展现了深厚的文化底蕴和语言艺术魅力。文心一言的自然理解力,无疑在智能语言领域树立了新的里程碑。SEO优化提示:#洛阳纸贵 #自然语言处理 #文心一言
在多模态生成方面,李彦宏现场展示了文心一言生成文本、图片、音频和视频的能力。比如,让文心一言为 2023 世界智能交通大会创作一张海报。几秒之后,一张赛博风格的图片就生成了。有意思的是,文心一言还能根据内容生成四川话等方言的语音。
但遗憾的是,这些都不是实时演示——李彦宏表示,为了保证演示效果,文心一言现场问答测试为提前录好的视频。
这也不难理解为什么发布会召开后,百度股价不涨反跌,港股百度集团跌幅近 10%。不少梗图频现,消费者对产品预期之低可见一斑。实际上,就连李彦宏也直言,文心一言对标 ChatGPT,但不能叫完美。尤其是从其回答表现来看,问题准确性与上下文的逻辑联系性表现尚可,以搜索引擎论已属优异,但类人性不足,可明显感知信息多从语料资料库中集成而来,并无直接对话之感。
🌟【GPT-4实力碾压】🔥相较于市面上的其他AI模型,GPT-4的表现堪称卓越,它在专业测试和学术基准上的表现与人类水平不相上下。💡令人惊叹的是,它以超乎寻常的10%效能通过了严格的律师模拟考试,SAT分数更是达到了710的高分,这可是相当一部分专业人士梦寐以求的成绩。🧩同时,GPT-4展现出强大的数学逻辑解题能力,能轻松应对复杂多语言问题,以及快速阅读并提炼论文要点,效率之高令人赞叹。👀相比之下,它的优势一目了然,技术实力无人能敌!
未来之路漫长
当然,虽然市场用脚投票,表示了对百度文心一言的态度,但需要指出的是,文心一言也并未一无是处,至少在国内,其仍代表着第一梯队的水平。
从技术角度而言,文心一言核心引擎为百度自主推出的 NLP 模型 ERNIE,整体框架基于 BERT 模型改进。ChatGPT 和文心一言都是基于 Transformer 模型架构,但 GPT 采用单向语言模型,而文心一言则采用双向语言模型。因此,在实际操作时,GPT 对于文本生成更为敏感,比如聊天、写作等语言生成方向表现优异,而文心一言对于文本理解更为敏感,在问答、语义关系抽取更有优势。
也就是说,文心 ERNIE 类人性稍差,回答以精准理解为主,同时更多聚焦于本土化,在语义复杂的中文 NPL 处理中有显著优势,毕竟由于各种限制,即使是最新版本 GPT-4 测试的 26 种语言中也并未涵盖中文。实际问答题体验中,当涉及中文语义理解时,ERNIE 表现突出,甚至部分胜于 GPT3.5。比如,在关于洛阳纸贵的回答中,文心一言可正确理解其的经济现象,古诗词的可读性和观赏性也更高,更符合国人的审美与品味。
当然,作为首发的国产版 ChatGPT,文心一言的发布也进一步暴露出国产化 ChatGPT 的困境。虽然百度已经在 AI 的各个层面都有较为全面的布局,并且具有中文世界里最大的数据库,但百度同时面临的一个更大的困境,就是数据的质量问题,因为没有高质量的数据就难以训练出高质量的类 ChatGPT 产品。
如果百度训练 ChatGPT 的数据优质,那么输出的结果也相对客观。如果训练的数据都是百度中文世界的网络信息,那么可能就要慎重,以免曾经的魏则西事件重演。因为如果训练的数据质量,以及产品背后的规则不够清晰,结果可能就不会有那么理性。实际上,这也是中文互联网的问题。
当然,就百度来说,其在人工智能领域还面临着另外一个重要并现实的挑战,那就是推行类 ChatGPT的业务可能会对其传统的搜索业务带来影响。而传统的搜索业务中,广告收入是百度当前最主要,也是大部分的利润来源。如果百度的传统搜索业务中的广告业务受到了类 ChatGPT 技术的影响,必然会影响到百度的研发投入。
🌟 ChatGPT 的潜力无疑是巨大的,但它在中国各行各业的具体应用成效还需拭目以待。李彦宏的见解深入核心,他提到,ChatGPT 是AI技术革新带来的新机遇,但将这股前沿科技转化为大众日常所需的产品,才是真正的挑战与价值所在——这是决定其长远影响力的关键步骤。🚀
对于人工智能而言,比拼的不单单是人工智能领域的技术研发,而是集人工智能研发、算力、芯片、数据等多方面的集成综合实力。而百度和文心一言才刚刚出发,未来还有很长的路要走。(本文首发钛媒体 APP)
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体 App
AI时代,掌握AI大模型第一手资讯!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
扫码右边公众号,驾驭AI生产力!



