《文心一言：人工智能助手的新篇章》

文章主题：关键词：文心一言，ChatGPT，人工智能，自然语言处理，百度

一阙《青玉案·元夕》，辛弃疾用时间制造了顺理成章的浪漫。八百多年后，由词化名的科技公司百度，用大语言模型开启了“生成式AI”时代。通过文心一言，“众里寻他”只需要几秒钟的时间。

3月16日，百度召开新闻发布会。从百度创始人、董事长兼首席执行官李彦宏现场演示的demo效果上看，文心一言具备文学创作、商业文案创作、数理推算等大语言模型较常见的优势和能力，还在中文理解、多模态生成能力上更具特色。

然而，值得注意的是，尽管文心一言和ChatGPT等技术在某种程度上已经展现出了强大的能力，但其背后的技术逻辑与那些经过大量无标注数据训练的大型模型之间存在着明显的区别，这也就是说，它们还需要人类的参与和引导。综合来看，这些大型语言模型虽然在某些场景下表现出色，但在其他场景中可能还存在一些问题和不足，因此，它们的完善程度仍有待提高。换言之，虽然我们已经取得了一定的成果，但仍需不断努力，以便让这些技术更好地服务于人类。

人类向往科技，是期待它更好地理解人类意图，生成符合人类价值观、表达习惯的回复。这一点上，唯有真实的体验才能带给用户惊喜。从技术发展趋势上，大语言模型和生成式AI成为新的技术范式已毋庸置疑，百度方面透露，已有超650家合作伙伴宣布加入生态，如李彦宏所说，AI的长期价值，对千行百业的颠覆性改变，才刚刚开始。

“十年分娩，一朝怀胎”

今起开放首批测试

在ChatGPT的崛起之路上，百度，这个习惯于探索创新的科技巨头，迅速给出了回应。他们官方宣布了文心一言，这一举动看似出人意料，但实际上却是百度在过去的十多年里对AI技术研发的持续投入的体现。早在2019年，百度就推出了文心大模型的首个版本，并在此基础上，每年都会推出新的版本。

最新的版本在新闻发布会现场亮相，李彦宏与文心一言在5个场景展开了问答互动。

在文学创作场景中，文心一言根据对话问题将知名科幻小说《三体》的核心内容进行了总结，并提出了五个续写《三体》的建议角度，体现出对话问答、总结分析、内容创作生成的综合能力。面对《三体》电视剧演员于和伟和张鲁一“有哪些共同点”“谁更高”这类问题，文心一言也基于推理能力得出了准确答案。

除了文学创作，商业文案也是用户使用较为广泛的场景。在这一创作场景中，李彦宏对文心一言下达了“如果要成立一个用大模型服务中小企业数字化升级的科技服务公司，可以起个什么公司名”“数智云图这个名称不错，给我起一个公司的服务Slogan，表达共赢的概念”“帮我生成一篇公司成立的新闻稿，数智云图以共赢的服务理念用大模型服务中小企业数字化升级，字数600字”等指令。

搜索业务的基因是文心一言的基石。

李彦宏揭示，文心一言大型语言模型的训练数据包含着海量信息——万亿级别的网页数据，数十亿的搜索数据以及图片数据，以及数百亿的语音日均调用数据，再加上高达5500亿的事实知识图谱。这些数据的广泛应用，使得文心一言在“智能涌现”方面，展现出了强大的能力。在百度搜索引擎中，问答和生成类的搜索请求占据了相当大的比例，这使得文心一言在自然语言问答和创意内容的生成上，表现出了卓越的性能。

在过去的数月里，AI自我发挥的能力受到了关注，而“不严肃地胡说八道”问题成为了用户所面临的最大挑战。那么，在这个领域中，文心一言的表现又是如何呢？据李彦宏的阐述，为了降低错误率，百度针对文心一言进行了知识增强和检索增强的操作，从而显著提高了事实类问题的准确性。

此外，李彦宏介绍，文心一言具备一定的思维能力，能够学会数学推演及逻辑推理等相对复杂任务。面对“鸡兔同笼”这类锻炼人类逻辑思维的经典题，文心一言能理解题意，并有正确的解题思路，进而像学生做题一样，按正确的步骤，一步步算出正确答案。

不过，李彦宏也直言，现阶段文心一言的准确率还不是100%，需要更多的时间学习和成长。

发布产品细则的同时，百度也公布了文心一言的邀请测试方案：3月16日起首批用户即可通过邀请测试码，在文心一言官网尝鲜。企业方面，百度智能云企业客户也可开始预约申请加入文心一言云服务测试。

根植本土文化

支持多模态拓展

大语言模型在文学创作、商业文案写作以及数理逻辑推算方面具有显著的优势和能力，这是众人所熟知的。然而，对于被李彦宏赞誉为“十年分娩，一朝怀胎”的文心一言，我们还需深入探讨其独特之处。

首先，作为扎根于中国市场的大语言模型，文心一言具备中文领域极先进的自然语言处理能力，在中文语言和中国文化上有较好的表现。

在一次公开场合，为了彰显文心一言的中文表达力，李彦宏针对“洛阳纸贵”这一历史典故提出了以下疑问：洛阳纸贵的含意何在？当时的洛阳纸价格究竟达到了何种程度？在现代经济学的理论体系中，与洛阳纸贵相对应的概念是什么？此外，请允许我以“洛阳纸贵”四字为基础，创作一首藏头诗。

作为一篇文章写作高手，我会将这段文字重新组织，使其表达更为专业和高超。在此，我为您呈现的是修改后的版本：“文心一言所创作的藏头诗如下所示：‘洛阳城中春色美，艳阳映照不二之选。纸张价格高企，墨香四溢令人陶醉。贵重如金，乐在其中无穷。’在展示了一番中文的独特魅力之后，李彦宏亦直接地指出，文心一言在英文语种和代码场景的训练方面尚存不足，表现亦待提高。为此，未来文心一言将会加快训练步伐，不断完善相关能力。”

值得一提的是，对于生成式AI，用户还有一个期待，即多模态生成。李彦宏也强调，多模态是生成式AI一个明确的发展趋势。

从现场展示来看，文心一言具备生成文本、图片、音频和视频的能力。

值得注意的是，文心一言具备生成四川话等方言语音的功能。根据李彦宏的披露，每日有大量文章正在通过这一特性转化为视频内容，并在百度平台上进行分发。然而，由于成本 constraints，该功能目前尚未对所有用户开放。在李彦宏的规划中，文心一言将通过定向微调，逐渐在百度内部和外部各种产品上展现出亲和力，从而缩小产品与用户之间的距离。

回应市场需求

在反馈中迭代进步

从宣布存在到此次上线，百度用了一个月时间。

最近一段时间，李彦宏接到最多的提问是：“你们真的ready了吗？”对此，李彦宏直言：“也不能说完全ready了，毕竟文心一言对标的是ChatGPT甚至是CGT-4，门槛还是很高的。无论哪家公司，都不可能靠突击几个月就做出这样的大语言模型。深度学习、自然语言处理，需要多年的坚持和积累，没法速成。”

截至目前，尽管官宣推进此类产品的企业不少，但在国内，百度是第一个“吃螃蟹的人”。从内在因素上看，文心一言是百度过去多年努力成果的延续。自从进入人工智能时代，IT技术的技术栈发生了根本性变化，从过去三层到“芯片－框架－模型－应用”四层，百度是为数不多、在四层进行全栈布局的人工智能公司。

而文心一言，就是百度在ERNIE及PLATO系列模型的基础上所研发，其关键技术包括监督精调、人类反馈的强化学习、提示、知识增强、检索增强和对话增强。其中前三项为大语言模型普遍采用技术，后三项则是百度已有技术优势的再创新。

万众瞩目下交出成品，百度也没有避讳问题。在应对媒体采访时，李彦宏多次提到，自己在测试的过程中感觉到，（文心一言）还有很多不完美的地方。选择在此时推出，是因为市场有庞大的需求。

“百度的很多产品，从搜索到智能云、自动驾驶，再到小度，都是在市场需求下诞生的。从我们承认文心一言的存在到今日上线，一个月的时间里已有超过650家合作伙伴宣布加入文心一言生态，大家都希望能早一点用上先进的大语言模型。”

在李彦宏看来，上线意味着大量的用户反馈，将加速文心一言的迭代速度，通过真实、及时的反馈倒逼大模型、深度学习框架和芯片的优化，给用户“士别三日，当刮目相看”的惊喜。

综合文心一言的整体表现，从某种程度上看它确实具有对人类意图的理解能力，回答的准确性、逻辑性、流畅性，都逐渐接近人类水平。但文心一言与ChatGPT背后，实际都是SFT（模型微调）、RLHF（强化学习）、Prompt（真实的用户指令）等技术逻辑，这些方法与通过海量无标注数据训练的大模型有明显差距，需要人的参与。

目前来看，这类大语言模型还未到发展完善的阶段，部分场景足够惊艳，但一些场景下也还有bug，存在很大的进步空间。人类向往科技，是期待它能更好地理解人类意图，生成符合人类价值观、表达习惯的回复。这一点上，唯有真实的体验才能带给用户惊喜。

编辑|蒙锦涛

每日经济新闻

关键词：文心一言，ChatGPT，人工智能，自然语言处理，百度

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章

发表回复 取消回复

发表回复取消回复