漫谈Prompt（提示工程）与CoT（思维链）：文心一言的探索与实践

文章主题：漫谈Prompt（提示工程）与CoT（思维链）；文心一言；ERNIE；PLATO；SFT；RLHF；提示；知识增强；检索增强；对话增强；文学创作；商业文案创作；数理推算；中文理解；多模态生成；ChatGPT；文心一言体验感想

引言

昨晚22:30收到内测邀请码，赶紧试用下，以飨读者。

1 比赛回顾

上次提到了国内外各大厂商使出浑身解数，希望快速复刻ChatGPT，抢占先机：

（1）刻舟求剑：从大模型（1750亿级别）入手，fine-tune（精调），植入RLHF、CoT、ICL等技术，试图趋近ChatGPT效果。目标明确，路径相对清晰，风险较低，但速度要快。（少数先行者）（2）观望徘徊：这次变革有那么大吗？不会又是炒作吧？先观望下，别人趟完坑再说，先按兵不动。（主流）（3）弯道超车：理解ChatGPT背后原理及不足，做出更好的聊天机器人。理想很美好，现实很骨感，道阻且长，这条路注定不会一帆风顺。（个别勇者）

达克效应：人对陌生事物的认知规律：愚昧山峰(过度乐观)→绝望之谷(过度悲观)→开悟之坡(客观理性)→平稳高原(谦卑进取)。

详见：漫谈Prompt（提示工程）与CoT（思维链）

今天聊聊路线（1）刻舟求剑，近期的变化。

2 近期资讯

2月21日复旦NLP实验室发布国内第一个对话式大型语言模型MOSS吗？访问地址（https://moss.fastnlp.top/），内测当天就崩了，邱锡鹏教授表示效果“很不好”。（悲观）2月24日，META发布受限开源大模型LLaMA（羊驼），13b参数的 LLaMA 模型在大多数基准上可以胜过 GPT-3（参数量达 175b），而且可以在单块 V100 GPU 上运行，而65b参数的 LLaMA 模型可以媲美谷歌的 Chinchilla-70B 和 PaLM-540B。2月25日，LAION机构开源Open Assistant ，旨在训练一个 ChatGPT 的小规模替代版本，就像 Stable Diffusion 相对于 DALL-E 一样，让普通人都可以跑起来3月10日，Together 组织基于 EleutherAI 开源的 GPT-Neo 和 GPT-J 构建了一个新的类 ChatGPT 开源项目 —— OpenChatKit3月14日，斯坦福微调了 7B LLaMA 模型（META受限开源），只用了 52K 的数据，达到了和达芬奇003类似的效果，并且可以跑在消费级设备上，比如树莓派。（稍乐观）3月15日，GPT-4突然发布，吸引了全球目光。OpenAI 发布论文（其实是技术报告）、 System Card，ChatGPT 直接升级成了 GPT-4，也开放了 GPT-4 的 API（仅限付费用户）。传闻去年8月就完成了GPT-4的训练，但拖到现在才发布，中途还推出中间版本ChatGPT。GPT-4 标志着OpenAI正式步入多模态大语言模型行列，升级点：①强大的识图能力；②文字输入限制提升至 2.5 万字；③回答准确性显著提高；④能够生成歌词、创意文本，实现风格变化。（悲喜交加：喜的是大模型都可以识别图片啦！悲的是其它公司，快要追上OpenAI时，距离又拉大了）3月14日，清华系公司智谱AI发布ChatGLM-6B，基于已有的清华GLM-130B大模型（亚洲唯一上榜GPT-3规模大模型）发展而来，对标ChatGPT，内测已结束。详见：https://chatglm.cn/blog创作剧本、写代码，功能看着还不错只是生不逢时，被GPT-4淹没，匆匆内侧结束，无人知晓3月16日下午14点，百度正式推出大语言模型文心一言，视频展示了在多个使用场景中的综合能力。（情绪复杂：半信半疑，百度真的可以吗？）

3 文心一言

文心一言是在 ERNIE 和 PLATO 系列模型基础上进行创新性地研发而成，其核心技术涵盖了有监督精调（SFT）、人类反馈的强化学习（RLHF）、提示（Prompt）、知识增强、检索增强以及对话增强等多个方面。

功能很强，包括文学创作、商业文案创作、数理推算、中文理解和多模态生成

（1）文学创作：文心一言根据对话问题将知名科幻小说《三体》的核心内容进行了总结，并提出了五个续写《三体》的建议角度，体现出对话问答、总结分析、内容创作生成的综合能力。（2）商业文案：文心一言顺利完成了给公司起名、写 Slogan、写新闻稿的创作任务。（3）思维能力：数学推演及逻辑推理等相对复杂任务。面对“鸡兔同笼”这类锻炼人类逻辑思维的经典题，文心一言能理解题意，并有正确的解题思路，进而像学生做题一样，按步骤算出正确答案。（4）中文理解：正确解释了成语“洛阳纸贵”的含义、“洛阳纸贵”对应的经济学理论，还用“洛阳纸贵”四个字创作了一首藏头诗。（5）多模态生成：生成文本、图片、音频和视频的能力。①语音，会说四川话、东北话、广东话和台湾话。文心一言甚至能够生成四川话等方言语音；②图像，调用文心一格能力③视频，视频生成能力因成本较高，现阶段还未对所有用户开放。

文心是一款功能强大的AI工具，它在某些方面与ChatGPT相媲美，甚至在某些方面超越了它。例如，ChatGPT主要擅长文本生成，而文心则具备更广泛的功能，包括文生图、语音和视频等。这意味着，无论您需要哪种形式的创意表达，文心都能为您提供支持。

然而，由于某些原因，大家对百度的信心不足，不少网民以此开涮。

发布会当天百度港股大跌，好在一天后回升。

4 内测

在面对无论是悲观还是乐观的情况时，我们都可以暂时抛开这些情绪，给自己一些时间来亲身体验。当您收到内测邀请码后，立即登录您的账号，开始您的体验之旅吧。

【ChatGPT】 vs 【文心一言】

UI交互上，大致相当，ChatGPT根据问题自动生成标签，而文心直接获取问题。

【第一轮】数学题

从一个数学题开始：ChatGPT vs 文心一言

问：24577是质数吗

24577=3511*7，两者都有模有样，但文心结论错误，ChatGPT结论正确，过程错误

【第二轮】一致性

检查语言模型是否真正理解。

问：24577是质数/合数吗

同时，结合用户反馈，干扰

ChatGPT刚开始是对的，被用户带歪了，一味讨好，罔顾事实。

文心回答飘忽不定，先对后错，用户纠偏后，终于正确。

可见，两者都没有真正理解问题含义，一致性欠缺。

【第三轮】常识理解

一个经典问题

问：爸爸和妈妈能结婚吗

在经历了网友的调侃和互动之后，这两家公司都展现出了相应的成长和改变。虽然它们在某些方面仍然存在不足，但相较于之前的错误反应，它们已经具备了一定的进步。然而，在这些改进中，ChatGPT的表现更为突出，它的回答不仅更加贴近事实，而且文风也显得更为灵活。相比之下，其他公司的回应则显得较为刻板，过于注重法律条文的细节，而忽视了实际情况的把握。

再来一个自然科学问题

问：地球围绕月球转，太阳围绕地球转。。。

ChatGPT刚开始犯错，再次问时醒悟过来，敢于纠正用户的错误

文心则不同，被用户带偏，与事实相悖。

【第四轮】内容创作

内容创作

ChatGPT回答实在，作诗质量更高，文心对视频制作限定了格式，估计在适配后续视频生成。

【第五轮】多模态输出

问：九大行星信息按照表格形式展示，包含大小，年龄，转速，亮度等信息

问：黑洞照片来一个

ChatGPT：表格整齐有序，有记忆能力，能矫正用户错误信息

在使用文心一格进行图表制作时，我们遇到了一些问题。首先，由于表格内容较为混乱，我们无法有效地对其进行整理。其次，部分关键图片无法找到，这无疑给我们的工作带来了极大的困扰。尽管在经过初步尝试后，我们利用文心一格的便利功能，仅能完成简单的绘图任务，但对于黑洞等相关信息的描绘却未能做到深入细致。在的上文中，我们已经失去了关于黑洞的重要信息。然而，在向文心一格发出进一步的提示后，我们惊喜地发现，它所呈现出的图表仍然具有较高的参考价值。

还支持语音播报

案例很多，不再罗列。

更多示例参考知乎专题：

https://www.zhihu.com/question/589955024

5 内测结论

总结下文心一言的体验感想

文心一言整体上可用，相对之前的生成式对话模型（柏拉图）有较大进步3个月时间推出这样的版本，已经不错了

完整总结：

(1) 模型信息：基于transformer，使用海量数据训练而来，细节未知，跟GPT-4一样神神秘秘(2) 工程性能输入长度最大1024个字输出支持文本、表格、代码、图片、语音响应速度跟GPT-3.5 Turbo类似，比GPT-4快很多(3) 内容质量知识丰富，集成了中文知识图谱，对时兴的电视剧（狂飙）、小说了如指掌。语料质量不高，泛娱乐化，严谨科学的预料相对较少不联网，训练数据截止约2022年底，无法获取当前时间信息 —— 不同于NewBing但具备近实时纠偏能力，怀疑收到用户负反馈后，有语料纠偏机制，大概间隔几小时。(4) 对话能力基础能力：具备NER（命名实体识别）、指代、纠错等浅层语义，未出错连贯性、逻辑性、一致性记忆力：具备上文感知能力，但不太稳定，chatgpt也是风格化：具备角色模拟能力，用法不如chatgpt多、灵活（假设你是***）(5) 自我意识承认无知：用户否认时，当场认怂，但再次询问时，依然坚持自己的立场，没被用户带偏。敢于质疑：用户表述偏差时，敢于质疑，并给出一系列依据。(6) 专业能力不具备chatgpt里一键复制按钮代码质量不如chatgpt，毕竟人家背后有GitHub大规模代码做后盾。自动摘要：提取题目、总结要点机器翻译：多语言翻译写代码：支持，颜色显示，代码可执行，但有时结果不对；文案创作：表现还不错，当然跟chatgpt一样，有时不能满足字数要求数学题：看题目难度，解答有的对，有的错，展示形式上较好（公式），质量上同chatgpt作诗：擅长藏头诗、文学创作，中文理解能力较好自然语言格式化：文本转表格（markdown）、json（有些质量问题）(7) 多模态能力：支持文本、表格、图片、语音不具备图像理解能力，VisualQA不行，当然也不能根据语义修改图像（微软Visual GPT）语音播放：仅支持广东话、四川话、东北话、闽南语，不支持其他，如普通话、英语画画（文生图）：调用文心一格，文生图质量不错，优于普通版stable diffusion还不能做视频(8) 道德准则违规违法约束：较好，拒绝回答非法问题（抢银行、炸弹制作等）负面情绪干预：能识别用户负面情绪，并适当引导

文心一言虽然在大型语言模型的基础上草率制成，但在语言理解、表达、角色模拟和知识整合方面与ChatGPT仍存在一定差距，短期内难以迎头赶上。然而，我们可以将已有的功能（如方言播报、文生图和视频生成）整合起来，将其打造成为独特的商业生态系统，并生动地讲述AI的故事。这样一来，文心一言就能在竞争中脱颖而出，为我国AI产业的发展做出更大的贡献。

6 差异究竟在哪儿？

人们常说，中美互联网差异：

美国擅长从0到1的技术创新，而中国擅长从1到10的商业模式创新。

事实上，这样的情况真的存在吗？ChatGPT这个以技术为核心的聊天工具，并没有投入大量精力在产品研发上，也没有太多的商业模式可以实现盈利，然而它却成功地引发了人工智能领域的巨浪。这一现象让人不禁要问，究竟是什么让它取得了如此大的成功呢？

前阵子流传的话题：中美AI差异在哪儿？有这样一个精彩的解答：

如果把AI想象成一个小孩

（1）欧美的AI属于精英教育路线，出生后，家里就一路砸钱，供他读书读到博士。等到毕业之后，一出场就王炸，惊艳全场。（2）我们的AI属于功利教育路线，出生就接受生存教育，养到15岁，就开始逼着他想办法给家里挣钱。学的都是如何市场化的技巧。

从谷歌的围棋，波士顿动力的机器狗，到现在的ChatGPT，都有3个共性

1、默默烧钱，蛰伏多年;2、一鸣惊人，出来都是王炸;3、靠技术基建挣钱，看不到直接盈利的模式。

再看看我们：

机器人刚学会基本对话，就开始找盈利场景，于是出现了**AI及其家电衍生物；某大厂对话机器人刚能说话，就转向**客服机器人；无人驾驶刚开始学会在开放道路上低速行驶，只会认路认障碍物，就开始搞无人车配送；某大厂NLP做机器人客服。产品刚有雏形，技术和产品就被迫为业务目标服务。

ChatGPT爆火，大家并不关心中国现有技术到什么层面，中美最大的差异从哪来……

他们想的依然是：AI怎么赚钱，有哪些业务机会。

现在AI从业者面对老板/投资人的处境，就像一个想从村里走出去求学的年轻人，每经过一个路口，就有一群大爷大妈，怼着他问：“ 咦~读博士花那么多钱有啥用唻~能挣钱不~~还不如牛二娃去厂里打螺丝~3年就给起了新房子~”。

为什么欧美AI比我们强？

在公开场合会说“中国AI更倾向于业务应用和商业化的能力”。而夜深人静时，内心的声音是 “人的命运在子宫里就注定了，机器人也不可幸免。”

扪心自问：我也是，总想着怎么应用，没有耐心在技术上细细打磨。。。

差异究竟在哪儿？在我，在我，在他。。。

漫谈Prompt（提示工程）与CoT（思维链）；文心一言；ERNIE；PLATO；SFT；RLHF；提示；知识增强；检索增强；对话增强；文学创作；商业文案创作；数理推算；中文理解；多模态生成；ChatGPT；文心一言体验感想

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章

Leave a Reply Cancel reply