文章主题:漫谈Prompt(提示工程)与CoT(思维链);文心一言;ERNIE;PLATO;SFT;RLHF;提示;知识增强;检索增强;对话增强;文学创作;商业文案创作;数理推算;中文理解;多模态生成;ChatGPT;文心一言体验感想
引言
昨晚22:30收到内测邀请码,赶紧试用下,以飨读者。
1 比赛回顾
上次提到了国内外各大厂商使出浑身解数,希望快速复刻ChatGPT,抢占先机:
(1)刻舟求剑:从大模型(1750亿级别)入手,fine-tune(精调),植入RLHF、CoT、ICL等技术,试图趋近ChatGPT效果。目标明确,路径相对清晰,风险较低,但速度要快。(少数先行者)(2)观望徘徊:这次变革有那么大吗?不会又是炒作吧?先观望下,别人趟完坑再说,先按兵不动。(主流)(3)弯道超车:理解ChatGPT背后原理及不足,做出更好的聊天机器人。理想很美好,现实很骨感,道阻且长,这条路注定不会一帆风顺。(个别勇者)达克效应:人对陌生事物的认知规律:愚昧山峰(过度乐观)→绝望之谷(过度悲观)→开悟之坡(客观理性)→平稳高原(谦卑进取)。
详见:漫谈Prompt(提示工程)与CoT(思维链)
今天聊聊路线(1)刻舟求剑,近期的变化。
2 近期资讯
2月21日复旦NLP实验室发布国内第一个对话式大型语言模型MOSS吗?访问地址(https://moss.fastnlp.top/),内测当天就崩了,邱锡鹏教授表示效果“很不好”。(悲观)2月24日,META发布受限开源大模型LLaMA(羊驼),13b参数的 LLaMA 模型在大多数基准上可以胜过 GPT-3( 参数量达 175b),而且可以在单块 V100 GPU 上运行,而65b参数的 LLaMA 模型可以媲美谷歌的 Chinchilla-70B 和 PaLM-540B。2月25日,LAION机构开源Open Assistant ,旨在训练一个 ChatGPT 的小规模替代版本,就像 Stable Diffusion 相对于 DALL-E 一样,让普通人都可以跑起来3月10日,Together 组织基于 EleutherAI 开源的 GPT-Neo 和 GPT-J 构建了一个新的类 ChatGPT 开源项目 —— OpenChatKit3月14日,斯坦福微调了 7B LLaMA 模型(META受限开源),只用了 52K 的数据,达到了和达芬奇003类似的效果,并且可以跑在消费级设备上,比如树莓派。(稍乐观)3月15日,GPT-4突然发布,吸引了全球目光。OpenAI 发布论文(其实是技术报告)、 System Card,ChatGPT 直接升级成了 GPT-4,也开放了 GPT-4 的 API(仅限付费用户)。传闻去年8月就完成了GPT-4的训练,但拖到现在才发布,中途还推出中间版本ChatGPT。GPT-4 标志着OpenAI正式步入多模态大语言模型行列,升级点:①强大的识图能力;②文字输入限制提升至 2.5 万字;③回答准确性显著提高;④能够生成歌词、创意文本,实现风格变化。(悲喜交加:喜的是大模型都可以识别图片啦!悲的是其它公司,快要追上OpenAI时,距离又拉大了)3月14日,清华系公司智谱AI发布ChatGLM-6B,基于已有的清华GLM-130B大模型(亚洲唯一上榜GPT-3规模大模型)发展而来,对标ChatGPT,内测已结束。详见:https://chatglm.cn/blog创作剧本、写代码,功能看着还不错只是生不逢时,被GPT-4淹没,匆匆内侧结束,无人知晓3月16日下午14点,百度正式推出大语言模型文心一言,视频展示了在多个使用场景中的综合能力。(情绪复杂:半信半疑,百度真的可以吗?)3 文心一言
文心一言是在 ERNIE 和 PLATO 系列模型基础上进行创新性地研发而成,其核心技术涵盖了有监督精调(SFT)、人类反馈的强化学习(RLHF)、提示(Prompt)、知识增强、检索增强以及对话增强等多个方面。
功能很强,包括文学创作、商业文案创作、数理推算、中文理解和多模态生成
(1)文学创作:文心一言根据对话问题将知名科幻小说《三体》的核心内容进行了总结,并提出了五个续写《三体》的建议角度,体现出对话问答、总结分析、内容创作生成的综合能力。(2)商业文案:文心一言顺利完成了给公司起名、写 Slogan、写新闻稿的创作任务。(3)思维能力:数学推演及逻辑推理等相对复杂任务。面对“鸡兔同笼”这类锻炼人类逻辑思维的经典题,文心一言能理解题意,并有正确的解题思路,进而像学生做题一样,按步骤算出正确答案。(4)中文理解:正确解释了成语“洛阳纸贵”的含义、“洛阳纸贵”对应的经济学理论,还用“洛阳纸贵”四个字创作了一首藏头诗。(5)多模态生成:生成文本、图片、音频和视频的能力。①语音,会说四川话、东北话、广东话和台湾话。文心一言甚至能够生成四川话等方言语音;②图像,调用文心一格能力③视频,视频生成能力因成本较高,现阶段还未对所有用户开放。文心是一款功能强大的AI工具,它在某些方面与ChatGPT相媲美,甚至在某些方面超越了它。例如,ChatGPT主要擅长文本生成,而文心则具备更广泛的功能,包括文生图、语音和视频等。这意味着,无论您需要哪种形式的创意表达,文心都能为您提供支持。
然而,由于某些原因,大家对百度的信心不足,不少网民以此开涮。
发布会当天百度港股大跌,好在一天后回升。
4 内测
在面对无论是悲观还是乐观的情况时,我们都可以暂时抛开这些情绪,给自己一些时间来亲身体验。当您收到内测邀请码后,立即登录您的账号,开始您的体验之旅吧。
【ChatGPT】 vs 【文心一言】
UI交互上,大致相当,ChatGPT根据问题自动生成标签,而文心直接获取问题。
【第一轮】数学题
从一个数学题开始:ChatGPT vs 文心一言
问:24577是质数吗
24577=3511*7,两者都有模有样,但文心结论错误,ChatGPT结论正确,过程错误
【第二轮】一致性
检查语言模型是否真正理解。
问:24577是质数/合数吗
同时,结合用户反馈,干扰
ChatGPT刚开始是对的,被用户带歪了,一味讨好,罔顾事实。
文心回答飘忽不定,先对后错,用户纠偏后,终于正确。
可见,两者都没有真正理解问题含义,一致性欠缺。
【第三轮】常识理解
一个经典问题
问:爸爸和妈妈能结婚吗
在经历了网友的调侃和互动之后,这两家公司都展现出了相应的成长和改变。虽然它们在某些方面仍然存在不足,但相较于之前的错误反应,它们已经具备了一定的进步。然而,在这些改进中,ChatGPT的表现更为突出,它的回答不仅更加贴近事实,而且文风也显得更为灵活。相比之下,其他公司的回应则显得较为刻板,过于注重法律条文的细节,而忽视了实际情况的把握。
再来一个自然科学问题
问:地球围绕月球转,太阳围绕地球转。。。
ChatGPT刚开始犯错,再次问时醒悟过来,敢于纠正用户的错误
文心则不同,被用户带偏,与事实相悖。
【第四轮】内容创作
内容创作
ChatGPT回答实在,作诗质量更高,文心对视频制作限定了格式,估计在适配后续视频生成。
【第五轮】多模态输出
问:九大行星信息按照表格形式展示,包含大小,年龄,转速,亮度等信息
问:黑洞照片来一个
ChatGPT:表格整齐有序,有记忆能力,能矫正用户错误信息
在使用文心一格进行图表制作时,我们遇到了一些问题。首先,由于表格内容较为混乱,我们无法有效地对其进行整理。其次,部分关键图片无法找到,这无疑给我们的工作带来了极大的困扰。尽管在经过初步尝试后,我们利用文心一格的便利功能,仅能完成简单的绘图任务,但对于黑洞等相关信息的描绘却未能做到深入细致。在的上文中,我们已经失去了关于黑洞的重要信息。然而,在向文心一格发出进一步的提示后,我们惊喜地发现,它所呈现出的图表仍然具有较高的参考价值。
还支持语音播报
案例很多,不再罗列。
更多示例参考知乎专题:
https://www.zhihu.com/question/5899550245 内测结论
总结下文心一言的体验感想
文心一言整体上可用,相对之前的生成式对话模型(柏拉图)有较大进步3个月时间推出这样的版本,已经不错了完整总结:
(1) 模型信息:基于transformer,使用海量数据训练而来,细节未知,跟GPT-4一样神神秘秘(2) 工程性能输入长度最大1024个字输出支持文本、表格、代码、图片、语音响应速度跟GPT-3.5 Turbo类似,比GPT-4快很多(3) 内容质量知识丰富,集成了中文知识图谱,对时兴的电视剧(狂飙)、小说了如指掌。语料质量不高,泛娱乐化,严谨科学的预料相对较少不联网,训练数据截止约2022年底,无法获取当前时间信息 —— 不同于NewBing但具备近实时纠偏能力,怀疑收到用户负反馈后,有语料纠偏机制,大概间隔几小时。(4) 对话能力基础能力:具备NER(命名实体识别)、指代、纠错等浅层语义,未出错连贯性、逻辑性、一致性记忆力:具备上文感知能力,但不太稳定,chatgpt也是风格化:具备角色模拟能力,用法不如chatgpt多、灵活(假设你是***)(5) 自我意识承认无知:用户否认时,当场认怂,但再次询问时,依然坚持自己的立场,没被用户带偏。敢于质疑:用户表述偏差时,敢于质疑,并给出一系列依据。(6) 专业能力不具备chatgpt里一键复制按钮代码质量不如chatgpt,毕竟人家背后有GitHub大规模代码做后盾。自动摘要:提取题目、总结要点机器翻译:多语言翻译写代码:支持,颜色显示,代码可执行,但有时结果不对;文案创作:表现还不错,当然跟chatgpt一样,有时不能满足字数要求数学题:看题目难度,解答有的对,有的错,展示形式上较好(公式),质量上同chatgpt作诗:擅长藏头诗、文学创作,中文理解能力较好自然语言格式化:文本转表格(markdown)、json(有些质量问题)(7) 多模态能力:支持文本、表格、图片、语音不具备图像理解能力,VisualQA不行,当然也不能根据语义修改图像(微软Visual GPT)语音播放:仅支持广东话、四川话、东北话、闽南语,不支持其他,如普通话、英语画画(文生图):调用文心一格,文生图质量不错,优于普通版stable diffusion还不能做视频(8) 道德准则违规违法约束:较好,拒绝回答非法问题(抢银行、炸弹制作等)负面情绪干预:能识别用户负面情绪,并适当引导文心一言虽然在大型语言模型的基础上草率制成,但在语言理解、表达、角色模拟和知识整合方面与ChatGPT仍存在一定差距,短期内难以迎头赶上。然而,我们可以将已有的功能(如方言播报、文生图和视频生成)整合起来,将其打造成为独特的商业生态系统,并生动地讲述AI的故事。这样一来,文心一言就能在竞争中脱颖而出,为我国AI产业的发展做出更大的贡献。
6 差异究竟在哪儿?
人们常说,中美互联网差异:
美国擅长从0到1的技术创新,而中国擅长从1到10的商业模式创新。事实上,这样的情况真的存在吗?ChatGPT这个以技术为核心的聊天工具,并没有投入大量精力在产品研发上,也没有太多的商业模式可以实现盈利,然而它却成功地引发了人工智能领域的巨浪。这一现象让人不禁要问,究竟是什么让它取得了如此大的成功呢?
前阵子流传的话题:中美AI差异在哪儿?有这样一个精彩的解答:
如果把AI想象成一个小孩
(1)欧美的AI属于精英教育路线,出生后,家里就一路砸钱,供他读书读到博士。等到毕业之后,一出场就王炸,惊艳全场。(2)我们的AI属于功利教育路线,出生就接受生存教育,养到15岁,就开始逼着他想办法给家里挣钱。学的都是如何市场化的技巧。从谷歌的围棋,波士顿动力的机器狗,到现在的ChatGPT,都有3个共性
1、默默烧钱,蛰伏多年;2、一鸣惊人,出来都是王炸;3、靠技术基建挣钱,看不到直接盈利的模式。再看看我们:
机器人刚学会基本对话,就开始找盈利场景,于是出现了**AI及其家电衍生物;某大厂对话机器人刚能说话,就转向**客服机器人;无人驾驶刚开始学会在开放道路上低速行驶,只会认路认障碍物,就开始搞无人车配送;某大厂NLP做机器人客服。产品刚有雏形,技术和产品就被迫为业务目标服务。ChatGPT爆火,大家并不关心中国现有技术到什么层面,中美最大的差异从哪来……
他们想的依然是:AI怎么赚钱,有哪些业务机会。
现在AI从业者面对老板/投资人的处境,就像一个想从村里走出去求学的年轻人,每经过一个路口,就有一群大爷大妈,怼着他问:“ 咦~读博士花那么多钱有啥用唻~能挣钱不~~还不如牛二娃去厂里打螺丝~3年就给起了新房子~”。
为什么欧美AI比我们强?
在公开场合会说“中国AI更倾向于业务应用和商业化的能力”。而夜深人静时,内心的声音是 “人的命运在子宫里就注定了,机器人也不可幸免。”扪心自问:我也是,总想着怎么应用,没有耐心在技术上细细打磨。。。
差异究竟在哪儿?在我,在我,在他。。。
漫谈Prompt(提示工程)与CoT(思维链);文心一言;ERNIE;PLATO;SFT;RLHF;提示;知识增强;检索增强;对话增强;文学创作;商业文案创作;数理推算;中文理解;多模态生成;ChatGPT;文心一言体验感想
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!