打造未来助手？OpenAssistant，ChatGPT的开源挑战者，你想要的答案在这里!

文章主题：ChatGPT, OpenAI, OpenAssistant

整理 | 屠敏

出品 | CSDN（ID：CSDNnews）

🌟ChatGPT引领革命：自去年11月面向大众以来，OpenAI的热度持续飙升，不仅成为科技圈的焦点，更是开发者们的首选工具。这款创新的AI助手不仅仅简化了代码编写、文档生成和问题解答等任务，它开启了一个全新的AI内容创作（AIGC）纪元。🚀SEO优化提示：ChatGPT、OpenAI、AIGC、科技创新、开发者工具、AI内容创作🔥

🎉🚀【ChatGPT挑战者】面对OpenAI的变数，开源世界创新不断！💡🔥一群热情的开发者正着手打造新一代智能助手，其中，OpenAssistant以其开源魅力，引领潮流。🌟🌈它不仅延续了ChatGPT的成功基因，更以开放的姿态，吸引着众多志在复刻神话的团队加入这场技术盛宴。🌐👥无论你是寻求突破的创新者，还是希望推动社区发展的贡献者，这里都是你实现梦想的舞台！🔥🚀

Open Assistant 机器学习模型是由一家德国非营利组织 LAION 运营。近日，该组织官宣现在可以使用 OpenAssistant 模型、训练数据和代码，并将该模型称之为「全球最大的 ChatGPT 开源复制品」，试用地址：https://open-assistant.io。

让人人都能通过开源的方式，用上会话 AI，已成为了现实，这也让 Open-Assistant（https://github.com/LAION-AI/Open-Assistant）在众多开源项目中脱颖而出，截至目前，收获了 24.1k 个 Star，Fork 数达 1.9k。世界上最大的 ChatGPT 开源平替—— Open Assistant

🌟【OpenAssistant】起源揭秘🚀——创新启航于2022年冬末，ChatGPT发布后的不久🌟在时间的脉络中，一个崭新的篇章悄然翻开——OpenAssistant，正是在此刻科技浪潮的涌动下应运而生。这款项目犹如一颗璀璨的新星，在AI领域迅速崭露头角，紧随其后，OpenAI的ChatGPT引发了全球热议与狂潮。🚀追溯至2022年12月，这段历史性的交汇点，标志着OpenAssistant的孕育与成长。它不仅承载着科技的进步，更是对未来人机交互方式的一次深度探索。💡作为一款专注于提供高质量内容和智能服务的项目，我们致力于通过先进的技术手段，为用户提供更便捷、个性化的体验。🌈欲了解更多关于这个创新旅程的故事，欢迎随时关注我们的最新动态，一起见证OpenAssistant在AI世界中的卓越成长！🌐

🚀🚀🚀未来助手新纪元！💡我们的目标不仅仅是复制ChatGPT的卓越功能，而是引领创新，打造一款全能型的AI伙伴。它不仅能熟练撰写邮件和简历，还能深度操作API，实时获取并分析信息，无限扩展可能。🌍个性化定制，触手可及，每个人都能根据自己的需求进行独一无二的定制。我们坚持开放与包容，致力于打造一个轻量级、高效能的AI，专为消费级设备而生。🚀无论是在家中还是办公室，只需轻轻一点，就能让助手全力以赴。我们的目标是将技术融入日常生活，让智能触手可及，而非遥不可及的梦想。🌍GitHub上的我们，诚邀开发者们一同探索，共建这个未来助手的壮丽篇章。👩‍💻👨‍💻让我们携手，用代码编织梦想，让创新引领潮流！🌟

🌟🚀Open Assistant: 掌握未来AI技能的开源秘密武器🔥🔍探索无限可能！Open Assistant正致力于打造一款与ChatGPT齐名的全能型开源人工智能伙伴，引领技术潮流，重塑语言创新。就像艺术与影像的不断革新，Open Assistant旨在通过开源的力量，推动智能领域的稳健迭代。🌟🎨

🌟🚀经过五个月的不懈努力和13,500多位热心志愿者的支持，这个团队成功打造了一款堪称语言艺术瑰宝的人工智能语料库✨。它包含161,443条深度对话记录，分布在66,497个会话树中，跨越35种多样的语言桥梁。每一条信息都经过了严谨的质量把关，总计461,292次标注，确保了数据的准确性和丰富性。这份宝贵的资源是人类智慧与技术结晶，旨在为全球的学习者和研究者提供无价的语言交互洞见。🌍🌐

在 Open Assistant 研究团队来看，AI 发展的未来在很大程度上取决于公开可用的高质量数据集和模型，而这正是该项目所做的。也就是在当下，他们终于可以对外公开这个非常强大的模型，现在可以在以下网址试用：open-assistant.io/chat 。

在发布使用链接之际， Open Assistant 研究团队还发布了一篇《OpenAssistant Conversations – Democratizing Large Language Model Alignment》的论文，分享了该语料库诞生的技术应用，以及与 ChatGPT 的比较。

OpenAssistant Conversation 语料库，支持 35 种语言

正如上文所述，该语料库是一个全球众包努力的产物，有超过 13,500 名志愿者参与。根据论文介绍，它的基本数据结构是一个会话树（Conversation Tree，CT），节点代表对话中的消息。一个 CT 的根节点代表一个初始提示，由提示者给出。为了避免混淆，研究人员把对话的角色称为提示者和助手。

这些数据是通过一个 Web 应用程序界面收集的，该界面通过将整个流程分为五个独立的步骤来完成：提示、标记提示、作为提示者或助手添加回复信息、标记回复、以及对助手的回复进行排名。这个数据集主要以英语和西班牙语为主。根据论文介绍，英语占比较重符合预期，因为围绕 OpenAssistant 的社区起源于讲英语的开源机器学习社区。中文在此语料库中占比 2.5%。为了证明 OpenAssistant Conversation 数据集的有效性，该研究团队提出了 OpenAssistant 是第一个在人类数据上训练的完全开源的大规模指令调整模型的概念。

与此同时，该研究团队使用收集到的数据专注于 Meta 的 LLaMA 模型和 EleutherAI 的 Pyhtia 模型的微调语言模型研究。

其中，Pythia 是一个最先进的语言模型，具有宽松的开源许可，而 LLaMA 是一个强大的语言模型，具有定制的非商业许可。

对此，研究团队发布了一套微调的语言模型，包括指令调整的 Pythia-12B、LLaMA-13B 和 LLaMA-30B。

值得注意的是，最大的变体基于具有 300 亿个参数的 LLaMA 模型，这是他们迄今最大的模型。与 Alpaca 或 Vicuna 一样，这些模型是 ” 指令调整 ” 的，并且没有通过人类反馈强化学习 ( RLHF ) 进一步改进。

为了评估这些模型的性能，研究人员将重心放在了评估 Pythia-12B 模型的性能上，因为它具有开源的属性，使得它可以被广泛使用并适用于不同的应用。

研究人员还将其输出与 OpenAl 的 gpt-3.5-turbo（ChatGPT）模型进行比较。

截至发稿时，这项研究已经获得了 348 份提交的资料，总共有 7042 项比较，结果发现：Pythia-12B 对 gpt-3.5-turbo 的胜率为 48.3%。

这一结果意味着 Pythia-12B 产生的答案与 gpt-3.5-turbo 产生的答案一样有 93.5% 的可取性，表明该研究团队微调的 Pythia 模型在大规模语言模型领域是一个强有力的竞争者。

除此之外，研究者还发布了基于 Pythia-1.4B 和 Pythia-12B 的经过训练的奖励模型。

在论文中，该团队还透露，使用谷歌搜索等插件的初步实验已经在进行中。该团队还计划在未来用 RLHF 训练和发布一个 L LaMA-30B 模型。

上手实测

当前所有模型都可以通过 Web 界面（https://open-assistant.io/chat）进行试用，对话也可以在其中进行评估并用于进一步改进模型。

简单上手一波：

介绍一下自己

这对于 OpenAssistant 而言，实属小意思。不过根据模型的属性，中文提问，是英文回答：

当问及自身的优势时，OpenAssistant 回应道，也可谓是主观且不谦虚：

我是一个大型语言模型，有能力从外部来源检索信息，使我能够提供更具体和准确的答案。此外，我已经在不同的互联网文本上接受了训练，并且拥有超出自然语言处理的许多领域的知识，而 GPT 主要是在人类生成的文本上接受训练。我还可以同时处理多个输入，生成与每个提示相关的内容，而 ChatGPT 只能根据整个对话历史，一次生成一个输出。最终，我的能力可能被认为是优越的，但这是主观的。

写代码的能力

生成一段代码片段试试。通过下列片段不难看出，OpenAssistant 既能生成代码片段，也会直接进行解释，让程序员小白也能看懂代码的具体内容。

讲个 ” 鳄鱼 ” 和猴子的童话故事

当给一个索引，OpenAssistant 可以生成一大段故事内容：

很久以前，有一只名叫 Maxi 的调皮猴子，他最喜欢的就是制造麻烦。他在树上荡来荡去，越爬越高，总是在寻找新的东西来捣乱。有一天，他来到了一个美丽的池塘边，池塘里有一群鱼儿在快乐地游动。但其中有一条巨大的鲤鱼，叫 Big Mama，她用铁鳍统治着其他鱼。没有鱼敢越过她或不服从她的命令 ….

有些偏差的是，这里的鳄鱼直接被叫做了 giant carp（巨暹罗鲤，现存鲤科鱼类中个体最大的品种），和我们理解中的鳄鱼还是有很大差别的。

计算能力

计算能力也还是不错的：

OpenAssistant 的局限性

不过，该模型也有一定的局限性。根据该论文显示，研究团队称，收集的训练数据大多是由男性注释者贡献的，年龄中位数为 26 岁。论文表示，「这种人口统计学特征可能会无意中在数据集中引入偏见，因为它必然会反映注释者的价值观、观点和兴趣。」

不过，该团队还采取了措施来检测和删除数据集中的有害信息，但该系统并非无懈可击。” 鉴于以上讨论的局限性，我们主张只在学术研究背景下使用我们的 LLM，” 该论文说，” 我们强烈鼓励研究人员在下游任务中采用这些模型之前彻底调查其安全性和偏差。重要的是要认识到，发布的模型可能表现出不安全的行为，并且很可能容易受到注入攻击 “。

整体而言，在用不了 OpenAI 的 API 或者 plus 时，使用开源的 OpenAssistant 确实可以作为平替。对此，也有不少网友纷纷表示：

这是一个激动人心的事件。我正在停止我的 chatgpt 订阅。希望有一种简单的方法可以将我的 chatgpt 实验 ( 50+ ) 复制到 Google 文档或直接复制到 OpenAssistant，这样我就可以试用它们，看看它们是否也适用于 OA（ OpenAssistant）。

这是阻止我立即取消我的 chatgpt+ 订阅的唯一想法。

我想知道是否可以为 OA 创建一个插件来做到这一点。我想很多人都会喜欢它。

对此，你怎么看呢？

相关阅读：

论文：https://drive.google.com/file/d/10iR5hKwFqAKhL3umx8muOWSRm7hs5FqX/view

试用地址：https://open-assistant.io/chat/

GitHub 地址：https://github.com/LAION-AI/Open-Assistant

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章

Leave a Reply Cancel reply