拥抱开源，打破垄断——迈向透明大型语言模型的新纪元

文章主题：

新智元报道

编辑：LRS

【新智元导读】为了科学界的未来，加入开源LLM阵营吧！

🌟体验ChatGPT带来的乐趣确实无与伦比，但它作为一款封闭源的AI模型，其局限性在于开源程度不足。外界对模型背后的训练数据和隐私保护问题的透明度心存疑虑。这促使工业界和学术界的共同努力催生了LLaMA等类似项目，旨在推动羊驼模型的开放共享。🚀通过这样的合作，我们有望获得更强大、可信赖的语言技术，同时也能为未来的AI伦理与安全提供宝贵的参考。

🌟揭示科研新趋势！Nature世界观揭示开源模型魅力✨纽约大学专家Arthur Spirling倡导，拥抱开源科研工具🌍，它们以透明度著称，确保研究结果可精确再现，坚守学术诚信的灯塔。这样的方法不仅提升了科学的可信度，也为知识共享开辟了更广阔的道路🌈。让我们一起推动科研进步，用数据说话！💪

🌟🚀在人工智能的世界里，一个关键的风险点在于，万一OpenAI的决策改变，导致其语言模型服务遭遇调整或限制，甚至通过市场力量进行价格操控，用户可能会面临这样的现实：「学术与资本的较量，或许会以这样的方式告终」。🌈

🎓Arthur Spirling, a seasoned political analyst, is set to join Princeton University’s esteemed faculty this July as a Professor of Political Science. His primary focus will be on the cutting-edge application of political methodologies and legislative behavior, particularly in the realm of text data analysis, natural language processing, Bayesian statistics, machine learning, project response theory, and generalized linear models within the discipline. 📚✨Expanding the academic landscape with his expertise, he aims to delve deeper into these topics, shaping future discussions and enriching the field’s understanding. Stay tuned for insightful contributions from this expert in political science! #PoliticalMethodology #PrincetonUniversity #ExpertJoiningForce

研究人员应该避免商用模型的诱惑，共同开发透明的大型语言模型，以确保可重复性。

拥抱开源，拒绝垄断

🎉🚀最新动态！每日迭代的超凡LLMs正引领语言技术革新！.ai巨擘们热衷于展示它们如何赋能日常，从代码修订到撰写推荐，再到深度文摘，无所不能！但请留意，这些创新工具并非简单替代人类智慧，而是巧妙地协作，提升效率。让我们一窥未来沟通的新篇章吧！🌍💼

🌟作为一名数据与政治理论专家，我深知当前热门的模型在透明度方面的挑战。尽管这些强大的工具正被政治家和学者广泛采用，但遗憾的是，大多数领先的模型仍处于私有且保密的状态，由企业主导，他们对模型核心信息的披露极其有限，仅限于内部验证过程，这使得研究者与公众难以深入了解其训练数据来源。🚨

急于将语言模型纳入自己的研究流程可能会出问题，可能会威胁到来之不易的「研究伦理」和「结果复现性」方面的相关进展。

不光不能依赖商用模型，研究人员还要通力合作开发透明且不依赖于某个具体公司利益的开源大型语言模型。

虽然商用模型非常方便，可以开箱即用，但投资开源语言模型是历史的趋势，既要想办法推进开发，也要让模型应用于未来的研究中。

我乐观地估计，语言模型工具的未来一定是开源的，类似于开源统计软件的发展历史，刚开始商用的统计软件很流行，但目前基本所有社区都在使用R或Python等开源平台。

举个例子，去年7月发布的开源语言模型BLOOM，其开发团队Hugging Face是一家总部位于纽约的人工智能公司，携手一千多名志愿者和研究人员共同打造，部分研发资金由法国政府提供；其他团队也在努力开源大型语言模型。

我认为类似这样的开源项目都是伟大的，但我们还需要更多的合作，需要汇集国际资源和专业知识。

开源大型语言模型的团队通常不像大公司那样资金充足，并且开发团队还需要持续运营以跟踪领域内的最新进展：AI领域的发展实在是太快了，甚至大部分语言模型在推出几周或几个月以后就会过时。

所以参与到开源中的学者越多，最终开源模型的效果也会更好。

使用开源 LLM 对于「可重复性的研究」至关重要，因为闭源的商用语言模型所有者可以随时更改其产品或其训练数据，都有可能会改变模型的生成结果。

比如说，一个研究小组可能会发表一篇论文，测试商用语言模型建议的措辞是否可以帮助临床医生更有效地与患者沟通；如果另一个小组试图复现这项研究，谁知道模型的基础训练数据是否和当时一样？甚至该模型是否仍然运营都是未知数。

之前研究人员常用的辅助工具GPT-3已经被GPT-4取代了，所有基于GPT-3接口的研究在未来很可能无法复现，对于公司来说，维持旧模型运行的优先级并不高。

相比之下，使用开源LLM，研究人员可以查看模型的内部架构、权重，了解模型是如何运行的，定制代码并指出错误，这些细节包括模型的可调参数和训练模型的数据，社区的参与和监督都有助于让这种模式长期保持稳健。

在科学研究中使用商用语言模型也对研究伦理产生了负面的影响，因为用于训练这些模型的文本是未知的，可能包括社交媒体平台上用户之间的直接信息或儿童撰写的内容。

尽管制作公共文本的人可能已经同意了平台的服务条款，但这可能不是研究人员希望看到的知情同意标准。

在我看来，科学家应该尽可能地在自己的工作中远离使用这些模型。我们应该转向开放的语言模型，并推广给其他人使用。

此外，我认为学者，尤其是那些拥有大量社交媒体追随者的学者，不应该推动其他人使用商用模型，如果价格飙升，或者公司倒闭，研究人员可能会后悔把技术推广给同事。

研究人员目前可以求助于私人组织制作的开放式语言模型，例如用Facebook母公司Meta开源的LLaMA，最初是基于用户申请、审核的形式发放的，但完整版模型随后在网上泄露；还可以使用Meta的开放语言模型OPT-175 B

从长远来看，不利的一面是，这些模型的发布过于依赖公司的仁慈，这是一种不稳定的局面。

除此之外，还应该有与语言模型合作的学术行为准则，以及相应的监管措施，但这些都需要时间，根据我作为政治学家的经验，我预计这些规定最初肯定是很不完善的，并且见效缓慢。

与此同时，大规模的合作项目迫切需要支持，以训练用于研究的开源语言模型，类似欧洲粒子物理研究所（CERN），国际粒子物理组织，政府应通过赠款增加资金。

该领域正在以闪电般的速度发展，现在需要开始协调国内和国际支持。

科学界需要有能力评估由此得到模型的风险，并且需要谨慎地向公众发布，但很明显，开放的环境是正确的。

参考资料：

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章

Leave a Reply Cancel reply