自去年年底发布名为 ChatGPT 的聊天机器人以来,很明显,这种人工智能 (AI) 技术将对研究人员的工作方式产生巨大影响。

ChatGPT 是一种大型语言模型 (LLM),这是一种机器学习系统,可以自主地从数据中学习,并且可以在对大量文本数据集进行训练后生成复杂且看似智能的文字。这是加利福尼亚州旧金山的人工智能公司 OpenAI 和其他公司发布的一系列此类模型中的最新一个。 ChatGPT 引起了兴奋和争议,因为它是首批可以令人信服地用英语和其他语言就广泛话题与用户交谈的模型之一。它是免费的,易于使用并且可以继续学习。

这项技术对科学和社会产生了深远的影响。研究人员和其他人已经使用 ChatGPT 和其他大型语言模型来撰写论文和演讲、总结文献、起草和改进论文,以及确定研究差距和编写计算机代码,包括统计分析。很快,这项技术将发展到可以设计实验、撰写和完成手稿、进行同行评审以及支持编辑决定接受或拒绝手稿的程度。

会话式 AI 可能会彻底改变研究实践和出版,从而创造机会和担忧。它可能会加速创新过程,缩短出版时间,并通过帮助人们流利地写作,使科学更加公平,增加科学观点的多样性。然而,它也可能降低研究的质量和透明度,并从根本上改变我们作为人类研究人员的自主权。 ChatGPT 和其他 LLM 生成的文本令人信服,但往往是错误的,因此使用它们会歪曲科学事实并传播错误信息。

我们认为使用这项技术是不可避免的,因此,禁止它是行不通的。研究界必须就这种潜在的颠覆性技术的影响展开辩论。在这里,我们概述了五个关键问题并建议从哪里开始:

1. 坚持人工验证

LLMs已经发展多年,但数据集质量和规模的不断提高,以及利用人类反馈校准这些模型的复杂方法,突然使它们比以前强大得多。LLMs将催生新一代搜索引擎,能够针对复杂的用户问题提供详细且信息丰富的答案。

但是,将对话式 AI 用于专门研究可能会导致不准确、偏见和剽窃。我们向 ChatGPT 提出了一系列问题和作业,这些问题和作业需要深入了解文献,并发现它经常生成虚假和误导性的文本。例如,当我们问“有多少抑郁症患者在治疗后复发?”时,它生成了一个过于笼统的文本,认为治疗效果通常是持久的。然而,大量高质量的研究表明,治疗效果会减弱,并且在治疗完成后的第一年,复发风险从 29% 到 51% 不等。重复相同的查询会生成更详细和准确的答案。 接下来,我们要求 ChatGPT 总结我们两人在 JAMA Psychiatry 上撰写的关于认知行为疗法 (CBT) 对焦虑相关障碍的有效性的系统评价。 ChatGPT 编造了一个令人信服的回应,其中包含几个事实错误、虚假陈述和错误数据。例如,它说该评论基于 46 项研究(实际上是基于 69 项研究),更令人担忧的是,它夸大了 CBT 的有效性。

此类错误可能是由于 ChatGPT 的训练集中缺少相关文章、未能提炼相关信息或无法区分可信来源和不可信来源。似乎经常导致人类误入歧途的相同偏见,例如可用性、选择和确认偏见,在会话 AI 中被复制甚至经常被放大。

使用 ChatGPT 的研究人员可能会被虚假或有偏见的信息误导,并将其纳入他们的思想和论文中。由于光环效应,粗心的审稿人可能会被 AI 撰写的优美、权威的散文蒙骗,倾向于从一些显着的积极印象中过度概括 。而且,由于这项技术通常在不可靠地引用原始来源或作者的情况下复制文本,因此使用它的研究人员有可能不承认早期的工作,无意中剽窃大量未知文本,甚至可能泄露他们自己的想法。研究人员向 ChatGPT 和其他 LLM 透露的信息可能会被纳入模型,聊天机器人可以在不承认原始来源的情况下为其他人提供这些信息。

假设研究人员在工作中使用 LLM,学者们需要保持警惕。专家驱动的事实核查和验证过程将是不可或缺的。即使 LLM 能够准确地加快总结、评估和审查,高质量的期刊也可能决定包括人工验证步骤,甚至禁止使用该技术的某些应用程序。为了防止人类自动化偏差——过度依赖自动化系统——强调问责制的重要性将变得更加重要。我们认为人类应该始终对科学实践负责。

2. 制定问责制规则

已经有工具可以预测文本来自机器或人类的可能性。此类工具可用于检测造纸厂和掠夺性期刊不可避免地使用 LLM 来制造内容,但此类检测方法很可能会被进化的 AI 技术和巧妙的提示所规避。我们认为研究社区和出版商应该研究如何以诚信、透明和诚实的方式使用 LLM,而不是在 AI 聊天机器人和 AI 聊天机器人检测器之间进行一场徒劳的军备竞赛。

研究论文中的作者贡献声明和致谢应清楚具体地说明作者是否以及在何种程度上使用了 ChatGPT 等人工智能技术来准备他们的手稿和分析。他们还应该指出使用了哪些 LLM。这将提醒编辑和审稿人更仔细地审查手稿,以发现潜在的偏见、不准确和不正确的来源来源。同样,科学期刊应该对 LLM 的使用保持透明,例如在选择提交的手稿时。 研究机构、出版商和资助者应采取明确的政策,提高人们对使用对话式 AI 准备所有可能成为已发表记录一部分的材料的认识,并要求其透明度。出版商可以要求作者证明遵守了这些政策。

目前,LLMs不应该是手稿的作者,因为他们不能对自己的工作负责。但是,研究人员可能越来越难以确定 LLMs 在他们研究中的确切作用。在某些情况下,ChatGPT 等技术可能会根据作者的提示生成手稿的重要部分。在其他情况下,作者可能已经使用 AI 作为语法或拼写检查器进行了多次修订和改进,但没有使用它来编写文本。未来,LLM 很可能被纳入文本处理和编辑工具、搜索引擎和编程工具中。因此,他们可能会在作者不一定了解贡献的性质或规模的情况下为科学工作做出贡献。这违背了当今对作者身份、剽窃和来源的二元定义,其中某人要么是作者,要么不是,要么使用了来源,要么没有使用。政策将不得不调整,但完全透明始终是关键。 AI 设计的发明已经引发了对专利法的根本性反思,并且针对用于训练 AI 的代码和图像以及由 AI 生成的代码和图像的版权提起了诉讼(参见 go.nature.com/3y4aery)。对于 AI 撰写或辅助的手稿,研究和法律界还需要确定谁拥有文本的权利。是编写 AI 系统训练文本的个人、生产 AI 的公司还是使用该系统指导他们写作的科学家?同样,必须考虑和定义作者身份的定义。

3. 投资于真正开放的LLMs

目前,几乎所有最先进的对话式人工智能技术都是少数拥有人工智能开发资源的大型科技公司的专有产品。 OpenAI 主要由微软资助,其他主要科技公司也在竞相发布类似的工具。鉴于少数科技公司在搜索、文字处理和信息访问方面近乎垄断,这引发了相当大的道德问题。 研究界最紧迫的问题之一是缺乏透明度。 ChatGPT 及其前身的基础训练集和 LLM 不公开,科技公司可能会隐藏其对话式 AI 的内部工作原理。这违背了向透明和开放科学迈进的步伐,并且很难发现聊天机器人知识的来源或差距 。例如,我们提示 ChatGPT 来解释几位研究人员的工作。在某些情况下,它对根据 h 指数(一种衡量工作影响力的方法)被认为影响较小的科学家进行了详细描述。尽管它对一组 h 指数约为 20 的研究人员取得了成功,但它未能生成任何关于几位被高度引用和知名科学家的工作的信息——即使是那些 h 指数超过 80 的科学家。

为了消除这种不透明性,应优先开发和实施开源 AI 技术。大学等非商业组织通常缺乏跟上 LLM 快速发展步伐所需的计算和财务资源。因此,我们提倡科学资助组织、大学、非政府组织 (NGO)、政府研究机构和联合国等组织——以及科技巨头——对独立的非营利项目进行大量投资。这将有助于开发先进的开源、透明和民主控制的人工智能技术。 批评者可能会说这样的合作无法与大型科技公司相抗衡,但至少一个主要是学术合作的 BigScience 已经建立了一个开源语言模型,称为 BLOOM。科技公司可能会通过开源其模型和语料库的相关部分来从这样的计划中受益,以期创造更大的社区参与度,促进创新和可靠性。学术出版商应确保LLMs能够访问他们的完整档案,以便模型产生准确和全面的结果。

4. 拥抱人工智能的好处

随着学术界工作量和竞争的增加,使用对话式 AI 的压力也越来越大。聊天机器人提供了快速完成任务的机会,从努力完成论文的博士生到需要对其资助申请进行快速文献审查的研究人员,或者在时间压力下提交分析的同行评审员。

如果 AI 聊天机器人可以帮助完成这些任务,则可以更快地发布结果,从而使学者有更多时间专注于新的实验设计。这可以显着加速创新,并有可能导致许多学科的突破。我们认为这项技术具有巨大的潜力,前提是解决了当前与偏见、出处和不准确相关的初期问题。重要的是检查和提高 LLMs 的有效性和可靠性,以便研究人员知道如何明智地使用该技术进行特定的研究实践。

一些人认为,由于聊天机器人只是学习训练集中单词之间的统计关联,而不是理解它们的含义,LLM 将永远只能回忆和综合人们已经做过的事情,而不会展示科学过程中人性化的方面,例如创造性和概念思维。我们认为这是一个不成熟的假设,未来的人工智能工具可能能够掌握科学过程中今天似乎遥不可及的方面。在 1991 年的一篇开创性论文中,研究人员写道,人与智能技术之间的“智能合作伙伴关系”可以胜过单独的人的智力 11。这些智能合作伙伴关系可能会超越人类的能力,并将创新加速到以前无法想象的水平。问题是自动化能走多远,应该走多远?

人工智能技术可能会重新平衡学术技能组合。一方面,人工智能可以优化学术培训——例如,通过提供反馈来提高学生的写作和推理能力。另一方面,它可能会减少对某些技能的需求,例如进行文献检索的能力。它还可能引入新技能,例如提示工程(设计和制作用于提示会话 AI 模型的文本的过程)。某些技能的丧失不一定是问题(例如,大多数研究人员不再手动进行统计分析),但作为一个社区,我们需要仔细考虑哪些学术技能和特征对研究人员仍然至关重要。

如果我们只关心性能,那么随着 AI 技术的进步,人们的贡献可能会变得更加有限和模糊。未来,AI 聊天机器人可能会生成假设、开发方法、创建实验、分析和解释数据以及撰写手稿。代替人类编辑和审稿人,人工智能聊天机器人也可以评估和审阅文章。尽管我们距离这种情况还有一段距离,但毫无疑问,对话式 AI 技术将越来越多地影响科学出版过程的各个阶段。

因此,包括伦理学家在内的学者们必须就人工智能的使用创造潜在的知识生成加速与研究过程中人类潜能和自主权的丧失之间的权衡进行辩论。人们的创造力和独创性、教育、培训以及与他人的富有成效的互动对于开展相关和创新研究可能仍然至关重要。

5. 扩大辩论

鉴于 LLMs 的颠覆性潜力,研究界需要组织一场紧迫而广泛的辩论。首先,我们建议每个研究小组立即开会讨论并亲自尝试 ChatGPT(如果他们还没有的话)。教育工作者应该与本科生讨论它的用途和道德规范。在这个早期阶段,在没有任何外部规则的情况下,负责的小组领导和教师确定如何以诚实、正直和透明的方式使用它并就一些参与规则达成一致是很重要的。应提醒研究的所有贡献者,他们将对自己的工作负责,无论其是否由 ChatGPT 生成。每个作者都应该负责仔细核查他们的文本、结果、数据、代码和参考文献。

其次,我们呼吁立即召开一个持续的国际论坛,讨论发展和负责任地使用 LLM 进行研究。作为第一步,我们建议为相关利益相关者召开一次峰会,包括不同学科的科学家、科技公司、大型研究资助者、科学院、出版商、非政府组织以及隐私和法律专家。已经组织了类似的峰会来讨论和制定应对其他破坏性技术(例如人类基因编辑)的指南。理想情况下,这种讨论应该为所有相关方提供快速、具体的建议和政策。我们提供了一份可以在本次论坛上讨论的问题的非详尽清单(参见“辩论问题”)。

要解决的一个关键问题是对研究中多样性和不平等的影响。LLMs可能是一把双刃剑。它们可以帮助创造公平的竞争环境,例如消除语言障碍并使更多人能够编写高质量的文本。但可能的是,与大多数创新一样,高收入国家和享有特权的研究人员将很快找到利用 LLMs 的方法,以加速他们自己的研究并扩大不平等。因此,重要的是,辩论要包括来自研究中代表性不足的群体和受研究影响的社区的人,以将人们的生活经历作为重要资源。

与社会的许多其他领域类似,科学现在面临着人工智能技术引发的清算,侵犯了其最珍视的价值观、实践和标准。重点应该放在把握机遇和管理风险上。我们相信,科学将找到一种方法,从对话式 AI 中获益,同时不会失去许多重要方面,这些方面使科学工作成为最深刻和最令人满意的事业之一:好奇心、想象力和发现。

辩论问题

在有关对话式 AI 的论坛上讨论的问题。

• 哪些研究任务应该或不应该外包给大型语言模型(LLM)?

• 哪些学术技能和特征对研究人员仍然至关重要?

• 人工智能辅助研究过程中的哪些步骤需要人工验证?

• 应如何改变研究诚信和其他政策以解决LLMs问题?

• LLMs应如何纳入研究人员的教育和培训?

• 研究人员和资助者如何帮助开发独立的开源LLMs并确保模型准确地代表科学知识?

• LLM 应达到什么样的质量标准(例如,透明度、准确性、偏见和来源信用)以及哪些利益相关者对标准和 LLMs 负责?

• 研究人员如何确保LLMs促进研究公平,并避免扩大不公平的风险?

• 应如何使用LLMs来加强开放科学的原则?

• LLMs对科学实践有什么法律影响(例如,与专利、版权和所有权相关的法律法规)?

本文转译自nature最新comment:

仅供参考和讨论。

Leave a Reply

Your email address will not be published. Required fields are marked *