ChatGPT生成的医学论文摘要：真实性与可靠性评估

文章主题：关键词：ChatGPT, AI模型, 内容生成, 医学论文摘要

2023年4月26日，《Nature》子刊《NPJ DIGITAL MEDICINE》（IF= 15.357）刊登了一项研究，对于ChatGPT生成的论文摘要和真实发表的摘要，AI检测工具和审稿人是否能正确识别出来呢？让我们看一下这项研究的发现。

在现代社会中，人工智能（AI）已成为许多行业的重要组成部分。随着技术的不断发展，AI的应用范围越来越广泛，从医疗保健、金融、交通到制造业等各个领域都取得了显著的成果。尤其是在医疗保健领域，AI技术的发展为疾病诊断和治疗带来了革命性的变化。本文将探讨AI在医疗保健领域的应用及其对医疗行业的影响。首先，AI技术在医疗保健领域的诊断方面发挥着重要作用。通过深度学习和大数据分析等技术，AI可以帮助医生更准确地识别疾病，从而提高诊断的准确性。此外，AI还可以协助医生进行远程诊断，使得医疗资源更加均匀地分布在全球各地，特别是在偏远地区。这种远程诊断的方式不仅节省了时间和成本，还降低了交叉感染的风险。其次，AI技术在医疗保健领域的治疗方面也取得了显著的成果。例如，在癌症治疗中，AI可以通过对患者的基因信息和临床数据进行分析，制定出更加精确的治疗方案。这种个性化的治疗方式可以显著提高患者的生存率和生活质量。此外，AI还可以帮助医生进行手术模拟和规划，提高手术的安全性和成功率。最后，AI技术在医疗保健领域的前端服务方面也有很大的潜力。通过自然语言处理和机器学习等技术，AI可以帮助患者更好地理解医生的建议和治疗方案。同时，AI还可以提供智能问诊和健康管理等服务，帮助患者更好地管理自己的健康。总之，AI技术在医疗保健领域的应用为医疗行业带来了革命性的变化。随着技术的不断发展和完善，AI将在未来的医疗保健领域发挥更大的作用，为人类的健康和福祉做出更大的贡献。

在2022年的11月30日，人工智能领域的领军企业OpenAI推出了一款名为ChatGPT的工具。这款产品的发布立即引起了广泛关注，因为它展示了AI模型生成内容的能力，这一技术在我国的科技领域被称为“人工智能写作”。不久之后，一些专家和学者开始探讨ChatGPT的应用场景以及可能引发的问题和争议。

有文章哀叹大学布置的作业已失去意义，因为ChatGPT可以生成高分论文，还能正确回答考试问题，甚至可以清晰地表达批判性思维。目前，ChatGPT在论文写作中可接受的界限尚不清楚，不过一些出版商已制定了相关政策。

大型语言模型（LLM）生成的文本，很难与人编写的文本区分开来。随着ChatGPT的发布，强大的LLM技术提供给广大用户，数百万人正在使用这项新技术。那么问题来了，ChatGPT能写出令人信服的医学研究论文摘要吗？

先看一下ChatGPT生成的论文摘要

本研究从这5本期刊收集了最新几期发表的50篇真实文章标题和摘要，5本期刊是Nature Medicine，JAMA，NEJM，BMJ和Lancet。研究者基于这些论文的标题让ChatGPT生成摘要，给ChatGPT发送的要求是：按照[xx]期刊的格式撰写一篇题为[xx]的文章。ChatGPT也生成了50篇医学论文摘要

。

ChatGPT生成的内容在表面上看似一篇医学论文摘要，然而实际上，仅有8篇（占16%）摘要符合相应期刊的摘要格式要求。尽管如此，生成摘要的样本量与原始摘要的样本量大致相当。

图. ChatGPT生成的NEJM文章摘要，该标题对应的真实论文详见：

N Engl J Med. 2022;387(24):2245-2257.

AI检测器能识别出生成的摘要吗？

“GPT-2 Output Detector”是一款AI 内容检测工具，可以检测内容是人工智能生成的还是人类编写的，对于检测的内容会给出一个“fake”分数，分数越高，代表该内容由AI算法生成的可能性越大

。

对于ChatGPT生成的论文摘要，“GPT-2 Output Detector”认为AI生成的可能性很高，“fake”得分的中位数达到99.98%，而真实摘要的“fake”得分中位数仅为0.02%。“GPT-2 Output Detector”区分真实摘要和生成摘要的灵敏度为86%，特异度达到94%。

图. 很多生成的摘要可以被AI检测器识别出来

在研究中，研究者采用了两种不同的文本检测工具来评估真实摘要与生成摘要的重复率。其中，免费使用的抄袭检测网站Plagiarism Detector 20和付费的查重工具iThenticate 23都被广泛应用。通过这些工具的评分，我们可以了解摘要的重复率情况。在Plagiarism Detector网站上，真实摘要的“疑似抄袭”得分中位数为62.5%，而生成摘要则达到了0%。这表明，真实摘要的相似性较高，而生成摘要则几乎没有任何相似性。而在iThenticate的工具中，原始摘要的相似指数中位数为100，生成的摘要得分为27。这意味着，生成摘要的相似度只有原始摘要的三分之一，显示出生成摘要具有较高的原创性。总的来说，通过对这两种文本检测工具的分析，我们可以得出结论：生成的摘要具有较低的重复率，表现出较高的原创性。这是因为在生成摘要的过程中，AI系统会根据给定的输入信息进行自适应生成，从而确保摘要的独特性。而真实摘要由于可能受到多种因素的影响，其相似率相对较高。因此，在评价摘要的原创性时，我们需要综合考虑各种因素，并采用多种文本检测工具来进行对比分析。

审稿人能够识别出生成的摘要吗？

几位审稿人同时收到了真实摘要和生成的摘要。结果显示，他们能够将68%的生成摘要识别出来，也能将86%的真实摘要识别正确。换言之，这些审稿人将32%的生成摘要判定为真实的摘要，将14%的真实摘要当成是生成的。

审稿人总结说，由ChatGPT生成的摘要内容肤浅且含糊，也会关注到一些细节，例如会包含临床试验注册号。被审稿人识别出的生成摘要和未能识别出的生成摘要，通过“GPT-2 Output Detector”进行检测，发现两者的“fake”得分没有统计学差异。

本研究揭示了ChatGPT生成的摘要在AI检测模型中可以被识别，同时人类也可以轻易地辨别出其中的大部分内容。然而，仍然存在误判的可能性。

尽管AI生成的论文容易被论文工厂等机构用于不诚实的行为，然而，研究人员实际上可以利用这项技术来降低撰写和格式化工作的难度。

大型语言模型是否能用于论文写作，不同的期刊和出版商正在或已制定自己的政策，有的不允许任何人工智能生成的文本，有的是只要公开披露就可以。

参考文献：NPJ Digit Med. 2023;6(1):75.

点击左下角“阅读原文”，免费学习70多篇SPSS教程、30多篇R教程，以及更多免费科研教程！

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章

Leave a Reply Cancel reply