ChatGPT在美国放射学委员会考试中的表现引关注：潜力与局限性并存

文章主题：科技, 加拿大, ChatGPT

科技日报记者刘霞

在本周六出版的《放射学》杂志上，一项来自加拿大的研究成果引人关注。研究者们报告，最新版本的ChatGPT成功通过了美国放射学委员会的质量评估，这无疑揭示了大型语言模型在医疗领域的巨大潜力。然而，该研究同时也指出，ChatGPT在某些问题上给出了错误的答案，这提醒我们，在依赖这些模型提供信息时，仍需进行人工审核和校对。

图片来源：物理学家组织网

ChatGPT是一款由OpenAI开发的先进AI聊天机器人，其运作原理是基于大量的训练数据，通过运用深度学习模型来挖掘词汇间的规律与联系。基于此技术，ChatGPT能够生成类似于人类的语言反应，这种功能使其在谷歌、必应等知名搜索引擎中得到了应用，同时也被医生和患者用于查找医疗信息。然而，由于所依赖的数据源可能并非完全可信，因此有时候ChatGPT给出的答案可能会与实际情况有所出入。

为深入评价ChatGPT在美国放射学委员会考试中的性能及其实用价值，多伦多大学的拉杰什·哈瓦那博士及其团队首先对其进行了基于GPT-3.5技术的ChatGPT能力进行测试。本次测试共采用了150道题目，其风格、内容和难度均与加拿大皇家学院以及美国放射学委员会的考试相仿。值得注意的是，这些题目并未包含任何图像，主要分为两大类别：低阶思维问题，包括知识回忆和基本理解；以及高阶思维问题，涉及应用、分析、综合等多方面的能力。其中，高阶思维问题又可以进一步细化为影像学表现描述、临床管理、计算和分类、疾病关联等具体方面。

在一项针对自然语言处理模型的研究中，科学家们对两种不同的模型进行了比较，这两种模型分别是基于GPT-3.5的ChatGPT和GPT-4。研究发现，ChatGPT的准确率达到了令人满意的69%，几乎达到了及格线的70%。然而，当面临更高层次的思维问题时，其准确率下降到60%，相比之下，表现更好的GPT-4在处理低阶思维问题时准确率达到84%，但在面对高阶思维问题时准确率仅为81%。尽管GPT-4的表现更为突出，其在低阶思维问题上的准确率却略低于GPT-3.5，答错了12道题，而GPT-3.5则全部正确。这一结果引发了研究团队对GPT-4收集信息可靠性的质疑。

两份研究报告均指出，ChatGPT存在提供错误答案的潜在风险。若仅依赖其获取信息，将面临极大风险。原因在于，人们可能未能意识到其提供的答案并不准确，这也是ChatGPT目前所面临的最大挑战。然而，在当前阶段，ChatGPT的最佳应用场景为激发创意、协助撰写数据摘要，而在快速信息检索方面，需对它所提供的事实性答案进行核验。

（来源：科技日报）

更多精彩资讯请在应用市场下载“极目新闻”客户端，未经授权请勿转载，欢迎提供新闻线索，一经采纳即付报酬。24小时报料热线027-86777777。

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章

Leave a Reply Cancel reply