ChatGPT于一年前问世,AI话题热度至今未退。有人叹谓新兴科技,也有人关心技术和自身有什么关系。在Nature近日发布的一项样本为1659人的调查中,有超过半数受访者认为目前AI在科研中的可施展之处在于为非英语母语者作文章润色及翻译。

而在ChatGPT之前,市面上不乏以人工智能驱动的翻译、润色工具。作为学术出版从业者,我们及用户最关心的问题不外乎:AI润色质量如何;能否取代人;哪款工具最好用。

本文带着祛魅的目的对四款AI工具作了测评,希望能解答以上问题。愿你看过之后善用科技,不因未知而仰望,也无谓傲慢贬损。鉴于出版界目前对AI生成的文字持保守态度,许多期刊、基金、协学会不接受以机器撰写内容投稿,我们仅将测评范围划定在语言润色功能内。

统计标准定义

本测评以一段约600字的研究型论文为样本,分别经四款AI工具润色语言,另外引入人工润色结果作为对照。

将人工润色纳入对比,一来是模拟科研作者先用AI润色再自行校对的过程;再则是出于学术道德考量,表明学术文章的署名作者可以借助工具完善内容,却也应明确对工具作业结果负责的立场。

*样本文章为中文母语者撰写,英语是其第二语言。测评前作者已知情同意,原文可见参考文献。

本测评以人工编辑润色结果为标准,判断AI工具的语言编辑效果,评估指标如下:

改对:即工具修改结果与人工编辑改动一致。

改错:即工具修改结果与人工编辑改动不同,且含语法错误。

未改:即工具未识别出人工编辑作出的改动。

改进:即工具识别出人工编辑遗漏的错误。

无明显对错:即工具修改结果与人工编辑改动尽管不同,但语法正确,仅涉及语言风格、措辞等变化。

编辑效果之改了多少

在深入至“AI能改到什么程度”问题之前,不妨先看看改写量。

l Grammarly未识别出的错误最多,不过但凡有改动都校正准确;

l Paperpal识别出了所有问题,改对数最多;

l QuillBot遗漏了超过半数的错误,在29处改动中仍有1处改错;

l ChatGPT的改动总数最多,但改错率也最高。有超过一半的改动无明显对错,这是因为ChatGPT对文章的改写程度高,至于是好是坏下文还会展开。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

Leave a Reply

Your email address will not be published. Required fields are marked *