AI润色效果几何,这里有四款工具的综合测评
ChatGPT于一年前问世,AI话题热度至今未退。有人叹谓新兴科技,也有人关心技术和自身有什么关系。在Nature近日发布的一项样本为1659人的调查中,有超过半数受访者认为目前AI在科研中的可施展之处在于为非英语母语者作文章润色及翻译。 而在ChatGPT之前,市面上不乏以人工智能驱动的翻译、润色工具。作为学术出版从业者,我们及用户最关心的问题不外乎:AI润色质量如何;能否取代人;哪款工具最好用。 本文带着祛魅的目的对四款AI工具作了测评,希望能解答以上问题。愿你看过之后善用科技,不因未知而仰望,也无谓傲慢贬损。鉴于出版界目前对AI生成的文字持保守态度,许多期刊、基金、协学会不接受以机器撰写内容投稿,我们仅将测评范围划定在语言润色功能内。 统计标准定义 本测评以一段约600字的研究型论文为样本,分别经四款AI工具润色语言,另外引入人工润色结果作为对照。 将人工润色纳入对比,一来是模拟科研作者先用AI润色再自行校对的过程;再则是出于学术道德考量,表明学术文章的署名作者可以借助工具完善内容,却也应明确对工具作业结果负责的立场。 *样本文章为中文母语者撰写,英语是其第二语言。测评前作者已知情同意,原文可见参考文献。 本测评以人工编辑润色结果为标准,判断AI工具的语言编辑效果,评估指标如下: 改对:即工具修改结果与人工编辑改动一致。 改错:即工具修改结果与人工编辑改动不同,且含语法错误。 未改:即工具未识别出人工编辑作出的改动。 改进:即工具识别出人工编辑遗漏的错误。 无明显对错:即工具修改结果与人工编辑改动尽管不同,但语法正确,仅涉及语言风格、措辞等变化。 编辑效果之改了多少 在深入至“AI能改到什么程度”问题之前,不妨先看看改写量。 l Grammarly未识别出的错误最多,不过但凡有改动都校正准确; l Paperpal识别出了所有问题,改对数最多; l QuillBot遗漏了超过半数的错误,在29处改动中仍有1处改错; l ChatGPT的改动总数最多,但改错率也最高。有超过一半的改动无明显对错,这是因为ChatGPT对文章的改写程度高,至于是好是坏下文还会展开。