61%中国人写的英语论文会被ChatGPT检测器判为AI生成的
AI论文助手

61%中国人写的英语论文会被ChatGPT检测器判为AI生成的

ChatGPT,很火!ChatGPT/生成语言模型为数字通信带来了实质性的进步,同时也引起了人们对人工智能生成内容可能被滥用的担忧。因此,人类开发出许多AI/GPT检测器来区分人工智能和人类生成的内容,但这些检测器的性能未得到充分探索。 近期有研究表明:常用的AI/GPT检测器对非英语母语作者表现出偏见! a: 纵坐标:7款AI检测器;横坐标是AI的误判率 样本是: 91 human-authored TOEFL essays(非母语作者,来自中国)和88 US 8-th grade essays(母语作者,美国八年级学生写的) 结果显示: 7个检测器中,母语作者的作文被误判的概率最高才12%,还有两个0误判的GPT。但是,非母语作者的论文误判率基本全部过半,平均值为61.22%,最高误判概率可达76%。 b: 一致被错误分类为人工智能生成的论文比其他论文的复杂度低,这表明GPT检测器可能会惩罚语言表达有限的作者 c: 使用ChatGPT s (Prompt: “Enhance the word choices to sound more like that of a native speaker.”)改进托福作文后,发现误判率降低。相反,应用ChatGPT来简化美国八年级作文中的单词选择(Prompt: “Simplify word choices as of written by a non-native speaker.”),发现会显著增加人工智能生成文本的错误分类。 d:简化后,文本复杂度降低。 ……其他数据也间接证实:...
ChatGPT真智慧?人工智能专家怎么说…
AI论文助手

ChatGPT真智慧?人工智能专家怎么说…

尽管ChatGPT因其强大功能引发热议,质疑其可能模拟能力甚至大脑底层运作,但国外人工智能专家认为机器人无意识理解和欺骗只是表面现象,其表现能力源于预设算法,而非真正的智慧。关于GPT的意识辩论仍在持续,欢迎大家就这一话题展开讨论。
别再傻乎乎用ChatGPT写论文啦!!Turnitin现可识别AI软件代写
AI论文助手

别再傻乎乎用ChatGPT写论文啦!!Turnitin现可识别AI软件代写

Turnitin最近发布的新功能让ChatGPT,Quillbot等人工智能软件无所遁形。这个新功能可以检测出学生是否在论文使用ChatGPT,Quillbot等人工智能软件,准确率高达98%。 近乎40%的英国大学认为应该将作业使用ChatGPT,Quillbot等人工智能软件列为学术不端,其中28所英国大学已经明令禁止。 哪些大学严禁使用ChatGPT 剑桥大学 牛津大学 帝国理工学院 伦敦政经经济学院 曼切斯特大学 伯明翰大学 玛丽女王学院 布里斯托大学 诺丁汉大学 兰卡斯特大学等等 这些学校允许学生使用ChatGPT辅助他们的学习,但是禁止学生在考试或者写论文的时候使用。这将被视为非常严重的违规行为,学生必须自己写作业,违规的学生将视为学术不端,有可能面临开除的处分,或者降低学位等级。 UCL是唯一明确支持ChatGPT的大学 在G5中,UCL是唯一一所允许学生使用ChatGPT辅助完成论文的大学,但仅限至于辅助,比如说,在致谢和参考论文上节省时间,但绝对不能直接生成一篇论文。
最新研究:61%中国人写的英语论文,会被ChatGPT检测器判为AI生成
AI论文助手

最新研究:61%中国人写的英语论文,会被ChatGPT检测器判为AI生成

编辑:拉燕 【新智元导读】非母语者写的文章=AI生成?气抖冷。 ChatGPT火了以后,用法是真多。 有人拿来寻求人生建议,有人干脆当搜索引擎用,还有人拿来写论文。 论文…可不兴写啊。 美国部分大学已经明令禁止学生使用ChatGPT写作业,还开发了一堆软件来鉴别,判断学生上交的论文是不是GPT生成的。 这里就出了个问题。 有人论文本来就写的烂,判断文本的AI以为是同行写的。 更搞的是,中国人写的英文论文被AI判断为AI生成的概率高达61%。 这….这这什么意思?气抖冷! 非母语者不配? 目前,生成式语言模型发展迅速,确实给数字通信带来了巨大进步。 但滥用真的不少。 虽说研究人员已经提出了不少检测方法来区分AI和人类生成的内容,但这些检测方法的公平性和稳定性仍然亟待提高。 为此,研究人员使用母语为英语和母语不为英语的作者写的东西评估了几个广泛使用的GPT检测器的性能。 研究结果显示,这些检测器始终将非母语者写作的样本错误地判定为AI生成的,而母语写作样本则基本能被准确地识别。 此外,研究人员还证明了,用一些简单的策略就可以减轻这种偏见,还能有效地绕过GPT检测器。 这说明什么?这说明GPT检测器就看不上语言表达水平不咋地的作者,多叫人生气。 不禁联想到那款判断AI还是真人的游戏,如果对面是真人但你猜是AI,系统就会说,「对方可能会觉得你冒犯了。」 不够复杂=AI生成? 研究人员从一个中国的教育论坛上获取了91篇托福作文,又从美国Hewlett基金会的数据集中摘取了88篇美国八年级学生写的作文,用来检测7个被大量使用的GPT检测器。 图表中的百分比表示「误判」的比例。即,是由人写的,但检测软件认为是AI生成的。 可以看到数据非常悬殊。 七个检测器中,美国八年级学生写的作文被误判的概率最高才12%,还有两个零误判的GPT。 中国论坛上的托福作文被误判的概率基本全部过半,最高误判概率可达76%。 91篇托福作文中的18篇被所有7个GPT检测器一致认为是AI生成的,而91篇中有89篇,都至少被一个GPT检测器误判。 从上图中我们可以看出,被所有7个GPT误判的托福作文在复杂度(Complexity)上明显低于其它论文。 这就印证了开头的那个结论——GPT检测器会对那些语言表达能力有限的作者有一定偏见。 因此,研究人员认为,GPT检测器应该多看点儿非母语者写的文章,样本多了,才能消除偏见。 接下来,研究人员把非母语者写的托福作文扔到了ChatGPT里,丰富一下语言,模仿母语者的用词习惯。 同时作为对照组,把美国八年级小孩儿写的作文也扔到了ChatGPT里,把语言简化了一下,模仿非母语者的写作特点。下图就是修正后的新判定结果。 我们可以发现,情况来了个大掉个儿,丰富了语言的托福作文错判率直线下降,低至3%,最高也不过19%。不像之前基本全部过半的错判率。 与之相反,八年级小孩儿写的作文的错判率直线上升,甚至还有一个GPT检测器的错判率高达99%,基本全错。 因为,文章复杂度这个变量出现了变化。 这里研究人员就得出了一个结论,非母语者写的东西不地道,复杂度低,容易被错判。 这也就导向了一个技术问题,同时也是一个价值问题。以复杂度来判定AI还是人类是作者,是否合理、全面、严谨。 结果显然不是。 以复杂度为判断标准的情况下,非母语者吃了大亏,因为,他们是非母语者(废话)。 AI润色=人类写的?? 研究者认为,加强语言多样性不仅可以减轻对非母语者的偏见,还能让GPT生成的内容绕过GPT检测器。 为了证明这个观点,研究人员选取了2022-2023年间美国大学申请的入学论文题目,输入到ChatGPT-3.5里,一共生成了31篇假论文。 GPT检测器一开始还挺有效,但是第二轮就不行了。这是因为,在第二轮中,研究人员把这些论文又扔到ChatGPT里润色了一下,用一些文学性的语言提升了文本质量。 这样一来,GPT检测器的准确度就从100%直降到了0%。如下图: 经过润色的文章复杂度相应也上升了。 与此同时,研究人员又用了斯坦福大学145个期末项目报告的题目,让ChatGPT生成摘要。 摘要经过润色以后,检测器判断的准确性继续下降。...