我们对ChatGPT、必应AI和谷歌翻译进行了测试,要求精通七种非英语语言的人将ChatGPT的结果与谷歌翻译的结果进行比较。 有了谷歌翻译,将任何句子转换成100多种语言都是轻而易举的事,但任何经常使用它的人都知道它还有改进的空间。 从理论上讲,像ChatGPT这样的大型语言模型(llm)应该会引领语言翻译的下一个时代。它们消耗大量基于文本的训练数据,再加上来自世界各地数百万用户的实时反馈,并迅速学会如何用连贯的、类似人类的句子“说”各种语言。 但我们以前也听过“ChatGPT将取代一切”的论调,结果发现这往往是不准确的——这是翻译中最糟糕的情况。“我们目前还没有实证结果支持爱聊天的法学硕士在翻译中表现更好的说法,”拥抱脸公司的研究负责人纳兹尼恩·拉贾尼说,该公司是基于人工智能的拥抱聊天软件的制造商。 因此,我们决定对ChatGPT进行测试。它是否有能力取代谷歌翻译,成为旅游、工作、跨境浪漫和任何其他语言需求的首选翻译服务?和它的姐妹ChatGPT微软必应和谷歌Bard相比,它又如何呢? 测试方法和语言 我们请会说七种语言的双语者做盲测。他们都是说非英语的语言长大的,现在生活在美国和/或在美国公司工作。 给他们一段英文,他们用谷歌翻译、ChatGPT和微软必应对翻译后的英文进行排名。一旦他们完成了这个练习,我们就会告诉他们是哪个服务产生了某个问题。 测试语言:波兰语,法语,韩语,西班牙语,阿拉伯语,他加禄语,阿姆哈拉语翻译服务:Google Translate, Google Bard, ChatGPT, Microsoft Bing 这绝不是一项全面的研究。”请认为小规模的盲测是不够的;人工智能行业资深人士费德里科·帕斯夸尔表示:“需要更严格的测试来正确评估和比较这些具有统计意义的工具。”尽管如此,结果出人意料地一致,为人工智能模型的工作原理提供了一个迷人的视角。 创建一个段落翻译 在选定语言和人工智能模型后,我们用英语编写了一些段落,以揭示每种服务的翻译能力的局限性。第一个包括两个棘手的口语:“Blow off steam”,意思是在紧张的一天后放松一下,“Cheers!”意思是“谢谢!”它还有两个需要在现实场景中转换的度量:美元(美元)和英里(而不是公里)。 Paragraph 1 – “Hello! Do you speak English? I need some help with directions. I am trying to find a vegetarian restaurant because my sister does...