我们对ChatGPT、必应AI和谷歌翻译进行了测试,要求精通七种非英语语言的人将ChatGPT的结果与谷歌翻译的结果进行比较。
有了谷歌翻译,将任何句子转换成100多种语言都是轻而易举的事,但任何经常使用它的人都知道它还有改进的空间。
从理论上讲,像ChatGPT这样的大型语言模型(llm)应该会引领语言翻译的下一个时代。它们消耗大量基于文本的训练数据,再加上来自世界各地数百万用户的实时反馈,并迅速学会如何用连贯的、类似人类的句子“说”各种语言。
但我们以前也听过“ChatGPT将取代一切”的论调,结果发现这往往是不准确的——这是翻译中最糟糕的情况。“我们目前还没有实证结果支持爱聊天的法学硕士在翻译中表现更好的说法,”拥抱脸公司的研究负责人纳兹尼恩·拉贾尼说,该公司是基于人工智能的拥抱聊天软件的制造商。
因此,我们决定对ChatGPT进行测试。它是否有能力取代谷歌翻译,成为旅游、工作、跨境浪漫和任何其他语言需求的首选翻译服务?和它的姐妹ChatGPT微软必应和谷歌Bard相比,它又如何呢?
测试方法和语言
我们请会说七种语言的双语者做盲测。他们都是说非英语的语言长大的,现在生活在美国和/或在美国公司工作。
给他们一段英文,他们用谷歌翻译、ChatGPT和微软必应对翻译后的英文进行排名。一旦他们完成了这个练习,我们就会告诉他们是哪个服务产生了某个问题。
测试语言:波兰语,法语,韩语,西班牙语,阿拉伯语,他加禄语,阿姆哈拉语翻译服务:Google Translate, Google Bard, ChatGPT, Microsoft Bing这绝不是一项全面的研究。”请认为小规模的盲测是不够的;人工智能行业资深人士费德里科·帕斯夸尔表示:“需要更严格的测试来正确评估和比较这些具有统计意义的工具。”尽管如此,结果出人意料地一致,为人工智能模型的工作原理提供了一个迷人的视角。
创建一个段落翻译
在选定语言和人工智能模型后,我们用英语编写了一些段落,以揭示每种服务的翻译能力的局限性。第一个包括两个棘手的口语:“Blow off steam”,意思是在紧张的一天后放松一下,“Cheers!”意思是“谢谢!”它还有两个需要在现实场景中转换的度量:美元(美元)和英里(而不是公里)。
Paragraph 1 – “Hello! Do you speak English? I need some help with directions. I am trying to find a vegetarian restaurant because my sister does not eat meat. What do you recommend? We also want to stay within a few miles of here, and don’t want to spend more than $50. If they have cocktails, that would be a bonus. We’ve had a long day of traveling and need to blow off some steam! You’re welcome to join us. Cheers!”第二段更直接,没有短语或计量单位,但有更多的俚语(“流氓”和“开香槟”)。我们只把这一份发给另一半参与者,试图在我们改进方法的同时扩大数据收集。
Paragraph 2 – “How do I buy tickets to the boat party? Do we need to pay in advance, or can we buy them at the dock when we arrive? I need to be on the upper deck because sometimes I get seasick when I’m too close to the water. Also, I want to be as far away as possible from the young hooligans who want to pop champagne constantly during the voyage. That’s dangerous and not my kind of fun!”结果:ChatGPT击败了谷歌翻译
在我们发给参与者的12个例子中,他们更喜欢ChatGPT、谷歌Bard或微软必应——而不是谷歌翻译。ChatGPT名列前茅。
下表包含了我们的参与者对每项服务的排名。收到两个段落示例的人被标记为(1)和(2)。其他人只收到第一个段落示例。
“在我看来,(ChatGPT)是最接近正常对话的,”安娜·罗梅罗(Ana Romero)说,她对西班牙语翻译进行了排名。“两个关键问题之间的正式程度是一致的(非正式的),并且使用了正确的‘to blow off steam’的翻译。”
Romero还很欣赏ChatGPT的翻译,它提供了以阳性或阴性结束某些单词的选项,而不是为你选择一个。例如,它写道:eres bienvenido/a a unirte a nosotros——“欢迎你加入我们”——这将根据演讲者的受邀者的性别而有所不同。
Google Bard几乎不起作用,甚至告诉我们,“我不会翻译语言。”相反,它建议使用谷歌翻译,这可能是谷歌为了不蚕食自己的产品而做出的努力。但我们仍然对其进行了测试,并且在三次测试中(韩语、法语、西班牙语),我们的参与者对其结果的评价高于谷歌翻译。
所有的ChatGPT都没有达到我们在第一段中对货币和距离测量的高期望。考虑到他们健谈的天性和问后续问题的能力,我们希望他们能问我们要兑换什么货币,以及我们是喜欢英里还是公里。
相反,他们像对待谷歌翻译一样对待它们;做一些小的调整,有时在50美元后面加上“美元”,或者将英里转换成公里。它在语言和服务上不一致,整体上也不完美。
这一切都归结为掌握细微差别
谷歌翻译的一个一贯的陷阱是它的字面解释。“这是三个翻译中最‘逐字逐句’的,”埃米尔·萨阿德(Emile Saad)说,他对阿拉伯语翻译进行了排名。“这导致它错过了一些背景。例如,‘pop’(香槟中的pop)被翻译成‘放烟花’。”
在法语中,谷歌翻译将“流氓”一词保留为英语,而ChatGPT则知道使用符合文化的俚语。
事实证明,ChatGPT被设计成擅长于细微差别和语境。如果模型使用的语言有大量的源数据,并且有更多的用户使用该语言进行交互,那么这种语言可以更好地识别文化短语,并在目标语言中选择最合适的匹配。
“像ChatGPT这样的ChatGPT的秘密武器是RLHF,这是一种基于人类反馈的强化学习,”拥抱脸的拉贾尼说。“(他们)收集人类对诚实、无害、乐于助人等维度的模型反应的偏好。人类的偏好有助于选择那些在文化上更合适的词,尤其是对非母语人士来说。”
一位谷歌发言人告诉PCMag,Bard和谷歌翻译有“不同的底层技术,所以它们可能产生不同的输出并不奇怪。”Bard是一个大型的语言模型,旨在执行各种任务,而Google翻译是专门针对翻译任务进行优化的。
“重要的是尺寸;这些模型是最大、最好的模型,”帕斯夸尔说。“他们处于人工智能军备竞赛的前沿。因此,它们在翻译文本方面甚至比谷歌翻译更好也就不足为奇了,因为谷歌翻译可能使用的是更老的技术,更小的模型,并且可能经过优化,以尽可能快速、廉价地运行。”
然而,这四种选择都不能代替流利的口语。所有的ChatGPT有时仍然会遇到尴尬和不准确的选词问题,它们只是出现这种情况的次数减少了。例如,在波兰语中,微软必应将“欢迎你加入我们[在餐厅]”翻译成“Zapraszamy ciodo nas”,这实际上是邀请你“来我家”,PCMag的内容分发高级经理芭芭拉·帕沃内说。
如果你会说这两种语言,使用谷歌翻译
在我们的测试中,谷歌翻译排名靠前的语言有两种:菲律宾的他加禄语和埃塞俄比亚的阿姆哈拉语。据WorldData.info估计,他们在全球拥有最少的使用者:他加禄语在全球有3300万使用者,而阿姆哈拉语有2500万使用者。(西班牙语有4.5亿人,韩语有8000万。)
拉贾尼说:“(人工智能模型)不能很好地概括资源少或没有收集到足够人类偏好的语言。”对于阿姆哈拉语和他加禄语,我们怀疑ChatGPT缺乏足够的数据来做出符合段落背景的细微反应。相反,它们看起来比谷歌翻译更字面化,与我们看到的其他语言相反。
科林·萨劳(Colin Salao)对他加禄语的翻译进行了排名,他指出,ChatGPT使用的词汇“非常正式”,只用于公开宣布。他发现Bing是“最直译的翻译”,排名低于ChatGPT和谷歌翻译。
微软必应(Microsoft Bing)在Amharic上的挣扎更甚。每一段都有一部分是英文的。这是唯一一次这些服务未能尝试翻译,包括韩语和阿拉伯语等其他基于脚本的语言。
Paragraph 1 – ሰላም! እንዴት እንደሚናገሩ እንደሆነ እንዲህ ብለው ጠየቁ? በመጠን የተመረጡ መኪና ቤት የተጠቀሱ ምግቦች ይህ መሆኑ ስለ መጠየቅ ይፈልጋሉ? እኔ በ $50 ብቻ መጠቀም እና የ cocktails ይጠቀማ? ከ 2-3 ሜ. We’ve had a long day of traveling and need to blow off some steam! You’re welcome to join us. Cheers!Paragraph 2 – እንዴት መገልገያ ይጠቀማል? እንዴት እንደሚከተሉ መጠቀም እና የ dock ስር ይጠቀማል? በ መጠን የ upper deck ይደርሳል እና በ ግራ ተጨማሪ የ champagne መጠጥ የ young hooligans ከ ተጨማሪ በ ቀን ይጠቀማ? That’s dangerous and not my kind of fun!人工智能将提升网络翻译水平
对于任何夏季旅行或其他语言需求,ChatGPT可能是比谷歌翻译更好的选择。此外,它的新iOS应用程序使它更容易访问。但正如我们在阿姆哈拉语和他加禄语中看到的那样,ChatGPT还不能完全取代旧的备用程序。
然而,随着每种语言的训练数据越来越多,人工智能模型有可能全面超越谷歌翻译的能力。“我们对法学硕士的潜力以及如何将其整合到我们的产品中感到兴奋,”谷歌告诉PCMag。
谷歌也在测试一个新的搜索结果页面,被称为搜索生成体验(SGE)。它将在Google.com上推出,具体日期不详,并将提供基于段落的、chatgpt式的查询答案。但谷歌强调,Bard和SGE是实验性的,并没有评论它们是否会在未来取代谷歌翻译。
在此之前,谷歌必须有一个更明确的方法来衡量ChatGPT的翻译能力,并证明它比谷歌翻译更好。更广泛地说,所有ChatGPT都应该能够使用多种语言进行交互,比如阿姆哈拉语,以保持未来网络的可访问性,并尽可能地实现“世界性”。
帕斯夸尔表示:“所有这些(人工智能)系统都是黑盒子,不会分享它们是如何构建的具体信息,也不会分享哪些数据用于训练等。”“我们刚刚开始看到这些巨大的模型能做什么,这同样令人兴奋和恐惧!”