文章主题:ChatGPT, 中文世界, 知识, 语言能力

666AI工具大全,助力做AI时代先行者!

大模型重要的是基础能力,训练一开始把中文能力作为目标意义不大。

在尝试使用ChatGPT时,许多人都感到遗憾地发现它在应对中文世界的知识方面似乎不够熟练,无法准确背诵古诗,对我国著名人物常常张冠李戴,甚至在许多广泛认知的历史和名著中胡说八道。相比之下,其对欧美历史和社会知识的掌握却较为扎实。因此,许多人都在期待中文版ChatGPT的出现,我也不例外。然而,我个人认为,只有英文能力超过ChatGPT的模型才能真正实现中文能力的提升。因为,强大的基础能力是解决所有问题的根本,语言只是表达的方式,如果英文能力无法达到或超越ChatGPT,那么提高中文能力的可能性就会大大降低。

在众多研究中,我们发现了大模型学习到的基础能力——超越语言、跨越语种的“高级知识”。这一观点在很多论文中都得到了阐述。在此,我将分享一些我个人的直观感受。首先,在RLHF论文的训练数据中,英文占据了99%的比例,而西、法、德语则占据了大部分剩余比例,中文的比例则仅为0.0x%,尽管如此,中文和其他小语种的能力提升依然非常显著。这充分证明了这种训练方法能让模型学到跨越语种的隐含信息。其次,ChatGPT对话模型在防止有害信息、承认自己不知道、尽量公正客观等方面做了许多工作。其中一种方法是预先的prompt提示语,虽然有迹象表明这些提示语是用英语写的,但它对所有语种都产生了影响,这无疑证明了其普适性。最后,许多人都注意到,ChatGPT在中文回答时偶尔会出现翻译腔的情况。这种情况固然可能是因为训练中翻译数据的直接结果,但在宏观上,这也反映了“高级知识”跨语种适配的能力。

“中文能力”这一概念,如果仅仅局限于熟背古诗和对我国历史文化的倒背如流,实际上并不难以实现,的技术上也不存在特殊的难度,我国的许多中文训练模型都足以胜任。然而,我们需要深入思考的是,这次ChatGPT之所以能够火爆,并不是因为它能够熟练地掌握知识,而是因为它能够理解提问者的意图,并流畅地生成新的、相关的文字内容,即使这些内容可能存在错误,但很少出现自身矛盾的情况。这一点对于之前的自然语言处理(NLP)模型来说,可是难以实现的。

以ChatGPT为例,我曾尝试将其应用于现代诗与现代风的转换,虽然生成的结果并未达到预期,但其精准性和可控性令人惊讶。能够准确地把握原文的核心思想,不被偏离主题,甚至能够根据需求调整原文的风格,这在过去是难以想象的对计算机程序的应用。因此,真正衡量一个人的中文能力,不应仅仅局限于对知识的掌握,更重要的是理解和运用语言的能力。

中文的语言数据集需要艰苦卓绝的整理工作

在我国的网络环境中,一种被广泛传播的现象正在悄然发生,那就是垃圾信息的泛滥。许多人可能并不清楚,自动生成文本信息的技术已经在中我国的互联网上普及开来。这种技术的应用,主要在于数量的增加,而对于质量的关注却相对较少。例如,我们可以在SEO搜索中找到大量的垃圾生成内容,以及各种水军机器人和电商评论机器人等。这些机器人所生成的内容,往往是在训练数据中无法出现的垃圾信息。通过中文搜索,我们可以轻易地发现垃圾信息的数量之巨和威力之大。这些信息不仅包括各种广告推广、虚假宣传,还包括大量的抄袭和剽窃。对于这些信息,我们需要保持警惕,并尽量避免在训练数据中出现。然而,令人遗憾的是,即使是测试我国的大规模模型,也难以摆脱互联网垃圾体的影响。这表明,垃圾信息问题已经成为一个亟待解决的问题。相比之下,虽然英文互联网也存在垃圾信息问题,但在搜索信息方面,其情况似乎要好一些。

中国移动互联网的蓬勃发展不容忽视其带来的意外之害。尽管我国在移动互联网领域的成就斐然,但近期研究发现,这给中文信息的开放共享带来了巨大的挑战。许多人都对“下载App继续阅读”这一现象深感无奈,而微信王国的海量各种号更是让问题雪上加霜。这些优质用户产生的中文数据,仅能在移动渠道或登录账号才能访问,同时,他们会将这些原有的开放互联网上的信息删除或加以层层限制。以至于我开始质疑,目前能够在互联网上公开获取的语言数据是否已经无法全面反映中文世界的客观信息。此外,我还想请问一下,像微信、百度、知乎、小红书、各电商和教育平台等这些相对优质的数据所有者,他们能否联合起来共享这些资源呢?这无疑将有助于我们更好地理解和利用这些宝贵的中文信息,进一步推动我国移动互联网的发展。

在我国的NLP领域,中文标注数据的缺乏是一个不容忽视的问题,这无疑是众多从业者共同的困扰。当我们在大量文本中进行自监督训练之后,如何进行精准的人工标注,无疑是对我们的挑战。尽管像ChatGPT这样的模型已经采用了共享数据集进行标注,但这并不能改变我国中文标注数据集匮乏的事实。标注工作往往显得枯燥乏味,且难以出类拔萃,更多的是为他人做嫁衣。我们常常会羡慕那些在重大突破时刻的天才们能够灵光一闪,然而,那些勤奋努力、默默奉献,致力于基础整理工作的“老黄牛”们也同样不可或缺。在我们的队伍中,也需要更多这样的人才。

训练中文版ChatGPT的可能正确方式

在当今社会,英语作为全球通用语言,其地位无可置疑。据2022年的统计数据显示,相较于英文,互联网上公开的信息中,中文的比例仅为1.3%,而英文则占据了63%的份额,尤其是在高质量的信息方面,英文的优势更为明显。例如,无论是我国的研究人员还是其他非英语国家的研究人员,他们在取得重要科研成果后,往往会选择首先发表英文论文,随后才会在其他语言中进行翻译。像维基百科、StackOverflow、Reddit等资源,也是我们获取英文信息的重要渠道,相比之下,中文资源则显得较为匮乏。此外,英语作为一种与代码和许多外语同源的语言,其独特性使得学习英语变得更加容易。而中文则由于其象形单音节的特点,在这方面稍显不足。因此,既然英语作为主要语言的地位已经确立,那么我们应当积极适应这一现状,逐步提高自己的英语水平。

其次以程序代码为辅,英语为主汉语为辅?不不,第二重要的应该是程序代码,有一些研究者认为ChatGPT展现出了初级推理能力要归功于其使用代码作为语言数据训练,进化出的初级逻辑思维链在中文上也有体现,说实话我并不确信这个推论,但很值得想象。即使此结论不正确,大模型拥有写代码的能力也极其重要,比如使用外部工具,为无限能力扩展提供了接口。 代码数据的重要性对我们不是个好消息,ChatGPT应该用了github汇聚的全世界代码库,包括私有库,我们如何获取高质量的代码数据是个大问题。

顶住诱惑激进清洗数据,中文数据贵精不贵多,GPT3收集训练数据45TB,清洗后570GB仅保留1.2%,中文数据清洗保留比例可能还要少个数量级,很考验数据工程师的心里承受能力,辛辛苦苦收集的数据,你只让用0.0x%?我拍脑袋认为训练集中有3~5%的中文数据就足以改进ChatGPT缺乏中文知识的情况了,甚至在上述推论下,中文也没必要追求体量上超过西班牙语、法语、德语。后续监督、对齐、联网阶段还可以针对中文做优化。

最后声明,我不能算是NLP的实际从业者,因此以上是不负责任没有顾忌的纸上谈兵。

ChatGPT, 中文世界, 知识, 语言能力

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!

Leave a Reply

Your email address will not be published. Required fields are marked *