ChatGPT对自然语言处理(NLP)冲击很大,首先第一点,NLP的书就不好卖了。

这不是开玩笑。每当范式改变,知识和承载知识的书本,就会首当其冲迅速过时。

就拿我手头上的书来说,首先是宗成庆老师蓝皮的那本《统计自然语言处理》(第2版),2008年出版。十多年前的书,时间点很迷,给个比照吧,《Java编程思想》是2007年出版,这本书还要新一点。书很经典,随便摘几个知识点:马尔科夫模型、基于PCFG的基本分析方法、基于SVM的base NP识别方法、基于HMM的词对位模型。老一点的NLPer对这些知识点不会陌生,充满了浓浓的怀旧气息。

然后是《Speech and Language Processing》,我手上的是中译版《自然语言处理综论》(第2版),这也是一本经典的书,2018年出版,听起来好像很新,正好比宗老师的书晚了10年。但其实原书出版于2009年,知识点和宗老师的书差不太多,满眼都是马尔科夫和Viterbi。

如果我说上面两本书可以扔垃圾桶了,估计会冲出一百位NLP教授用八百种理由喷爆我,我自己也不舍得。但如果说啃完这两本书就能明白NLP,甚至理解ChatGPT,那不能说误人子弟,只能说南辕北辙。

我不知道现在大学的NLP都教些什么,马尔科夫和Viterbi这些想必总是要教的,计算机专业嘛,总是一半在讲技术,一半在讲历史。不过,老师上课的时候,会不会有一点在液晶时代教显像管原理的感觉呢?我想会有一点。

然后是《Natural Language Procesing with Python》,封面游了三条鲸鱼,姑且叫鲸鱼书吧,中译版《Python自然语言处理》2014年出版,主要讲NLTK。这是个曾经很火的自然语言工具包,现在在一些教材中依然很火。

然后是《Neural Network Methods for Natural Language Proces》,手上的是中译版《基于深度学习的自然语言处理》,同样是2018年出版。终于有一本讲深度学习的NLP教材了,但问题也不少。这本书讲RNN、独热编码、词嵌入、CRF。这几个术语第一批做深度学习的NLPer应该很熟悉了,当年就是来回摆弄这些东西,特别是后期大厂都爱发布自己训练的词嵌入,就像是现在大厂爱发布预训练模型。

可是,这已经是2018年,万恶之源《Attention Is All You Need》在一年前就已经发表了。

然后是《Natural Language Procesing in Action》,中译《自然语言处理实战》,2020年出版。出版时间半新不旧,但讲的还是TF-IDF、LDA、SVD,这是在深度学习兴起之前,用统计学习方法做NLP的基本套路。书在后面倒是也雨露均沾,讲了一些RNN、Word2vec和Keras这些深度学习的基本内容,不过,这个时候以Bert为代表的预训练模型和Huggingface的各种库,早就在业内满天飞了。

最后讲一本吧,哈工大SCIR写的《自然语言处理:基于预训练模型的方法》,2021年出版。顾名思义,这本书讲预训练模型,还简要介绍了T5和GPT-3,甚至讲DALL-E,不过看时间就知道只能是1。虽然这本书总共就三百页,却花了至少三分一的篇幅讲神经网络的基础知识,以及Word2vec、NLTK这些不晓得怎样才能和预训练发生关系的内容,不过,就当时来说,这本书总算在主题上面是赶上了时代——然后现在就又落伍了。

国内出版包括翻译讲预训练模型的书还有几本,时间点应该没有早于2021年。不管怎样,2021年是NLPer颇为幸福的一年,虽然ICL已经点上火,而广告之后CoT也马上要来了,但大家总算是读着还不怎么过时的书。

外行看热闹内行看门道,沙雕网友拿着ChatGPT到处玩梗的时候,已经有很多NLPer看到了更深层的危机:范式改变。

什么叫范式改变?用人话说,就是我们的所知所想将一夜过时。

从刀耕火种的TF-IDF,到始乱终弃的词嵌入,到开启氪金时代的预训练+微调,再到今天的LLM,虽然名字都叫NLP,但这个NLP已经不是那个NLP了。

重新回顾了一遍书架上这些外表还挺新的老书,我想起了一个很文艺的词:纸年轮。这些新的老书就是NLP这几年发展的纸年轮。

我知道,技术书的出版总是要落后于技术的发展的,形成系统性的教材还要更晚一些,这是客观规律。我不知道CoT、ICL这些概念什么时候才能在教材里面出现,我只是想,如果我们还读着现在这些书,再拿着这些书教人,让大家都以为NLP只是书里面这些东西,那么明年、后年、未来五年、十年,搞NLP的能搞出来什么,会搞出来什么。

Leave a Reply

Your email address will not be published. Required fields are marked *