ChatGPT挑战下，NLP老书是否该扔？时代变迁中的自然语言处理知识地图

文章主题：ChatGPT, NLP过时, 预训练模型

ChatGPT对自然语言处理（NLP）冲击很大，首先第一点，NLP的书就不好卖了。

这不是开玩笑。每当范式改变，知识和承载知识的书本，就会首当其冲迅速过时。

📚《统计自然语言处理》（2nd版）🌟宗成庆老师经典力作，2008年问世，虽年代久远，却如一颗璀璨的老珍珠，闪烁着智慧的光芒。这本书不仅见证了时代的变迁，还承载了众多NLPer的经典知识点：马尔科夫模型、PCFG基础分析法、SVM的base NP识别以及HMM的词对位模型。对于熟悉NLPer的老一辈来说，它充满了深深的回忆和独特的韵味。就像《Java编程思想》虽新，却同样在技术史上留下了深刻的烙印。📚欲了解更多自然语言处理的经典，不妨探索这些岁月沉淀下的知识宝藏。每一本书都是一扇通往语言理解世界的大门，等待着你的开启与深入研究。记得，经典总是经得起时间的考验。📖

🌟📚《Speech and Language Processing》权威指南，第2版中译本，2018年度热门经典！虽然是2009年的原汁原味，但其深度与广度丝毫不逊宗老师的教诲。满满都是马尔科夫和Viterbi的智慧，带你深入探索自然语言处理的世界。📚📖

📚 当谈到NLP领域的权威书籍时，诚然它们承载了深厚的知识与智慧，但这并不意味着所有内容都值得保留。对于那些可能被过分吹捧的理论，确实需要审慎对待。就像ChatGPT这样的技术，它虽源于NLP，但理解它的路径并非仅靠啃书本就能达成。📚若有人坚持这两本书就是通向ChatGPT的钥匙，那无疑是误解了技术与理论的实际关系。正确的学习路径应该是深入探索，而非盲目跟从。否则，即便批评者再多，个人的见解和判断仍应独立思考。🤔当然，尊重专家意见是必要的，但每个人对NLP的理解都需要个性化解读。不要让权威成为障碍，而要勇于挑战并寻找最适合自己的理解方式。📚SEO优化提示：使用相关关键词如”NLP书籍、ChatGPT理解、技术与理论”，适当增加表情符号以提升可读性。

🎓大学NLP课程深度揭秘🔍：掌握马尔科夫与Viterbi算法无疑是核心，它们是现代计算机科学的基石，就像显像管原理曾照亮早期科技之路一样。👩‍🏫技术与历史交织，一半理论一半实践，这是高等教育的典型模式。在智能时代，或许我们正经历着从传统到新兴知识体系的转变，就像液晶技术引领了显示革命那样。🎓SEO优化提示：使用相关关键词如”NLP教学内容”、”计算机科学基础”和”显像管原理的历史意义”，适当增加表情符号以提升可读性。记得保持专业且吸引人的语言风格哦！😊

📚《Python自然语言处理的艺术：NLTK与NLP之旅》🚀——鲸鱼书吧之选，封面三尾灵动的海洋生物象征着知识的海洋。这本书，2014年的中文版经典之作，聚焦于NLTK，这个曾风靡一时的语言工具包，至今仍深受教育者们的青睐。它引领你探索Python在文本处理中的无尽可能，带你领略自然语言处理的魅力所在。📚✨

📚《Neural Network NLP之旅》2018年经典之作，中译本《深度探索自然语言处理》紧跟潮流。🎉终于有一本专为NLP爱好者揭秘深度学习的教材，虽基础但深入，带你领略RNN、独热编码、词嵌入与CRF的魅力。🔍这些技术当年曾是NLPer们手中的神器，推动行业革新，如今大厂的自训练词嵌入如预训练模型般常见，见证了技术的发展变迁。🎓掌握它，深度学习NLP领域的知识基石就在你手中！📚SEO优化：#深度学习NLP #自然语言处理 #RNN技术探索

可是，这已经是2018年，万恶之源《Attention Is All You Need》在一年前就已经发表了。

然后是《Natural Language Procesing in Action》，中译《自然语言处理实战》，2020年出版。出版时间半新不旧，但讲的还是TF-IDF、LDA、SVD，这是在深度学习兴起之前，用统计学习方法做NLP的基本套路。书在后面倒是也雨露均沾，讲了一些RNN、Word2vec和Keras这些深度学习的基本内容，不过，这个时候以Bert为代表的预训练模型和Huggingface的各种库，早就在业内满天飞了。

最后讲一本吧，哈工大SCIR写的《自然语言处理：基于预训练模型的方法》，2021年出版。顾名思义，这本书讲预训练模型，还简要介绍了T5和GPT-3，甚至讲DALL-E，不过看时间就知道只能是1。虽然这本书总共就三百页，却花了至少三分一的篇幅讲神经网络的基础知识，以及Word2vec、NLTK这些不晓得怎样才能和预训练发生关系的内容，不过，就当时来说，这本书总算在主题上面是赶上了时代——然后现在就又落伍了。

国内出版包括翻译讲预训练模型的书还有几本，时间点应该没有早于2021年。不管怎样，2021年是NLPer颇为幸福的一年，虽然ICL已经点上火，而广告之后CoT也马上要来了，但大家总算是读着还不怎么过时的书。

外行看热闹内行看门道，沙雕网友拿着ChatGPT到处玩梗的时候，已经有很多NLPer看到了更深层的危机：范式改变。

什么叫范式改变？用人话说，就是我们的所知所想将一夜过时。

从刀耕火种的TF-IDF，到始乱终弃的词嵌入，到开启氪金时代的预训练+微调，再到今天的LLM，虽然名字都叫NLP，但这个NLP已经不是那个NLP了。

重新回顾了一遍书架上这些外表还挺新的老书，我想起了一个很文艺的词：纸年轮。这些新的老书就是NLP这几年发展的纸年轮。

我知道，技术书的出版总是要落后于技术的发展的，形成系统性的教材还要更晚一些，这是客观规律。我不知道CoT、ICL这些概念什么时候才能在教材里面出现，我只是想，如果我们还读着现在这些书，再拿着这些书教人，让大家都以为NLP只是书里面这些东西，那么明年、后年、未来五年、十年，搞NLP的能搞出来什么，会搞出来什么。