文章主题:ChatGPT, NLP过时, 预训练模型
ChatGPT对自然语言处理(NLP)冲击很大,首先第一点,NLP的书就不好卖了。
这不是开玩笑。每当范式改变,知识和承载知识的书本,就会首当其冲迅速过时。
📚《统计自然语言处理》(2nd版)🌟宗成庆老师经典力作,2008年问世,虽年代久远,却如一颗璀璨的老珍珠,闪烁着智慧的光芒。这本书不仅见证了时代的变迁,还承载了众多NLPer的经典知识点:马尔科夫模型、PCFG基础分析法、SVM的base NP识别以及HMM的词对位模型。对于熟悉NLPer的老一辈来说,它充满了深深的回忆和独特的韵味。就像《Java编程思想》虽新,却同样在技术史上留下了深刻的烙印。📚欲了解更多自然语言处理的经典,不妨探索这些岁月沉淀下的知识宝藏。每一本书都是一扇通往语言理解世界的大门,等待着你的开启与深入研究。记得,经典总是经得起时间的考验。📖
🌟📚《Speech and Language Processing》权威指南,第2版中译本,2018年度热门经典!虽然是2009年的原汁原味,但其深度与广度丝毫不逊宗老师的教诲。满满都是马尔科夫和Viterbi的智慧,带你深入探索自然语言处理的世界。📚📖
📚 当谈到NLP领域的权威书籍时,诚然它们承载了深厚的知识与智慧,但这并不意味着所有内容都值得保留。对于那些可能被过分吹捧的理论,确实需要审慎对待。就像ChatGPT这样的技术,它虽源于NLP,但理解它的路径并非仅靠啃书本就能达成。📚若有人坚持这两本书就是通向ChatGPT的钥匙,那无疑是误解了技术与理论的实际关系。正确的学习路径应该是深入探索,而非盲目跟从。否则,即便批评者再多,个人的见解和判断仍应独立思考。🤔当然,尊重专家意见是必要的,但每个人对NLP的理解都需要个性化解读。不要让权威成为障碍,而要勇于挑战并寻找最适合自己的理解方式。📚SEO优化提示:使用相关关键词如”NLP书籍、ChatGPT理解、技术与理论”,适当增加表情符号以提升可读性。
🎓大学NLP课程深度揭秘🔍:掌握马尔科夫与Viterbi算法无疑是核心,它们是现代计算机科学的基石,就像显像管原理曾照亮早期科技之路一样。👩🏫技术与历史交织,一半理论一半实践,这是高等教育的典型模式。在智能时代,或许我们正经历着从传统到新兴知识体系的转变,就像液晶技术引领了显示革命那样。🎓SEO优化提示:使用相关关键词如”NLP教学内容”、”计算机科学基础”和”显像管原理的历史意义”,适当增加表情符号以提升可读性。记得保持专业且吸引人的语言风格哦!😊
📚《Python自然语言处理的艺术:NLTK与NLP之旅》🚀——鲸鱼书吧之选,封面三尾灵动的海洋生物象征着知识的海洋。这本书,2014年的中文版经典之作,聚焦于NLTK,这个曾风靡一时的语言工具包,至今仍深受教育者们的青睐。它引领你探索Python在文本处理中的无尽可能,带你领略自然语言处理的魅力所在。📚✨
📚《Neural Network NLP之旅》2018年经典之作,中译本《深度探索自然语言处理》紧跟潮流。🎉终于有一本专为NLP爱好者揭秘深度学习的教材,虽基础但深入,带你领略RNN、独热编码、词嵌入与CRF的魅力。🔍这些技术当年曾是NLPer们手中的神器,推动行业革新,如今大厂的自训练词嵌入如预训练模型般常见,见证了技术的发展变迁。🎓掌握它,深度学习NLP领域的知识基石就在你手中!📚SEO优化:#深度学习NLP #自然语言处理 #RNN技术探索
可是,这已经是2018年,万恶之源《Attention Is All You Need》在一年前就已经发表了。
然后是《Natural Language Procesing in Action》,中译《自然语言处理实战》,2020年出版。出版时间半新不旧,但讲的还是TF-IDF、LDA、SVD,这是在深度学习兴起之前,用统计学习方法做NLP的基本套路。书在后面倒是也雨露均沾,讲了一些RNN、Word2vec和Keras这些深度学习的基本内容,不过,这个时候以Bert为代表的预训练模型和Huggingface的各种库,早就在业内满天飞了。
最后讲一本吧,哈工大SCIR写的《自然语言处理:基于预训练模型的方法》,2021年出版。顾名思义,这本书讲预训练模型,还简要介绍了T5和GPT-3,甚至讲DALL-E,不过看时间就知道只能是1。虽然这本书总共就三百页,却花了至少三分一的篇幅讲神经网络的基础知识,以及Word2vec、NLTK这些不晓得怎样才能和预训练发生关系的内容,不过,就当时来说,这本书总算在主题上面是赶上了时代——然后现在就又落伍了。
国内出版包括翻译讲预训练模型的书还有几本,时间点应该没有早于2021年。不管怎样,2021年是NLPer颇为幸福的一年,虽然ICL已经点上火,而广告之后CoT也马上要来了,但大家总算是读着还不怎么过时的书。
外行看热闹内行看门道,沙雕网友拿着ChatGPT到处玩梗的时候,已经有很多NLPer看到了更深层的危机:范式改变。
什么叫范式改变?用人话说,就是我们的所知所想将一夜过时。
从刀耕火种的TF-IDF,到始乱终弃的词嵌入,到开启氪金时代的预训练+微调,再到今天的LLM,虽然名字都叫NLP,但这个NLP已经不是那个NLP了。
重新回顾了一遍书架上这些外表还挺新的老书,我想起了一个很文艺的词:纸年轮。这些新的老书就是NLP这几年发展的纸年轮。
我知道,技术书的出版总是要落后于技术的发展的,形成系统性的教材还要更晚一些,这是客观规律。我不知道CoT、ICL这些概念什么时候才能在教材里面出现,我只是想,如果我们还读着现在这些书,再拿着这些书教人,让大家都以为NLP只是书里面这些东西,那么明年、后年、未来五年、十年,搞NLP的能搞出来什么,会搞出来什么。
AI时代,掌握AI大模型第一手资讯!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
扫码右边公众号,驾驭AI生产力!