文章主题:关键词:ChatGPT,火爆全网,社会热议,程序员,失业,英文互联网,中文互联网,信息质量,关闭个人网站,百度,搜索引擎,ChatGPT是否能替代搜索引擎,是否是进步还是退步,英文信息平台,中文信息平台,网络资料,翻译,机器翻译,自然语言处理,人工智能,语言模型,问答
自ChatGPT风靡全球以来,各种赞美之声不绝于耳,引发了社会的广泛关注和热烈讨论。许多人预测,这一技术可能会颠覆众多行业,导致程序员失业,甚至有人开始探讨为何这一创新没有在我国出现。然而,在此之外,也有一部分人持冷静态度,对ChatGPT的真正影响提出了质疑。例如,一位美国语言学家近期就指出,ChatGPT的核心问题在于其涉嫌抄袭。
我其实也倾向于质疑。在前一篇《体验一把ChatGPT:一本正经胡说八道,在我国的前景难以预测》中,我承认ChatGPT作为一款语言模型的卓越表现:其对用户输入信息的理解能力以及输出信息的语言表达能力令人印象深刻。然而,我也通过实际评测发现了ChatGPT存在的一些问题。例如,它有时会一本正经地胡说八道,尤其在处理主观题目时,虽然东拼西凑的问题不太大,但对于涉及客观事实的问题,它往往无法准确回答,这无疑是对用户的误导,也是明显的缺陷。在写作和编程相关的能力上,经过测试,ChatGPT的表现确实相当出色,但要替代大量的人工智能可能还有很长的路要走,更别提整个行业了。因此,我认为ChatGPT更适合作为提升工作效率的工具,而非完全取代人类。
在本文中,我们将深入探讨一个重要的话题:ChatGPT是否能够取代搜索引擎,以及如果它确实取代了搜索引擎,这究竟是一个进步还是倒退?
在前一篇论述中,有些读者提出了观点,认为ChatGPT仅在英语对话环境中才能展现出优秀的性能,而中文对话中所出现的问题,这只是由于其训练样本的缺乏,实际上它仍具有巨大的提升空间,我们不能草率地得出结论。然而,我们应认识到,ChatGPT之所以能获得大量的英文训练数据,一个关键因素在于英文互联网的信息量远超中文互联网。据维基百科的数据,到2020年3月25日为止,W3Techs预测的前一百万互联网网站所使用的语言百分比中,英语占比高达59.3%,而中文仅仅占1.3%。
尽管这个统计结果仅供参考,但我们不能忽视一个事实,那就是在我国,除英语之外,其他语种的信息量很难超过中文。然而,近年来,随着互联网产业的迅速发展,中文互联网网站的数量却呈现出逐年减少的趋势。据新闻报道,截止到2021年12月,我国的网站数量相较于2020年12月减少了25万个,同比下降了5.5%。一些曾经繁荣的论坛,如天涯论坛和猫扑社区,已经关闭或停运。最近,知名论坛国学数典的管理人员也正式宣布该论坛“已经结束”。这些现象无疑表明,中文互联网的发展面临一定的挑战。
在个人网站和论坛不断式微的当下,我国搜索引擎巨头百度的抓取质量正逐渐降低。百度作为网络世界的权威,如今面临着越来越难以获取高质量网页信息的困境。然而,在众多平台中,B站成为百度获取信息的重要来源,尽管其主要以视频为主。知乎则成为百度搜索中难得的高品质信息来源。尽管微博这个大平台上允许百度爬取,但其娱乐性质更为突出,而并非知识社区。另一方面,百度自家的百度百科、百度知道、百度贴吧等产品,曾是中文互联网的标志性产品,但现在已陷入半死状态。
中文互联网的信息不仅远远少于英文互联网,而且还封闭在无数封闭的APP和几个互相封闭对立的大平台里,比如公众号、头条号、抖音号、百家号、网易号等。如果信息少和封闭也就罢了,信息质量也是一言难尽。百度、阿里、腾讯、头条这三大巨头都直接或者间接屏蔽了各自爬虫,只有B站、知乎、微博等体量较小平台允许其它搜索引擎相对自由的爬取,这进一步导致各家的搜索引擎都爬取不到有用的信息。与之相对的,国外的推特、脸书、youtube、reddit等平台,都是允许谷歌和必应等搜索引擎自由爬取的。
中文互联网不仅仅封闭和质量差,完全开放免费的信息更是少之又少。如果你询问ChatGPT的回答参考了什么资料,它会这样告诉你:“我的训练数据来自互联网上的大量文本,包括新闻、博客、图书等。通过处理这些文本,我学会了语言知识和回答问题的能力。因此,我的回答来自于我的训练数据,而不是从某个特定的资料库中获得的信息。”但如果你刨根问底,一定要它给出参考链接,ChatGPT常会返回维基百科的链接。
也就是说,英文互联网不仅仅相互开放的程度高,还有维基百科这样完全自由免费的信息平台。这是导致许多应用优先诞生在美国的原因之一。如果你看了ChatGPT的相关评论就应该知道,一些业内人士认为ChatGPT的技术含量不见得特别高,各种跟风产品也很快就如一群嗅觉灵敏前来扑食的饿狗一般不断冒了出来。它能做到这样的智能,很大程度上要归功于它优质而庞大的训练样本。ChatGPT的训练样本其实也依靠大量的人工标注,对于中国人而言,廉价的人力资源下人工标注不成问题,但关键是,中文互联网上没有足够的开放信息资源。
就好之前我在《谷歌地球与文化输出》和《地图开发者:我以为是一个诈骗电话,原来真要我给五万元》这两篇文章中,已经说明了完全免费开放的OpenStreetMap对于地理应用创新的重要性,这让MapBox这样的企业在初创阶段就不用面对昂贵的全球地理信息数据授权问题。而对于ChatGPT的创业团队而言,因为有维基百科的存在,他们也不用在初创阶段就考虑天价资料库授权的问题,这就非常有利于小公司的创新。在之前的更多的文章中,我们也说过,国外大学图书馆、博物馆网站有大量完全免费开放的信息资源,是促进相关研究快速发展的重要基础。
因此我可以预判,虽然理论上ChatGPT可以通过增加中文样本的训练提高中文回答的质量,但现实的问题是,它找不到足够的中文信息开放资源。也注定了国内的巨头只会关起门来搞各自的ChatGPT山寨版,不可能把内容给它做嫁衣。而各个ChatGPT山寨版也不过是关门自嗨:没有足够优质和丰富训练样本,这群扑上去的饿狗只不过是一群卖萌的哈士奇。现在国内热炒ChatGPT,我认为很大一个原因,就是互联网产业面对发展停滞的困境,他们急需营造下一个风口。只有这样,才能吸引更多投资,业内的投机者才能以此发家致富。这和之前疯狂炒作元宇宙、Web3.0等概念其实没什么不同。
然而,我们今天的批判不仅仅如此。我要指出的问题,不仅仅在于中国互联网的封闭,而在于ChatGPT如果真的替代了搜索引擎,其实更是一场全球互联网的灾难。
我们应该知道,ChatGPT的并没有真正的原创能力,它给出的回答,是基于大量网络资料综合判断后,杂糅在一起的重新表达,这导致它的回答其实给不出明确的来源。根据一些用户的反馈,即便它给出的引用论文来源,也可能是它瞎编不存在的。实际上,如果ChatGPT完全代替了传统的搜索引擎,这不是进步,而是退步和灾难。因为它把网络上无数人贡献的信息据为己有了。传统的搜索只是个赚广告费的中间商,你在搜索引擎搜索资料,最终是要跳转到原网站,让内容平台获取流量与用户的同时也能赚到广告费。而内容平台其实也是一个中间商,他给了作者露脸的机会,可以赚到知名度、粉丝和收益。
我在和ChatGPT聊天的过程中发现,它固然可以说是无所不知,但它却不会告诉你它是如何实现无所不知的,你再也看不到来源链接了,只是感叹它的神奇。长此以往,恐怕我们也懒得去搜索引擎对比信息和访问真正的内容平台了。
最近不少程序员都在说,ChatGPT真的很便捷。它能自动写代码,能够自动查问题和解决问题。可它的这一切,很大程度上是因为参考了StackOverflow等程序员社区的网络资料而已。如果大家都沉迷于此,不再去访问StackOverflow给平台带去收入,不给热心的答主点赞互动,那么谁还愿意去程序员社区排疑解难呢?谁还愿意写技术博客呢?这不过就成了一场竭泽而渔的大剽窃罢了。如果他不解决这个生态问题,那么ChatGPT必然不会有好下场。据称ChatGPT火爆后,StackOverflow正被程序员抛弃,访问量一个月骤降了3200W,这不是杀鸡取卵又是什么呢?美国语言学家诺姆·乔姆斯基也认为,ChatGPT是一个高科技剽窃系统,它从海量数据中发现规律,并依照规则将数据串连在一起,形成像人写的文章和内容。也就是说,它没有真正的原创能力,而只是靠剽窃给论文系统灌水。如果灌水的人可以靠此拼论文数量上位,这不就是劣币驱逐良币,最后你一搜索论文库大部分都是垃圾了吗?
当然,我们也不用过度担心这些危害。因为说ChatGPT完全替代搜索引擎还为时尚早。微软和ChatGPT的合作,也是将ChatGPT作为必应搜索引擎和Office办公产品的一种补充而不是替代。在我看来,ChatGPT作为搜索引擎的补充是进步的,也是必然的,因为我们确实会常用提问的方式在搜索引擎中搜索答案,Siri等手机智能助手也为我们的日常生活提供了不少方便。
ChatGPT要替代搜索引擎其实还有一个致命的缺点,那就是它对时事新闻的反应能力几乎没有。如果你让ChatGPT告诉你最近的新闻,它会这样回答你:“很抱歉,作为一个预训练模型,我并不知道当前具体的新闻情况。建议您查阅现实世界的新闻来源,如新闻网站或电视新闻频道等。”
如果你再具体询问一些这两年发生的事情,就知道它确实不知道,而且还会明确告诉你,它的知识截止在2021年。这大概是因为ChatGPT作为一个预训练模型,需要庞大的训练数据和大量的人工标注,这导致它的训练成本异常高昂且非常耗时。
据网络资料显示,ChatGPT的模型经历三次迭代,参数量从1.17 亿增至1750 亿,预训练数据量从5GB 增至45TB,其中光GPT-3训练单次成本已达460 万美元,而现在它已经迭代到了GPT-4,恐怕单次训练成本就将超过千万美元。训练ChatGPT需要使用大量算力资源。据微软官网信息显示,微软Azure为OpenAI开发的超级计算机是一个单一系统,具有超过28.5万个CPU核心、1万个GPU和400 GB/s的GPU服务器网络传输带宽。据英伟达信息显示,使用单个Tesla架构的V100 GPU对1746亿参数的GPT-3模型进行一次训练,需要用288年时间。因此,即便1万个最先进的GPU以之前的GPT-3模型不分昼夜地全速训练,其单次训练也需要十多天才能完成。目前ChatGPT的知识已经落后了现实一年以上,这对于替代搜索引擎而言,可以说是一个致命的缺陷,但如果只是作为搜索引擎的补充的话,那么问题就小了很多。
不过问题还没有结束。我们在前文末尾已经说过另外一个问题:人们真的愿意使用搜索引擎吗?当新鲜劲过后,人们还会热衷于和ChatGPT聊天吗?曾几何时,我们在网络上更多是用电脑查找资料,需要自己去主动搜索信息,然后一个一个比对不同人、不同平台的说法。搜索引擎避免我们去网站单独查找信息是个巨大的进步,也因此,在一段时期内,搜索引擎扮演着流量分配者的角色。谷歌这一角色扮演的较好,因为它相对公正,在利益和体验之间取得了较好的平衡。总是充斥着大量低质广告的百度则受到了强烈抨击。
但到了移动互联网下的APP时代,推荐引擎已经主导了流量分配,许多人其实已经放弃了通用搜索引擎,最多也就通过APP的内部搜索搜一下而已。依靠不停刷新手机APP从热榜、推荐、关注列表中获取文字信息,从不停上上翻刷小视频,这种躺在床上就把自己喜欢的美味喂到嘴边的方式固然很符合喜欢懒惰这一人性,但也导致了越来越严重的信息茧房,越来越明显的群体对立和两级分化。因此,便捷固然能带来好处,但也会让我们失去很多。比如推荐系统带来的信息茧房,比如短视频看多了就不喜欢看长视频,更难以沉下心去阅读厚重的书籍。
古人云,兼听则明,偏信则暗,但兼听不同的说法其实是一个繁琐的过程,经常看对立的观点,更容易让人上火和厌烦。ChatGPT一问就有答案固然是好,但这种完全抛弃搜索列表对比的方式,不是一种更严重的信息茧房吗?搜索引擎为我们提供更多信息参考来源是好事,但替我们省略搜集整理这一过程直接有问必答其实是一种坏事。这也是一些人很快意识到,ChatGPT如果流行后可以用于舆论战和控制意识形态的原因。这绝对不是危言耸听,而是思想懒惰后的必然。
欢迎使用地图书编辑器,一个面向人文领域的,免费跨平台专题地图绘制软件。软件官网:
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!