ChatGPT与数学
本文来自2023年4月14号笔者和一群投资分析师做的关于人工智能投资的分享,略有删节。 (1) 先做一下风险提示。第一,今天和大家的分享全是来自公开可以到网上查的信息。第二,这里只是谈我对美国股票市场的经验,对亚洲和中国的市场,我不了解。第三,我只是预测比较长期的,三四年以上的趋势,也只对这种研究感兴趣。就是你投了以后,可以什么都不管,躺平。也不用挖空心思,揣测下个季度收入好不好,也不用太担心竞争者来了,等等。第四,我的观点,也会随着新的信息,新的变化而不断调整。所以,今天和大家分享的,只是我这一刻的观点,非投资建议。投资有风险,入市须谨慎。 (2) 以 chatgpt 为代表的人工智能大语言模型(LLM)的涌现,对世界的冲击力将大于蒸汽机,大于印刷术,大于文字,大于火。其进化速度和传播速度前所未有。终日沉浸其中才能理解其威力。世界结构和运作方式将彻底改变,而且已无法逆转。 去年还在谷歌工作的 Jason Wei有篇论文,“emergent abilities of large languages models”(大语言模型的涌现能力),此文揭示了未来科技加速发展的核心法则之一。很多大语言模型,当计算训练量超过10^23 FLOP 之后,准确度突然开始飞跃。 chatgpt 的出现是一种”涌现”的现象和数学的必然。理解此机制后,就会意识到下面将有一长串的不断涌现的新的 AI 的强大功能,而且这也是数学的必然。(涌现可以定义为:某个系统的某种能力,在某个维度的参数超过某个临界点后,突然开始迅速增长。而这种能力在未突破临界点之前不存在) LLM的关键点在于模型大小和数据量达到了一个临界值,过去认为机器不可能的有的推理能力,突然有了。大模型迎来了人工智能的顿悟时刻。人的一生,时刻都在对各种情况,建立模型,做出分析判断,现在人工智能拥有自己的推理能力,而且将不断规模化,自动化,成本不断降低,等于是触及了人类活动本质,对未来的冲击,不可限量。 GPT 里面的 T,是 Transformer 的缩写。这个技术对于自然语言处理上的核心改进,是在训练 AI 理解力时,把距离相对远的词语建立起相关性。比如说这句话“我对花生过敏,每次吃到它,身体就不舒服”. Transformer 能够通过所谓“注意力”的机制,把“花生”和“它”两个词建立起相关性,相对于传统 AI 语言模型而言,其理解力大大提高。把这个概念推而广之,要提升对这个世界的理解力,也应当不断训练自己把各种看似距离较远,但实际上强相关的事物关系,能够迅速提取出来的能力。 (3) 人工智能技术的突破一个重要因素是大规模并行计算能力的提升。 人工智能技术的核心是神经网络,神经网络的核心算法是调网络参数时的前向传播和反向传播计算,这本质就是矩阵乘法。而矩阵乘法计算,每一个元素的计算可以单独平行展开,和其它元素的计算互不干扰,所以特别适合用 GPU 的大规模并行计算能力来实现。 人脑里的初级视觉皮质层(Primary visual cortex),据说有一点四亿个神经元。这些神经元在后台进行复杂的并行计算和信息传递,赋予人脑快速的视觉感知力。这在最底层看,和 GPU 的并行计算获得图像识别能力,其机制是类似的。有视觉能力的动物,在多数环境下,可以迅速在生存竞争中获得压倒性优势,慢慢把没有视觉感知力的其它动物淘汰。 但在听觉和其它文字处理任务上,人脑的并行计算处理能力其实非常差。即使一目十行,也就最多同时看两百多个字。而现在 Gpt-4一次性输入可以接受三万多个词,比人的能力要高两个数量级,而且还会继续迅速增加。这种不断增加的高并行度,意味着其对文字和世界的理解力和穿透力,将不断达到一个常人难以理解的高度。所以一定要努力学习用这种工具来提升自己对世界的理解力。 需要理解的是,gpt...