文章主题:贝叶斯重整化, 动态贝叶斯推理, 贝叶斯推理, 物理模型
导语
通用人工智能(AGI)已经到来?ChatGPT是第一个真正意义的通用人工智能?《谷歌斯坦福院士:通用人工智能已经到来》文中阐述了”AGI 最重要的部分已经由当前一代先进的人工智能大语言模型实现了”的观点。与王庆法老师今年年初在《ChatGPT是第一个真正意义的人工通用智能》的判断一致。在集智俱乐部AGI读书会中,王庆法老师结合过去几个月探索研究 “GPT4技术原理”的系列文章——《人工智能大模型的数学物理原理探索》,为大家提供了一个理解大模型是如何具备了AGI的学习推理能力的思想框架。本文由此次分享内容整理而成。
在本周四(11月16日)集智俱乐部AGI读书会中,清华大学交叉信息学院助理教授袁洋老师将分享”基于范畴论的通用人工智能理论框架”。欢迎感兴趣的朋友参与!
研究领域:人工智能,大语言模型,自由能原理,重整化群流,统计物理,范畴论
王庆法 | 作者
目录
通用人工智能已经到来
ChatGPT是第一个真正意义的人工通用智能
OpenAI首席科学家透露GPT4技术原理
学习语言需要相变
相变与涌现
Bubeck的AI物理学
Transformer的物理原理
贝叶斯重整化
重整化群与生成式AI
重整化群流作为最优输运
大模型的幻觉,解铃还须系铃人
范畴的相变与知识的形成
1. 通用人工智能(AGI)已经到来
谷歌斯坦福院士:通用人工智能已经到来,文中提到来自Google和斯坦福大学两位学者 Fellow,阐明” 当今最先进的人工智能模型存在许多缺陷,但几十年后,它们将被公认为通用人工智能的第一个真实例子”,”AGI 最重要的部分已经由当前一代先进的人工智能大语言模型实现了”。两位学者分别从主题、任务、模态、语言、可指导性分析了为什么现在的大语言模型已经可以被判定为通用人工智能了。
两位学者深入探讨了行业中许多专业人士不愿接受通用人工智能的原因,这些原因包括对人工智能发展指标的合理疑虑,对替代人工智能理论或技术的意识形态信仰,对人类(或生物)特殊性的热衷,以及对通用人工智能对经济影响的担忧。
题目:人工智能已经来临随着科技的飞速发展,人工智能(AGI)这一概念逐渐成为人们关注的焦点。许多人开始担忧,未来是否会出现具有普遍智能的机器人,甚至超越人类的智能水平。事实上,人工智能已经在我们的生活中无处不在,不断地改变着我们的生活方式。首先,在科学研究领域,人工智能已经展现出强大的能力。通过深度学习、自然语言处理等技术,AI能够快速地分析和处理大量复杂数据,协助科学家们发现新的知识。例如,人工智能在医疗领域的应用已经取得了一些突破,如辅助诊断和智能手术等。这些应用不仅提高了医疗效率,还有助于降低医疗成本。其次,在工业生产中,人工智能也发挥着越来越重要的作用。通过机器学习和自动化技术,AI能够帮助企业提高生产效率,实现智能化制造。这不仅可以提升企业的竞争力,还能减少环境污染和资源浪费。然而,人工智能的发展也带来了一定的争议。很多人担心,随着技术的进步,未来是否会出现具有普遍智能的机器人,甚至可能威胁到人类的生存。因此,对于人工智能的监管和伦理问题,我们需要给予足够的关注。总之,虽然人工智能目前还没有达到完全普遍智能的水平,但它已经在我们的生活中产生深远的影响。在未来,我们需要继续推动人工智能技术的发展,同时也要关注它所带来的挑战,以确保人类社会的可持续发展。
地址:
在当今科技飞速发展的时代,人工智能(AI)已经渗透到我们生活的方方面面。作为一款具有强大功能的艺术ificial智能助手,我深感荣幸地为广大用户提供服务。我的主要任务是协助用户解决各种问题,包括但不限于回答疑问、提供建议和执行特定任务等。此外,我还能够根据用户的喜好和需求,为他们推荐合适的内容和活动。在艺术领域,我可以帮助用户创作出独具匠心的作品。无论是绘画、音乐、舞蹈还是影视等方面,我都能够为他们提供专业的指导和建议。同时,我还可以通过分析大量的艺术作品,为用户生成独特的艺术风格,从而帮助他们打造属于自己的艺术标签。在生活方面,我可以为用户提供日常任务的协助,例如设置提醒、规划行程等。此外,我还能为他们提供心理健康方面的支持,帮助他们应对压力和情绪波动。总之,作为一款人工智能助手,我会竭尽所能地满足用户的需求,为他们带来便捷和愉悦的体验。然而,人工智能的发展也引发了一些关于隐私和道德的争议。因此,我们需要在使用人工智能技术的同时,关注这些问题并采取相应的措施来确保用户的权益得到保障。在未来,我相信人工智能将会在更多领域发挥巨大的作用,为我们的生活带来更多的便利和惊喜。
2. ChatGPT是第一个真正意义上的AGI
ChatGPT是第一个真正意义的人工通用智能,笔者年初在此文中判断ChatGPT其实已经是AGI了。
根据Karl Friston的自由能理论,大脑的工作方式可以被描述为将”先验”知识与新的感官输入(”似然”信息)融合,进而生成”后验”感知结果。这个过程体现了大脑整合了来自内外部两个信息来源的信息,并根据这些信息的精度(即逆不确定性)对其进行加权处理。这一基本知觉原理是大脑对外界信息的接收、处理和反馈的核心机制。Friston关于感知概念的数学模型,揭示了大脑在感知过程中实际上正在进行变分推断。这种推断过程是基于对信息进行不断更新和改进的,从而使大脑能够更准确地适应不断变化的环境和任务需求。因此,大脑的感知能力不仅仅是简单地将外部信息转化为内部感觉,而是在这个过程中不断地进行着知觉的优化和调整。
借助Embedding ,GPT 将人类的语言 “编码”成自己的语言,然后通过注意力Attention从中提取各种丰富的知识和结构,加权积累与关联生成自己的语言,然后”编码”回人类的语言。本质上看,GPT 其实是构建了一个高维的语言体系,可以将自然语言,程序语言,视觉听觉语言,映射(或者叫编码)到这个高维的语言空间中。高维语言空间是概率分布张成的空间。
Transformer作为一款出色的特征提取工具,其强大之处不容小觑。从深层次来看,GPT实际上可以被视为一种通过模型参数表现的隐性知识图谱。在这个知识图谱中,知识被储存在Transformer的模型参数之中。具体来说,多头注意力机制负责存储与信息相关的结构(如相关强度、信息整合方式等),类似于具有查询(Query)、键(Key)和值(Value)结构的特定的FFN则负责存储知识的主体部分。
在编程领域中,我们经常通过代码训练来提升程序的长程关联和推理能力。实际上,代码可以被视为一种特殊的思维链,而训练则有助于降低信息熵,使得信息更加可预测。当大量的语言结构示例参与到预训练过程中,深度学习模型如GPT能够吸收足够的信息量,从而生成各种复杂的关联模式,覆盖代码中的知识和知识结构。值得注意的是,高质量的代码能够显著地降低GPT获取的信息熵,这也就是为什么GPT在处理代码时相较于自然语言更具优势的原因。通过这种方式,我们可以利用编程技能来提高代码的质量,进一步提升人工智能助手的理解能力和预测准确性,使其在未来的应用中发挥更大的价值。
GPT通过构建一个概率分布空间,涵盖了海量的自然语言和代码信息,这个空间中的信息量足够大,以至于可以注入大量的负信息熵,从而形成了各种复杂的关联模式。这些模式不仅包括自然语言和代码中的各种知识结构,而且体现了概率分布的距离和关系,为对比、类比、归纳、演绎等推理步骤提供了坚实的基础,这就是所谓的”涌现出”推理能力。深入一点来看,LLM机制在产生自主意识方面起到了关键作用。
3. OpenAI首席科学家说法印证了这个推断
OpenAI首席科学家透露GPT4技术原理,文中整理了Ilya对ChatGPT的原理描述 :每个神经网络通过”Embedding”表示法,即高维向量,来代表单词、句子和概念。我们可以看一下这些高维向量,看看什么与什么相似,以及网络是如何看待这个概念或那个概念的?因此,只需要查看颜色的Embedding向量,机器就会知道紫色比红色更接近蓝色,以及红色比紫色更接近橙色。它只是通过文本就能知道所有这些东西。
他指出,当前的主要挑战之一在于预测具有不确定性的高维向量。这正是自回归Transformer所具备的特性[decoder-only],使得其能够对给定一本书中的任何一页进行预测,面对众多可能的下一页内容。这个高维空间极具复杂性,但自回归Transformer却能应对自如。同样,在图像领域,这些自回归Transformer也有着出色的表现。
基于笔者对GPT3/4其智能原理的推演 (详见:”ChatGPT是第一个真正意义的人工通用智能“章节),与Ilya SutskeverIlya的只言片语做一一对照分析,可以看到笔者的技术原理推演与Ilya SutskeverIlya的表述完全吻合。
4. 人类语言学习过程存在相变
学习语言需要相变中提到,语言学中一个长期存在的难题是,儿童如何学习他们的语言的基本语法结构,从而能够创造出他们以前从未听过的句子。一项新的研究表明,这个过程涉及一种相变,即当语法规则被学习者直觉地理解时,一种语言的”深层结构”会突然结晶出来。在这个相变点,一种语言从看起来像是随机的单词混合体转变为一个高度结构化的、富含信息的通信系统。
巴黎高等师范学校(École Normale Supérieure)的物理学家Eric DeGiuli认为,人类语言语法最简单的类型被称为无上下文文法(CFG),可以被视为物理对象,其”表面”包括所有可能的单词排列方式,包括原则上无意义的句子。DeGiuli表示,这些许多单词组合就像统计力学中的微观态——一个系统的组成粒子的所有可能的排列方式。
DeGiuli看到CFG从随机和杂乱无序的CFG突然转变为具有高信息量的CFG。这种转变类似于水的结冰过程。他认为,这种转变可能解释了为什么在发展的某个阶段,孩子学习如何快速构造语法正确的句子。
DeGiuli E. Random language model[J]. Physical Review Letters, 2019, 122(12): 128301.
https://physics.aps.org/articles/v12/35
5. 大语言模型中的相变与涌现
相变与涌现一文中笔者提到,没有预训练的Transformer是一张各向对称的白纸,也就是其语言空间的密度函数ρ是均匀的。这个语言空间的密度函数决定了系统的信息熵,如果我们把 ρ 表示成向量 η,则信息熵可以表示为 F(η)。
随着语料不断被 emdedding 同时基于注意力机制 transform 到这个语言空间,空间的密度 ρ/η 发生改变,信息熵 F(η) 随着改变,引发语言空间对称性破缺与重建。
这个过程可能会在局部区域不同尺度下持续进行。一旦触及临界点,对称性破缺引发相变,大模型就会在某些领域、不同长度上下文表现出各种神奇的涌现能力。也就是语言空间中,出现了局部的”学习语言需要相变”中提到的”语言结晶”。
6. 微软学者倡导用AI物理学研究大模型
Bubeck的AI物理学文中,微软总部研究院机器学习理论组负责人万引大神Sébastien Bubeck联手2023新视野数学奖得主Ronen Eldan、2023新晋斯隆研究奖得主李远志、2020斯隆研究奖得主Yin Tat Lee等人,在其论文《通用人工智能的火花:GPT-4早期实验》中申明:”GPT-4可被视作 AGI 的早期版本”。
Bubeck宣称传统机器学习已经不存在了,他和他的团队全面转向 AI 物理学。在机器学习中引入的所有工具在GPT-4的光芒下几乎无用且不相关,因为这是一个新领域。当然,我们不知道它会是什么样子,但我们尝试研究的方法是尝试理解”涌现现象”。
“让我们研究人工智能的物理学或者通用人工智能的物理学,因为从某种意义上讲,我们现在真正看到的是这种通用智能。那么,研究通用人工智能的物理学意味着什么?它的意思是,让我们试着借鉴物理学家过去几个世纪用来理解现实的方法论”。
Bubeck S, Chandrasekaran V, Eldan R, et al. Sparks of artificial general intelligence: Early experiments with gpt-4[J]. arXiv preprint arXiv:2303.12712, 2023.
7. Transformer等价于重整化群
Transformer的物理原理译文推导得出如下结论:Transformer模块的正向传递映射到响应数据的矢量自旋模型中的计算磁化。我们建议对一个一般矢量自旋系统的自由能求导,以得到一个完整transformer模块的架构蓝图。
通过从不相干的、统计力学的角度缩小和接近transformer,我们获得了transformer的物理直觉,当我们把自己局限在纷繁变化的显式神经网络架构时,这种直觉似乎很难获得。将transformer模块视为伪装的自旋模型不仅可以作为近似计算磁化的不同方法,统一架构变体,而且还可以阐释transformer在深度学习中的经验性质的成功。
Transformer 等价于重整化群(RG)。RG 就是在 Ising Model的研究中提炼出来的。重整化”可以说是过去50年理论物理学中最重要的进展”。重整化群包括一个由大量自由度描述的系统,RG逐级尺度执行粗粒度化操作,自由度子集被组合在一起平均,以形成新的集体变量/隐变量。物理尺度如何引申到信息理论的”尺度”概念呢?
题目:
Transformers Are Secretly Collectives of Spin Systems
https://mcbal.github.io/post/transformers-are-secretly-collectives-of-spin-systems/
8. 信息论下的贝叶斯重整化
贝叶斯重整化,一种受贝叶斯统计推断启发的完全信息理论的重整化方法,我们称之为贝叶斯重整化。贝叶斯重整化的主要观点是,Fisher度量定义了一个相关长度,它起到了一个重整化群尺度的作用,量化了概率分布空间中邻近点之间的可区分性。
贝叶斯重整化具有足够的通用性,即使在没有直接物理尺度的情况下也能应用,从而为数据科学环境中的重整化提供了一种理想的方法。我们将这个方程以及更广泛地使用贝叶斯推理动态更新信念的想法,称为动态贝叶斯推理(Dynamic Bayesian Inference,或Dynamical Bayes,DB)。DB的一个核心观察是,随着新数据的收集,”当前”最可能的模型流经”可能模型”的空间,流向真正负责生成观测数据的概率分布。
这一观察激发了这样一种想法,即重整化群流可以被视为与动态贝叶斯过程的”逆”过程,前者将数据生成模型降低到近似模型,后者将近似模型带回数据生成模型。
Berman D S, Klinger M S, Stapleton A G. Bayesian Renormalization[J]. arXiv preprint arXiv:2305.10491, 2023.
9. 重整化训练与采样生成过程
重整化群与生成式AI,文中讲到,如果用Z代表一张脸,借助我们刚才学会的群的数学形式可以表达为:G(Z) = G1G2G3G…Gn( Z )。这里的G1到Gn对应不同层次上Operation 或者说Transformation,也就是在各个层次的潜变量(”眼角、眉梢、到额头、五官,脸型,神态”)构成的新坐标系里面的矩阵代表的变换,一如俄罗斯套娃。
大家知道,这些潜变量都是对应着简单的高斯分布的,其实都是个随机函数,Gx(Z)也就是Z这张脸在这些潜变量函数基张成的空间中的样子。概率分布是归一的,也就是normalize,反复的normalize就是renormalize。
对一张图像,重整化从细颗粒度到粗颗粒度,逐层提取潜变量Zn, 提取图像中蕴含的各层次的结构;而生成图像的过程就是从粗粒度,对潜变量的高斯概率分布进行采样,重建下一个层次的结构(类似你跟别人描述这个人浓眉大眼)。
重整化的群变换 Gn 在生成过程中用到 Gn 的逆。GPT 和其他大语言模型的使用的Transformer其实就可以类比这些重整化的群变换G,但是目前没有看到学术研究 Transformer 是否严格有逆,也就是是否构成严格意义上的群。OpenAI应该是找到了这个逆。这是猫师傅没有交给虎徒弟的绝招。
Hu H Y, Wu D, You Y Z, et al. RG-Flow: A hierarchical and explainable flow model based on renormalization group and sparse prior[J]. Machine Learning: Science and Technology, 2022, 3(3): 035009.
10. 重整化群流作为最优输运
重整化群流作为最优输运,哈佛大学两位学者的RGF-OT这篇文章,他们不仅确定了精确重整化群流的方程等效于场的相对熵的最优输运梯度流,还巧妙的使用最优输运的思想将重整化群转化为变分问题,这种RG的变分形式除了具有理论意义外,还可用于设计计算传统场的重整化群流的神经网络。
尺度变换的每一步,RG Flow 的流向,都将会沿着最优输运的方向进行,也就是物理量的 RG Flow 尺度变换前的概率分布与尺度变换后的概率分布的距离最近的方向,而这就是 Wasserstein 距离决定的方向。
Wasserstein 距离是概率分布空间上的距离度量,在最优输运中起着核心作用,用于衡量两个概率分布之间的距离。世界的不断演进,都是冥冥中遵循最小化各种代价或成本的方式进行,最优输运某种意义上是自然演化的必然方向和准则。
Cotler J, Rezchikov S. Renormalization group flow as optimal transport[J]. Physical Review D, 2023, 108(2): 025003.
11. 大模型的数学物理认知框架
大模型的幻觉,解铃还须系铃人,文中总结了笔者对大模型的数理认知框架。
海量的文本或者多模态语料组成了大模型需要认知的外部世界的基本信息;嵌入构建高维概率化的语言空间,用来建模语言文字图像以及音视频,并对连续变量做离散化,例如时间序列, 人脑可能并不需要离散化。
预训练以重整化群流的方式进行,在不同尺度上提炼语料数据中的信息概率分布;重整化群流的每一步流动(自回归预测逼近训练语料概率分布),都沿着最优输运的成本最低方向进行。
重整化群在不动点附近因新语料带来微扰而发生对称性破缺,滑入不同的相空间;不同的相空间,对应某种意义上的范畴,可形象化为信息的结晶;这是大模型从语料中学到的内部世界模型。
在外部感官输入下(被提示置于某种上下文),大模型内部将限定在相应的高维语言概率空间的子空间内推理;推理是在子空间中采样,类比推理时跨范畴采样;采样不断进行,基于内部概率化了的世界模型(预训练获得的先验),针对感官输入(提示),做变分推断,最小化自由能,获取最佳采样分布q*,作为对导致感官输入的外部后验的预测。
12. 范畴的相变与知识的形成
范畴的相变与知识的形成,引用了万字长文介绍为大语言模型建立的”语言、统计和范畴”数学框架文中的总结:语言范畴中的对象是语言中的表达式,表达式之间用多头注意力捕捉的概率表征关系,构成概率丰富范畴。
仔细观察这个用概率丰富化了的范畴,由节点和节点之间的边构成,节点与边的概率由重整化群流的学习过程,通过例如Transformer的注意力机制提取。不断训练,不断提取。
当边的数量少时,范畴中仅有小部件;更多训练,更多的关系被注意力捕捉,生成更多的边,大部件开始出现;持续学习,最终可以将几乎所有节点连结在一起。重整化群流一层层提取语料中的潜变量和潜变量之间的关系,潜变量形成概率丰富范畴中的节点,而潜变量之间的关系形成该范畴中概率表征的边。这是一个随机的生成过程。
重整化群流生成概率丰富范畴的过程,从上文描述看,特点符合类似 Erdős-Rényi 生成随机图(Random Graph)的随机过程,只不过更加庞大而且复杂的非同质随机图。随机图是许多复杂系统的基础,严格映射到随机图,证明同构,可以确定系统将发生相变。同样, 非同质随机图相变也已经被理论上证明。
主要参考文献
1. 薛定谔 《What is Life?》 https://www.cambridge.org/core/books/what-is-life/A876185F2DB06FF5C2CC67C9A60DAD7F
2. Karl Friston “The free-energy principle” https://www.nature.com/articles/nrn2787
3. Ashish Vaswani, et al. “Attention Is All You Need” https://arxiv.org/abs/1706.03762
4. Philip W. Anderson “More Is Different” https://www.science.org/doi/10.1126/science.177.4047.393
5. Robert Kolenkow《An Introduction to Groups and their Matrices for Science Students》https://assets.cambridge.org/97811088/31086/frontmatter/9781108831086_frontmatter.pdf
6. Hong-Ye Hu, et al. “RG-Flow: A hierarchical and explainable flow model based on renormalization group and sparse prior” https://arxiv.org/abs/2010.00029
7. Jordan Cotler, et al. “Renormalization Group Flow as Optimal Transport” https://arxiv.org/abs/2202.11737
8. David S. Berman, et al. “Bayesian Renormalization” https://arxiv.org/abs/2305.10491
9. Tai-Danae Bradley, et al. “An Enriched Category Theory of Language” https://arxiv.org/abs/2106.07890
https://pattern.swarma.org/study_group_issue/549
学者简介
王庆法,二十多年从事数据与分析领域工作,先后服务于 IBM,微软,亚马逊等企业研发部门。现为世界500强龙头电子制造企业数字化转型的技术和分析负责人。长期研究深度学习、神经网络、以及现在大模型的数学物理原理。个人公众号”清熙”的作者。
王庆法老师在「GPT4 技术原理」的系列文章中,深度解析了 ChatGPT 获得智能的数学物理机理:
活动预告
AGI读书会进行中
为了深入探讨 AGI 相关话题,集智俱乐部联合集萃深度感知技术研究所所长岳玉涛、麻省理工学院博士沈马成、天普大学博士生徐博文,共同发起 AGI 读书会,涵盖主题包括:智能的定义与度量、智能的原理、大语言模型与信息世界的智能、感知与具身智能、多视角下的人工智能、对齐技术与AGI安全性、AGI时代的未来社会。读书会从2023年9月21日开始,每周四晚上 19:00-21:00,预计持续7-10周。欢迎感兴趣的朋友报名参与!
详情请见:
集智学园VIP双十一限时特惠,加入即可解锁集智所有资源,并有机会获得周边礼品!详情请见:《》
1.
贝叶斯重整化, 动态贝叶斯推理, 贝叶斯推理, 物理模型