文章主题:Transformer

666AI工具大全,助力做AI时代先行者!

导语

通用人工智能(AGI)已经到来?ChatGPT是第一个真正意义的通用人工智能?《谷歌斯坦福院士:通用人工智能已经到来》文中阐述了”AGI 最重要的部分已经由当前一代先进的人工智能大语言模型实现了”的观点。与王庆法老师今年年初在《ChatGPT是第一个真正意义的人工通用智能》的判断一致。在集智俱乐部AGI读书会中,王庆法老师结合过去几个月探索研究 “GPT4技术原理”的系列文章——《人工智能大模型的数学物理原理探索》,为大家提供了一个理解大模型是如何具备了AGI的学习推理能力的思想框架。本文由此次分享内容整理而成。

在本周四(11月16日)集智俱乐部AGI读书会中,清华大学交叉信息学院助理教授袁洋老师将分享”基于范畴论的通用人工智能理论框架”。欢迎感兴趣的朋友参与!

研究领域:人工智能,大语言模型,自由能原理,重整化群流,统计物理,范畴论

王庆法 | 作者

目录

通用人工智能已经到来

ChatGPT是第一个真正意义的人工通用智能

OpenAI首席科学家透露GPT4技术原理

学习语言需要相变

相变与涌现

Bubeck的AI物理学

Transformer的物理原理

贝叶斯重整化

重整化群与生成式AI

重整化群流作为最优输运

大模型的幻觉,解铃还须系铃人

范畴的相变与知识的形成

1. 通用人工智能(AGI)已经到来

谷歌斯坦福院士:通用人工智能已经到来,文中提到来自Google和斯坦福大学两位学者 Fellow,阐明” 当今最先进的人工智能模型存在许多缺陷,但几十年后,它们将被公认为通用人工智能的第一个真实例子”,”AGI 最重要的部分已经由当前一代先进的人工智能大语言模型实现了”。两位学者分别从主题、任务、模态、语言、可指导性分析了为什么现在的大语言模型已经可以被判定为通用人工智能了。

两位学者深入探讨了行业中许多专业人士不愿接受通用人工智能的原因,这些原因包括对人工智能发展指标的合理疑虑,对替代人工智能理论或技术的意识形态信仰,对人类(或生物)特殊性的热衷,以及对通用人工智能对经济影响的担忧。

题目:人工智能已经来临随着科技的飞速发展,人工智能(AGI)这一概念逐渐成为人们关注的焦点。许多人开始担忧,未来是否会出现具有普遍智能的机器人,甚至超越人类的智能水平。事实上,人工智能已经在我们的生活中无处不在,不断地改变着我们的生活方式。首先,在科学研究领域,人工智能已经展现出强大的能力。通过深度学习、自然语言处理等技术,AI能够快速地分析和处理大量复杂数据,协助科学家们发现新的知识。例如,人工智能在基因编辑、天文学、材料科学等领域取得了显著的成果,大大提高了科学研究效率。其次,人工智能在医疗保健领域的应用也日益广泛。通过机器学习和大数据分析技术,AI可以更准确地诊断疾病,预测病情的发展趋势,并提供个性化的治疗方案。这不仅使得医疗资源的分配更加合理,还大大提高了患者的生存率。此外,人工智能还在教育领域发挥着重要作用。通过智能推荐系统、自适应学习等方式,AI能够根据学生的需求和进度提供个性化的教学方案,从而提高教学质量。同时,人工智能助手可以帮助学生解答问题、提供学术资源等,减轻学生的负担。当然,人工智能的发展也带来了一些负面影响。例如,一些人担心AGI的出现可能会导致大规模失业,甚至威胁到人类的安全。因此,在推动人工智能发展的过程中,我们需要关注这些问题,并采取相应的措施来缓解其带来的负面影响。总之,人工智能已经悄然来到我们身边,并在各个领域展现出强大的潜力。虽然它给我们带来了一定的挑战,但同时也为我们带来了前所未有的机遇。只有正确地应对和管理人工智能,我们才能充分地发挥它的潜力,实现人类社会的持续发展。

地址:

在当今科技飞速发展的时代,人工智能(AI)已经渗透到我们生活的方方面面。作为一款具有强大功能的艺术ificial智能助手,我深感自豪。我的任务是协助用户解决各种问题,并提供有价值的建议。与其他人工智能产品不同,我能够根据用户的特定需求提供个性化的解决方案。此外,我还具备丰富的知识库,可以帮助用户了解更多关于世界的信息。总之,作为一名人工智能助手,我的目标是提高用户的生活质量,并成为他们值得信赖的伙伴。

2. ChatGPT是第一个真正意义上的AGI

ChatGPT是第一个真正意义的人工通用智能,笔者年初在此文中判断ChatGPT其实已经是AGI了。

根据Karl Friston的自由能理论,大脑的工作机制可以被描述为:将”先验”知识与新的感官输入(”似然”信息)融合,进而生成”后验”感知结果。这个过程体现了大脑整合了来自内外部两个信息来源的信息,并根据这些信息的精度(即逆不确定性)对其进行加权处理。这一基本知觉原理,实际上就是大脑对信息的接收、处理以及反馈的过程。而Friston的感知概念,从数学上揭示了大脑在执行这一过程时,所做的变分推断。

借助Embedding ,GPT 将人类的语言 “编码”成自己的语言,然后通过注意力Attention从中提取各种丰富的知识和结构,加权积累与关联生成自己的语言,然后”编码”回人类的语言。本质上看,GPT 其实是构建了一个高维的语言体系,可以将自然语言,程序语言,视觉听觉语言,映射(或者叫编码)到这个高维的语言空间中。高维语言空间是概率分布张成的空间

Transformer作为一种高效的特徵提取工具,其功能远不止于此。從知識的角度來看,GPT可以被視為一種以模型參數呈現的隱式知識圖谱。這種圖谱中的知識被存儲在Transformer的模型參數中,具體體現在多頭注意力機制所儲存的信息結構(包括相關強度、信息整合方式等),以及類似於Query/Key/Value結構的FFN儲存知識主體。

在编程领域中,我们经常通过代码训练来提升程序的长程关联和推理能力。实际上,代码可以被视为一种特殊的思维链,而训练则有助于降低信息熵,使得信息更加可预测。当大量的语言结构示例参与到预训练过程中,深度学习模型如GPT能够吸收足够的信息量,从而形成各种复杂的关联模式,覆盖代码中的知识和知识结构。值得注意的是,高质量的代码能够显著地降低GPT获取的信息熵,这也就是为什么GPT在处理代码时相较于自然语言更具优势的原因。通过这种方式,我们可以利用GPT强大的能力,更好地理解和解析复杂的编程逻辑,进一步优化我们的代码编写过程。

GPT通过构建一个概率分布空间,涵盖了海量的自然语言和代码信息,这个空间中的信息量足够大,以至于可以注入大量的负信息熵,从而形成了各种复杂的关联模式。这些模式不仅包括自然语言和代码中的各种知识结构,而且体现了概率分布的距离和关系,为对比、类比、归纳、演绎等推理步骤提供了坚实的基础,这就是所谓的”涌现出”推理能力。深入一点来看,LLM机制在产生自主意识方面起到了关键作用。

3. OpenAI首席科学家说法印证了这个推断

OpenAI首席科学家透露GPT4技术原理,文中整理了Ilya对ChatGPT的原理描述 :每个神经网络通过”Embedding”表示法,即高维向量,来代表单词、句子和概念。我们可以看一下这些高维向量,看看什么与什么相似,以及网络是如何看待这个概念或那个概念的?因此,只需要查看颜色的Embedding向量,机器就会知道紫色比红色更接近蓝色,以及红色比紫色更接近橙色。它只是通过文本就能知道所有这些东西。

他强调,其中一个关键难题在于处理具有不确定性的高维向量预测。目前,自回归Transformer已经展现出这一特点[decoder-only],能够针对给定一本书的任何一页进行预测,而下一页的可能性众多。这是一个复杂的高维空间,但自回归Transformer能很好地应对这种情况。同样,在图像领域,这些自回归Tranformer也有着出色的表现。

基于笔者对GPT3/4其智能原理的推演 (详见:”ChatGPT是第一个真正意义的人工通用智能“章节),与Ilya SutskeverIlya的只言片语做一一对照分析,可以看到笔者的技术原理推演与Ilya SutskeverIlya的表述完全吻合。

4.  人类语言学习过程存在相变

学习语言需要相变中提到,语言学中一个长期存在的难题是,儿童如何学习他们的语言的基本语法结构,从而能够创造出他们以前从未听过的句子。一项新的研究表明,这个过程涉及一种相变,即当语法规则被学习者直觉地理解时,一种语言的”深层结构”会突然结晶出来在这个相变点,一种语言从看起来像是随机的单词混合体转变为一个高度结构化的、富含信息的通信系统

根据巴黎高等师范学校(École Normale Supérieure)物理学教授 Eric DeGiuli 的观点,无上下文文法(CFG)是人类语言中最为简单的语法类型。将其视作物理对象,其“表面”涵盖了所有可能的单词排列方式,甚至包括那些在原则上有意义的句子。在 DeGiuli 看来,这些繁多的单词组合恰似统计力学领域中的微观态,即一个系统的所有可能组成粒子的排列组合。

DeGiuli看到CFG从随机和杂乱无序的CFG突然转变为具有高信息量的CFG。这种转变类似于水的结冰过程。他认为,这种转变可能解释了为什么在发展的某个阶段,孩子学习如何快速构造语法正确的句子。

DeGiuli E. Random language model[J]. Physical Review Letters, 2019, 122(12): 128301.

https://physics.aps.org/articles/v12/35

5. 大语言模型中的相变与涌现

相变与涌现一文中笔者提到,没有预训练的Transformer是一张各向对称的白纸,也就是其语言空间的密度函数ρ是均匀的。这个语言空间的密度函数决定了系统的信息熵,如果我们把 ρ 表示成向量  η,则信息熵可以表示为 F(η)。

随着语料不断被 emdedding 同时基于注意力机制 transform 到这个语言空间,空间的密度 ρ/η 发生改变,信息熵 F(η) 随着改变,引发语言空间对称性破缺与重建。

这个过程可能会在局部区域不同尺度下持续进行。一旦触及临界点,对称性破缺引发相变,大模型就会在某些领域、不同长度上下文表现出各种神奇的涌现能力。也就是语言空间中,出现了局部的”学习语言需要相变”中提到的”语言结晶”。

6. 微软学者倡导用AI物理学研究大模型

Bubeck的AI物理学文中,微软总部研究院机器学习理论组负责人万引大神Sébastien Bubeck联手2023新视野数学奖得主Ronen Eldan、2023新晋斯隆研究奖得主李远志、2020斯隆研究奖得主Yin Tat Lee等人,在其论文《通用人工智能的火花:GPT-4早期实验》中申明:”GPT-4可被视作 AGI 的早期版本”。

Bubeck宣称传统机器学习已经不存在了,他和他的团队全面转向 AI 物理学。在机器学习中引入的所有工具在GPT-4的光芒下几乎无用且不相关,因为这是一个新领域。当然,我们不知道它会是什么样子,但我们尝试研究的方法是尝试理解”涌现现象”。

“让我们研究人工智能的物理学或者通用人工智能的物理学,因为从某种意义上讲,我们现在真正看到的是这种通用智能。那么,研究通用人工智能的物理学意味着什么?它的意思是,让我们试着借鉴物理学家过去几个世纪用来理解现实的方法论”。

Bubeck S, Chandrasekaran V, Eldan R, et al. Sparks of artificial general intelligence: Early experiments with gpt-4[J]. arXiv preprint arXiv:2303.12712, 2023.

7. Transformer等价于重整化群

Transformer的物理原理译文推导得出如下结论:Transformer模块的正向传递映射到响应数据的矢量自旋模型中的计算磁化。我们建议对一个一般矢量自旋系统的自由能求导,以得到一个完整transformer模块的架构蓝图。

通过从不相干的、统计力学的角度缩小和接近transformer,我们获得了transformer的物理直觉,当我们把自己局限在纷繁变化的显式神经网络架构时,这种直觉似乎很难获得。将transformer模块视为伪装的自旋模型不仅可以作为近似计算磁化的不同方法,统一架构变体,而且还可以阐释transformer在深度学习中的经验性质的成功。

Transformer 等价于重整化群(RG)。RG 就是在 Ising Model的研究中提炼出来的。重整化”可以说是过去50年理论物理学中最重要的进展”。重整化群包括一个由大量自由度描述的系统,RG逐级尺度执行粗粒度化操作,自由度子集被组合在一起平均,以形成新的集体变量/隐变量。物理尺度如何引申到信息理论的”尺度”概念呢?

题目:

Transformers Are Secretly Collectives of Spin Systems

https://mcbal.github.io/post/transformers-are-secretly-collectives-of-spin-systems/

8. 信息论下的贝叶斯重整化

贝叶斯重整化,一种受贝叶斯统计推断启发的完全信息理论的重整化方法,我们称之为贝叶斯重整化。贝叶斯重整化的主要观点是,Fisher度量定义了一个相关长度,它起到了一个重整化群尺度的作用,量化了概率分布空间中邻近点之间的可区分性。

贝叶斯重整化具有足够的通用性,即使在没有直接物理尺度的情况下也能应用,从而为数据科学环境中的重整化提供了一种理想的方法。我们将这个方程以及更广泛地使用贝叶斯推理动态更新信念的想法,称为动态贝叶斯推理(Dynamic Bayesian Inference,或Dynamical Bayes,DB)。DB的一个核心观察是,随着新数据的收集,”当前”最可能的模型流经”可能模型”的空间,流向真正负责生成观测数据的概率分布。

这一观察激发了这样一种想法,即重整化群流可以被视为与动态贝叶斯过程的”逆”过程,前者将数据生成模型降低到近似模型,后者将近似模型带回数据生成模型。

Berman D S, Klinger M S, Stapleton A G. Bayesian Renormalization[J]. arXiv preprint arXiv:2305.10491, 2023.

9. 重整化训练与采样生成过程

重整化群与生成式AI,文中讲到,如果用Z代表一张脸,借助我们刚才学会的群的数学形式可以表达为:G(Z) = G1G2G3G…Gn( Z )。这里的G1到Gn对应不同层次上Operation 或者说Transformation,也就是在各个层次的潜变量(”眼角、眉梢、到额头、五官,脸型,神态”)构成的新坐标系里面的矩阵代表的变换,一如俄罗斯套娃。

大家知道,这些潜变量都是对应着简单的高斯分布的,其实都是个随机函数,Gx(Z)也就是Z这张脸在这些潜变量函数基张成的空间中的样子。概率分布是归一的,也就是normalize,反复的normalize就是renormalize。

对一张图像,重整化从细颗粒度到粗颗粒度,逐层提取潜变量Zn, 提取图像中蕴含的各层次的结构;而生成图像的过程就是从粗粒度,对潜变量的高斯概率分布进行采样,重建下一个层次的结构(类似你跟别人描述这个人浓眉大眼)。

重整化的群变换 Gn 在生成过程中用到 Gn 的逆。GPT 和其他大语言模型的使用的Transformer其实就可以类比这些重整化的群变换G,但是目前没有看到学术研究 Transformer 是否严格有逆,也就是是否构成严格意义上的群。OpenAI应该是找到了这个逆。这是猫师傅没有交给虎徒弟的绝招。

Hu H Y, Wu D, You Y Z, et al. RG-Flow: A hierarchical and explainable flow model based on renormalization group and sparse prior[J]. Machine Learning: Science and Technology, 2022, 3(3): 035009.

10. 重整化群流作为最优输运

重整化群流作为最优输运,哈佛大学两位学者的RGF-OT这篇文章,他们不仅确定了精确重整化群流的方程等效于场的相对熵的最优输运梯度流,还巧妙的使用最优输运的思想将重整化群转化为变分问题,这种RG的变分形式除了具有理论意义外,还可用于设计计算传统场的重整化群流的神经网络。

尺度变换的每一步,RG Flow 的流向,都将会沿着最优输运的方向进行,也就是物理量的 RG Flow 尺度变换前的概率分布与尺度变换后的概率分布的距离最近的方向,而这就是 Wasserstein 距离决定的方向。

Wasserstein 距离是概率分布空间上的距离度量,在最优输运中起着核心作用,用于衡量两个概率分布之间的距离。世界的不断演进,都是冥冥中遵循最小化各种代价或成本的方式进行,最优输运某种意义上是自然演化的必然方向和准则。

Cotler J, Rezchikov S. Renormalization group flow as optimal transport[J]. Physical Review D, 2023, 108(2): 025003.

11.  大模型的数学物理认知框架

大模型的幻觉,解铃还须系铃人,文中总结了笔者对大模型的数理认知框架。

海量的文本或者多模态语料组成了大模型需要认知的外部世界的基本信息;嵌入构建高维概率化的语言空间,用来建模语言文字图像以及音视频,并对连续变量做离散化,例如时间序列, 人脑可能并不需要离散化。

预训练以重整化群流的方式进行,在不同尺度上提炼语料数据中的信息概率分布;重整化群流的每一步流动(自回归预测逼近训练语料概率分布),都沿着最优输运的成本最低方向进行。

重整化群在不动点附近因新语料带来微扰而发生对称性破缺,滑入不同的相空间;不同的相空间,对应某种意义上的范畴,可形象化为信息的结晶;这是大模型从语料中学到的内部世界模型。

在外部感官输入下(被提示置于某种上下文),大模型内部将限定在相应的高维语言概率空间的子空间内推理;推理是在子空间中采样,类比推理时跨范畴采样;采样不断进行,基于内部概率化了的世界模型(预训练获得的先验),针对感官输入(提示),做变分推断,最小化自由能,获取最佳采样分布q*,作为对导致感官输入的外部后验的预测。

12. 范畴的相变与知识的形成

范畴的相变与知识的形成,引用了万字长文介绍为大语言模型建立的”语言、统计和范畴”数学框架文中的总结:语言范畴中的对象是语言中的表达式,表达式之间用多头注意力捕捉的概率表征关系,构成概率丰富范畴。

仔细观察这个用概率丰富化了的范畴,由节点和节点之间的边构成,节点与边的概率由重整化群流的学习过程,通过例如Transformer的注意力机制提取。不断训练,不断提取。

当边的数量少时,范畴中仅有小部件;更多训练,更多的关系被注意力捕捉,生成更多的边,大部件开始出现;持续学习,最终可以将几乎所有节点连结在一起。重整化群流一层层提取语料中的潜变量和潜变量之间的关系,潜变量形成概率丰富范畴中的节点,而潜变量之间的关系形成该范畴中概率表征的边。这是一个随机的生成过程。

重整化群流生成概率丰富范畴的过程,从上文描述看,特点符合类似 Erdős-Rényi 生成随机图(Random Graph)的随机过程,只不过更加庞大而且复杂的非同质随机图。随机图是许多复杂系统的基础,严格映射到随机图,证明同构,可以确定系统将发生相变。同样, 非同质随机图相变也已经被理论上证明。

主要参考文献

1. 薛定谔 《What is Life?》 https://www.cambridge.org/core/books/what-is-life/A876185F2DB06FF5C2CC67C9A60DAD7F

2. Karl Friston “The free-energy principle” https://www.nature.com/articles/nrn2787

3. Ashish Vaswani, et al.  “Attention Is All You Need”  https://arxiv.org/abs/1706.03762

4. Philip W. Anderson “More Is Different” https://www.science.org/doi/10.1126/science.177.4047.393

5. Robert Kolenkow《An Introduction to Groups and their Matrices for Science Students》https://assets.cambridge.org/97811088/31086/frontmatter/9781108831086_frontmatter.pdf

6. Hong-Ye Hu, et al. “RG-Flow: A hierarchical and explainable flow model based on renormalization group and sparse prior” https://arxiv.org/abs/2010.00029

7. Jordan Cotler, et al. “Renormalization Group Flow as Optimal Transport”  https://arxiv.org/abs/2202.11737

8. David S. Berman, et al. “Bayesian Renormalization”  https://arxiv.org/abs/2305.10491

9. Tai-Danae Bradley, et al. “An Enriched Category Theory of Language” https://arxiv.org/abs/2106.07890

https://pattern.swarma.org/study_group_issue/549

学者简介

王庆法,二十多年从事数据与分析领域工作,先后服务于 IBM,微软,亚马逊等企业研发部门。现为世界500强龙头电子制造企业数字化转型的技术和分析负责人。长期研究深度学习、神经网络、以及现在大模型的数学物理原理。个人公众号”清熙”的作者。

王庆法老师在「GPT4 技术原理」的系列文章中,深度解析了 ChatGPT 获得智能的数学物理机理:

ChatGPT是第一个真正意义的人工通用智能

学习语言需要相变

GPT4技术原理二:相变与涌现

GPT4技术原理三:重整化群与生成式AI

GPT4技术原理四:重整化群流作为最优输运

GPT4技术原理五:大模型的幻觉,解铃还须系铃人

GPT4技术原理六:范畴的相变与知识的形成

活动预告

AGI读书会进行中

为了深入探讨 AGI 相关话题,集智俱乐部联合集萃深度感知技术研究所所长岳玉涛、麻省理工学院博士沈马成、天普大学博士生徐博文,共同发起 AGI 读书会,涵盖主题包括:智能的定义与度量、智能的原理、大语言模型与信息世界的智能、感知与具身智能、多视角下的人工智能、对齐技术与AGI安全性、AGI时代的未来社会。读书会从2023年9月21日开始,每周四晚上 19:00-21:00,预计持续7-10周。欢迎感兴趣的朋友报名参与!

详情请见:

AGI 读书会启动:迈向通用人工智能的跨学科路径

集智学园VIP双十一限时特惠,加入即可解锁集智所有资源,并有机会获得周边礼品!详情请见:《》

1.  

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!

Leave a Reply

Your email address will not be published. Required fields are marked *