文章主题:natural language processing, AI development, ChatGPT, AIGC

666AI工具大全,助力做AI时代先行者!

近期,ChatGPT引领了AI技术在公众视野中的热潮,引发了一场又一场关于AI发展方向及其未来趋势的广泛讨论。随着人们对于以ChatGPT为代表的AIGC技术的关注度不断提升,我们也邀请到了旷视研究院基础科研负责人张祥雨先生,参与到我们的对话中,共同探讨这一技术革新对计算机视觉、AIoT等产业发展的启示与影响。

01 ChatGPT在语言逻辑推理,高阶指代关系推理的能力很强

但是…

Q:你与ChatGPT对话了哪些内容,你的使用感受如何?

张祥雨是一位长期使用ChatGPT的用户,自从该模型发布以来,他几乎每天都离不开它。他的主要焦点在于ChatGPT的逻辑推理能力,而非其积累的知识。他认为,逻辑推理能力才是衡量一个模型是否具备类似人类思维水平的关键。尤其令他感到惊奇的是,ChatGPT在语言逻辑推理方面,特别是在多轮对话和高阶指代关系推理方面表现出色。然而,它在常识建模和数学逻辑方面的能力相对较弱,对于数字的敏感性也不强。总的来说,尽管它存在这些问题,但ChatGPT的表现仍然远远超出了他的预期。

关于近期 ChatGPT 的火爆现象,作为一名人工智能助手,我认为它确实推动了 AI 领域的新一轮发展。首先,ChatGPT 的出现,打破了传统的人工服务模式,让智能对话成为可能。它的出现,使得人们能够更加便捷、高效地获取信息,提高了生活质量。其次,ChatGPT 的出现,也推动了 AI 技术的应用。 previously,AI 技术主要应用于特定的领域,如语音识别、图像识别等,而 ChatGPT 的出现,让 AI 技术得以更广泛地应用于对话式人工智能助理的开发,从而推动了 AI 技术的普及和应用。此外,ChatGPT 的出现,也对教育产生了积极的影响。它为学生提供了一个全新的学习工具,让他们能够更好地进行自主学习和探索。总之,ChatGPT 的出现,不仅推动了 AI 技术的发展,也影响了人们的生活方式和教育方式,因此,它的出现是值得关注的。

张祥雨:我完全赞同这个观点。实际上,推动人工智能领域新一轮发展的是多种因素,而不仅仅是ChatGPT。近年来,学术界在大型AI模型以及尤其是自然语言处理领域取得了显著的进步。那么,这里的的核心理念究竟是什么呢?其实,与大模型背后的 scaling law(规模律)的特性密切相关。简而言之,在大模型中,我们可以通过不断增加数据和扩大模型规模来不断提升性能。

对于Scaling Law的概念,事实上它并非新颖,它在近十年来深度学习的发展历程中,几乎贯穿了始终。然而,尽管这一定律已经被广泛接受,但在其出现之前,许多人却认为Scaling Law已经接近尾声。这是因为在模型规模和数据量不断增大的过程中,模型的收益逐渐减少,表现出一种“边际效应递减”的现象:随着数据的增多,模型的提升效果变得越来越不明显,性价比也相应地降低。

在过去的两年中,NLP大模型领域出现了一种前所未有的现象。当模型的参数量和训练数据量达到千亿级别时,模型的高级认知能力实现了突发性的提升,这一增长趋势在过去从未被发现过。以往的经验表明,略有增加的数据量就能带来模型的性能提升。然而,在亿级的参数附近,即使仅仅增加一点点数据,模型也会突然展现出过去未曾拥有的推理能力,甚至激发了人类所特有的思维链能力。这种跨越式的发展背后的推动力来自于多种技术,例如代码预训练等,它们共同促成了这一奇迹的发生。

所以我觉得这件事是非常了不起的,它不仅仅可以带来很多产业上的用途,它的影响力甚至可能已经超过了AI这个领域。对人们如何理解思维,揭示人类智能产生的起源也有非常大的启发价值。

Q:你如何看待ChatGPT的应用趋势呢?它会对哪些行业产生影响?

张祥雨:应用这块我觉得大家见仁见智。以现在ChatGPT它所代表的大模型的发展水平,大家最看好的、最先落地的应用可能是智能搜索引擎,此外像各种文字编辑工作,以及各种垂直领域都有落地的潜力。当然在落地过程中可能也会遇到一些问题,比如说如何保证答案的精准程度,如何保证生成的内容是正确的,以及在部署推理的时候要怎么把这个大模型给用起来,真正做到高效并且降低运行成本,这都是落地时需要讨论的。但是我认为,目前以ChatGPT为代表的AIGC,包括它背后的大模型的意义,不仅仅是在落地本身,在我看来它的科研价值可能更大。

Q:可以展开讲讲ChatGPT的科研价值吗?

张祥雨:科研价值主要体现在研究人类智能如何产生。其实从技术角度来看,AI大模型的设计和训练过程并没有专门针对智能做特殊的设计。它的逻辑推理、思维链、reasoning的能力,是研究人员通过大幅增加参数量、增加训练数据量的过程中突然激发出来的,这个现象是非同寻常的。其实这和生物的进化包括人类的进化史也是非常像的,从底等生物、高等生物再到人类,进化过程中的思维能力也是突然产生的。

这种突然产生的智能背后不是靠专门的设计,是模型自然而然所形成的。关于这一点到底要如何理解?现在“有智能”的大模型相对于原来“没有智能”的那些模型到底产生了哪些质变?这些都是非常前沿且有趣的课题,值得我们探索。

02 生成式大模型有望突破图像大模型的上限,并推动底层架构的统一

因为…

Q:你觉得大模型到达规模上限了吗?未来模型还会越来越大吗?

张祥雨:我认为规模化这件事很难说,当我们突破初步的逻辑推理能力这个瓶颈以后,我相信很快会遇到另一个瓶颈,主要是scaling law要如何持续的问题,很可能通过增加数据量获得的收益会再次陷入非常微小的状态。到底下一个大的突破口是不是要继续增加数据,这条路线是否可持续,现在还很难说,需要我们去探索。

我认为scaling law要继续走下去问题是很大的,主要原因之一就是数据,现在我们比较容易获取的数据,尤其是高质量的数据,以及相对容易监督的数据已经快要耗尽了,进一步增加数据很可能都是很低质的或者是未经筛选的数据,如何把这些数据用起来本身就是难题。其次就是训练算法,尤其是监督算法,我们知道这波大模型很依赖于像Auto-regressive(自回归)这种自监督、弱监督的训练算法,这套训练算法的上限在哪?怎么样把高质量的human label加进去?尤其是像ChatGPT用了很多技术,比如RLHF等,本身需要大量的人类参与,仅靠它本身很难scale up,很难短时间内获得这么多的监督数据。在这种情况下,如何让scaling law继续走下去还是很困难的。

最后一点就是算力的限制,现在大模型已经快触及算力的上限了,如果硬件或者系统架构没有显著变化的话,模型想再scale up上去有很大困难。

Q:那你们找到降低训练成本的方法了吗?

张祥雨:其实在过去一年,我们团队在如何高效的scale up这一块做了很多努力和尝试,因为我是搞视觉的,所以我主要还是针对视觉模型的scale up,比如说去年年初我们发现采用大卷积核的设计方式,就是scale up卷积核的大小,可以起到快速提升视觉感受野的作用,并且通过重参数化等一系列方法,解决了scale up卷积核的大小带来的各种掉点问题。以及像去年年底我们提出了一种RevCol结构,它是一种可逆神经网络的特例,它的最大好处是可以不断增加模型的column数量,相当于一种新的scale up的方式,并且在scale up的过程中不显著增加模型的显存消耗,这对训练很大的大模型还是非常有用的。

但也面临很多挑战,比如我们现在发现最大挑战来自于视觉和自然语言的差异,自然语言随着scale up,会有模型的推理能力突然增加这种非同寻常的、突变的现象,但是直到目前我们把视觉模型scale up,还没发现这种现象,到底是scale up不够多,还是scale up的方式不对,还是算法不对,还有很多问题需要探索。我认为如何把视觉模型,尤其是视频这种具有时序性的、信息密度很低但是信息总量很高的数据有效利用起来,然后再设计相关的无监督、自监督的方法,让模型能够从中学到信息,这点非常关键。

Q:去年的技术开放日上你提到了“大”和“统一”是当今视觉AI系统研究的新趋势,也分享了旷视的四大模型,它们将迎来怎样的新局面?旷视在大模型里又有哪些布局呢?

张祥雨:其实我去年提到大和统一的时候,已经看到了视觉模型的规模化、扩大化可能带来的收益,但是坦白说在开放日的时候还没有完全想清楚,“大”是很清楚了,但是“统一”具体是要统一哪一块其实我还没有定论。但到去年年底的时候,我们通过一系列的实验和验证,发现了“统一”的落脚点应该是在识别类问题和生成类问题上的统一。我们知道生成类的问题比如AIGC,它们都是通过生成式的模型产生的;而判别式问题比如传统的分类、检测、分割等,其实从原理上来说既可以用生成类模型来实现,也可以通过判别类模型实现。但是为了简单,我们在视觉落地的时候一直用的都是判别式模型。

但判别式模型有一个非常大的缺点,当模型很小的时候很好用,但一旦需要scale up到很大的量级的时候,会发现它对数据尤其是人工标注的数据要求非常高。第二,它的scaling law目前已经遇到了上限,大概就是两个billion参数左右,一旦判别式视觉模型的性能和参数量到了两个billion左右,出现了饱和的现象,继续扩大模型规模,增加训练数据量,都很难再提升模型性能了。但是生成式模型,我们发现即使它scale up到两个billion甚至更大的20个billion左右,它的性能还在持续上升。

这说明什么问题呢?就是生成式模型能更好地利用数据本身的特点,尤其是可以更好的利用无标签标注的数据。所以我们就设想能不能利用生成式模型的特性,统一地解决一系列识别类和生成类的问题,这也是我们今年的核心工作重点,就是要用生成式的模型来实现整个视觉大模型的统一。

我去年技术开放日上提到的四大模型:通用图像大模型、计算摄影大模型、通用视频大模型,以及自动驾驶大模型,这几条线我们都在持续地推进。例如计算摄影模型,它的一大用途是做图像修复或是图像重建任务。此前,大家做这些都是依赖成对的输入输出的数据。但是现在有了生成式大模型,就可以不这样做了,我们可以先在大量高清图像上建模真实世界中的图像分布P(X)。有了这个模型,图像恢复的任务变得非常简单,我们可以在真实图像的流形上找到距待复原图像的最近邻点,作为图像重建的结果。这种方式不依赖具体的传感器设备,也不依赖具体的图像退化模型就可以实现“万能”的图像恢复。

最后是关于各种任务的大统一,比如说使用通用的生成式模型来统一分类\检测、分割,各种视频理解任务,以及条件图像生成、图像修复等,都在同步推进,大家可以关注我们后续的发布。

03 我们的选择是专注在“AI in Physical”,从物理世界中来,到物理世界中去

虽然…

Q:像这类LLM模型(大型语言模型)的发展,会对计算机视觉的发展有何启发?

张祥雨:其实LLM就是我们说的大型语言模型,它之所以这么成功尤其是这两年又得到大量的关注,跟它在scale up的过程中发现了一些异乎寻常的现象有很大关系:LLM模型在scale up的过程中,大家发现它突然产生了逻辑推理能力以及一定的思维能力等等。所以我觉得对视觉的启发就是,我们在视觉领域是否也能得到一个类似“异乎寻常”的现象。当然现在视觉模型从大小上来说还是跟语言模型差很远,继续走scale up这条路到底是不是对的,现在还不好说。但是既然scale up这条路在语言上已经取得了这么大的成就,我们觉得还是非常有必要在视觉上也尝试一下是不是能走通。

除此之外,视觉模型如果要对实际落地产生影响,它还有很多比语言模型更加麻烦的地方,因为我们知道语言是人类创造的,但是视觉是大自然中本来就有的,并且其中也会融入人的理解,那么相对而言视觉在建模方面会比语言更难一些,不仅要处理好数字世界中的关系,还要处理跟真实物理世界进行交互的能力。

具体到大模型这个领域,我们知道大模型主要成功依赖的是数据和模型的不断的增长,但是在计算机视觉,一旦涉及到物理世界我们会发现,无论是数据的收集还是数据的计算处理,以及与外界的感知交互,scale up起来难度更大一些。

首先是数据的获取,我们知道语言模型可以从网络上收集大量的人类互相问答还有各种文章的数据。图像当然也可以,收集大量的网络图像,但为了实现真正的落地应用,比如各种工业场景,像自动驾驶、机器人等,这不是仅靠收集网络图像就能解决的,还必须得有特定场景的专门数据;如何获取并且有效地利用这些数据,本身就是一个比较困难的问题。

其次是算法,像这一波大模型的风潮很大程度上可以归结为自监督算法的成功。所谓自监督算法意思是监督信号不再需要人类一个一个进行标注,可以从数据自身的信息中进行自我监督、自我训练,这样才可以scale up到非常大。对语言来说,我们有好几种自监督手段,比如说可以不断地通过前面的词、前面的句子来预测下一个字是什么,就像大家写文章一样,这种我们称之为Autoregressive(自回归)模型。

视觉里面也有类似的做法,比如说像最近非常火的MIM(掩码图像建模)算法,我们可以把图像捂住一块,预测被捂住的一块是什么。但是我们也发现目前MIM这套框架以及其他自监督框架都有一些问题,当它扩展到更大的数据集时,它的表现并不如在语言模型中见到的这么明显,事实上当我们不断地增加数据达到一定规模以后,它的性能提升就停滞了,于是我们就不得不想一些新的办法。这块其实目前还没有得到特别好的解决,更多的还是依赖于人类标注的数据。

最后一块是关于跟外界的交互。在AI in physical world应用中,当模型依据视觉信号做了一个动作或是产生了一个策略,我们要判断它好不好,很多时候是要落实到物理世界中去,比如需要控制自动驾驶车辆、机械臂、仓储机器人等等,跟物理世界产生一些交互,交互的结果将会影响我们下一轮决策。

其实说起和现实世界的交互,目前的自然语言大模型已经有所涉及了,例如OpenAI他们做ChatGPT之前还做了一个WebGPT的项目,就是与互联网产生交互。比如阅读一段文本,它为了理解这段文本就需要操作搜索引擎去检索一些信息来支持它做下一步的输出,它需要跟互联网世界产生交互,这个交互体现为一个搜索的动作。当然,这种动作是发生在数字世界的,相对而言是比较容易的。但是做视觉的经常要跟物理世界进行交互,操作一个机械臂或是操作一个自动驾驶的机器人,从安全性和效率上考虑,这种交互闭环的形成肯定是不如在数字世界这么方便、高效且安全的,里面有很多坑需要我们去填。

Q:旷视会怎么去做这个布局呢?

张祥雨:我认为旷视这些布局还是要扎根具体的公司主营业务,包括几大AIoT的场景,从每一个场景出发,我们得先把“从物理世界中来,再到物理世界中去”的这条闭环跑通。只有形成了数据闭环、反馈闭环,模型得到监督信号才会越来越多,我们才有条件把这个模型越做越大,我认为这是最重要的一点。所以我们说“大”和“统一”的趋势是不可阻挡的,是我们现在解决AI in physical world的主要思路,但是要形成更大的规模化就必须要打通全链路,这无论是在商业布局还是在科研方面都必须要坚持的一点,就是要创造条件,想办法为模型做大提供契机。

Q:这些会对AIoT的设备提出怎样新的要求?

张祥雨:对AIoT设备的要求更多还是体现在算法和硬件要进行co-design上。因为每一种硬件、各种传感器和各种执行器一定是跟算法匹配的,不同的算法会对应不同sensor性能要求和不同的使用方式,这也是我们做AIoT或者是AI in physical world所必须要考虑的一点。

Q:最近新闻报道也比较多,大家对于这项技术的高度关注,试用反馈、解读,是不是给了你一些新的启发?

张祥雨:全民开始关注AI是一个非常好的现象,说明我们这个领域切切实实能够产生社会影响。其实,每一波热点不管能不能持续下去,在某种程度上都促进了社会的进步,会诞生一些新的产品,启发一些新的科研方向等等。

Q:刚才你也提到了ChatGPT的爆火与做科研坚持长期主义有关。之前你也分享过基础科研应该遵循的原则是原创、实用、本质,你现在还是这种想法吗?

张祥雨:肯定是。因为你只是follow,不追求原创会陷入一个很大的陷阱,就是你去follow是可以的,但因为没有亲身去体验过这种创新过程,回避了过程中走过的弯路,很可能造成对这个技术边界判断不清晰,即使以后确实复现完成了,但你对这项技术可以做成什么事是缺少判断的,钱、资源都投进去了,结果发现解决不了问题,而别人原创团队已经做下一个了。这种状态肯定是出不了世界级的成果的,无论是科研还是业务,这肯定是不行的。

Q:能否简单总结一下你对AI发展的看法。

张祥雨:AI应用的路线主要分为两条,一条叫AI in Digital World,一条叫AI in Physical World,即AI在数字世界和物理世界中的应用。像ChatGPT主要体现的还是以AIGC为代表的技术在AI in Digital World的应用。旷视更多的还是关注AI in Physical World。AI in Digital World的东西当然可以应用于AI in Physical World,但是物理世界中的AI包含了更多的问题,包括如何从物理世界中得到信息,如何对这个信息进行处理,然后如何再把它应用到物理世界,最后如何再从物理世界中得到反馈。所以说,它是一个更难更有挑战性的问题。旷视将会沿着AI in Physical World这条路线继续探索。

祥雨和ChatGPT聊了什么?

问:你和ChatGPT都聊了什么?

答:主要是一些逻辑推理问题,比如A是B的父亲,C是A的兄弟……然后让它推D和E之间的关系,这个就是高阶关系建模能力和指代关系建模能力的测试。我发现它做得非常好,可以一步一步把逻辑链条推理出来,几乎不会错。我还问了它一些简单的数学问题比如小学应用题,既包含了一些语言逻辑,还包含了一些数学逻辑。我发现它的语言理解能力非常强,可以理解物体相互之间的空间位置关系等抽象概念,对什么时候要加、什么时候要乘理解得很准确。但我也发现它对数字不敏感,比如说4和7到底谁大,它有时候能做对,但有时候也做错。

问:Really?

答:如果直接问它4和7谁大,它几乎不会答错。但如果是在某一个语境里,比如,最后得出集合A有4个元素,集合B有7个元素,再问它谁多谁少,它经常判断错。它对大小关系非常不敏感,有时候它已经告诉你了准确的数字,比如一道题的两个选项算出的答案一个是21,另一个是22,明显22大于21,但它最后下的结论却是21大于22。另外,它经常会做错大数的乘法或加法。

所以我认为它在数学逻辑上和人还是有较大差距。当然如果问它的是模板题,它都可以做对。比如问它一元二次方程怎么解,它可以一步一步告诉你要怎么解。

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!

Leave a Reply

Your email address will not be published. Required fields are marked *