大模型背后的算力机遇与挑战：超算互联网引领国内算力产业发展

文章主题：AI大模型, 算力产业, 超算互联网, 红与黑

在今年年初，ChatGPT的问世无疑为人工智能大模型概念带来了巨大的冲击。如今，我国的大模型市场正经历着繁荣的发展阶段，它们正逐步从基础通用领域向垂直行业领域拓展，为各个行业提供更为实用且高效的性能提升。随着大模型市场的不断扩大，作为其基础设施的算力产业也正面临着快速发展的机遇。

在产业的快速成长阶段，总是伴随着各种机遇与挑战。当前，我国的算力行业正处于一个充满变数的时期，一方面，算力的建设正在蓬勃发展，另一方面，的几朵乌云却给这个行业的发展带来了不明朗的前景。

近期，我国 hosting a landmark meeting, the 2023 China Calculation Development Conference, at the Institute of Computing, Chinese Academy of Sciences. The gathering was a monumental occasion, bringing together eminent professionals such as Academician Chen Runsheng, Professor Qian Depu, Academician Zheng Weimin, and Professor Li Ang. Additionally, it was attended by Mr. Y乌晓晖, Secretary-General and Vice President of the National Information Center, Mr. Sun Ziguang, Director-General of the Institute of Computing, and Dr. Zhang Yunquan, among many others from the academic and professional community.The conference provided a platform for prominent experts and scholars to delve into the opportunities and challenges presented by “ChatGPT” and its impact on computational resources. The aim was to identify the equilibrium and breakthrough points in the development of the industry, thus bridging the gap between the potential benefits and risks associated with this emerging technology.

红：算力建设的红火局面

对于大模型的运行，所需的算力是一个关键参数。在这里，我们以GPT-3.5为例来进行分析。据我们所知，GPT-3.5的总算力消耗约为3640PF-days。这个数字可能看起来非常庞大，但我们需要将其转化为更直观的理解方式。如果我们把每秒钟的计算次数看作是单位，那么以每秒一千万亿次计算的速度，需要的运行时间就是3640个整日。这仅仅是GPT-3.5在训练阶段所需要的算力，而在实际应用中，它还可能需要更多的算力来提供足够的响应速度和准确性。

仅仅是大模型所需的算力便已经达到了惊人的规模。根据中国科学技术信息研究所发布的《中国人工智能大模型地图研究报告》，我国已有79个大模型在10亿级参数规模上发布。这些大规模模型的出现，引发了海量算力的需求，从而推动了我国算力基础设施建设的步伐加快。目前，我国的算力基础设施建设速度在全球范围内位居前列，其年增长率接近30%，算力总规模达到了180EFLOPS，仅次于全球第一的俄罗斯。

随着大模型的不断成长，其对算力的需求也在持续增加，而计算中心的扩张似乎无法满足这些不断增长的需求。面对这种情况，我们不禁要问：如果“开源”提升算力的速度有限，我们是否可以采取一些“节流”的策略来提高算力的利用效率呢？实际上，在我们进行算力设施的建设过程中，发现算力资源并不均匀地分布在全国各地，这意味着我们有很大的提升空间来优化算力的使用效率。因此，如何在保证算力供应的同时，提高算力的利用效率，已经成为我们需要深入研究和解决的问题。

在此情况下，超算互联网作为算力链接方式出现。通过把全国各地单体计算中心链接起来，形成算力资源池，加强统筹调度。以提供多元算力，让算力使用门槛更低，提高算力使用效率。

而超算互联网的更深远的意义，并不只是从国家超算中心开始集结，汇聚起企业、区域小型算力中心资源等算力基建，把他们物理连接起来这么简单。

从长远的角度来看，超算互联网的意义在于，将连接人、算力、硬件、软件应用，以互联网运营思维形成系统性整体。某种意义上，超算互联网是在做一个算力产业的生态建设，最大的改变在于，从提供超算算力转变为提供超算算力服务和应用服务。通过汇聚起计算产业从硬件服务到软件应用，从算力供给到算力需求，团结所有力量，聚集各类资源。

研讨会上，专家们也对超算互联网最终形态做出了预测，他们认为超算互联网将如同信息时代的互联网一样，将以服务平台形式，让不同行业用户的基于不同需求，随意取用算力资源，分享应用成果。

未来使用算力就会像逛淘宝京东一样，用户登入算力平台即可调用想要的算力，不用思考算力背后的计算架构是否兼容，不用再做繁琐的编译开发；在算力支持下做出的应用成果，也可以在平台上架，其他用户根据自身需求可购买使用。

从算力基础设施建设，到超算互联网的推进，国内算力产业发展一片火热。同样，该领域同样面对着挑战。

黑：算力发展头顶的乌云黑影

算力发展背后存在的挑战，主要在于算力偏科、依赖进口、生态封闭三个问题。

近些年，对算力的火热追求，容易出现盲目扩张算力，缺乏通用统筹的现象。例如，某地区AI产业发展需要，急需补充专用算力，于是先批快建，落地的智算中心只能提供单一精度算力。可随着未来更多产业数字化深入发展，发现单一精度的算力，无法支撑更广泛的应用场景需求，这就出现了“算力偏科”问题。

对此，多位与会专家认为，解决“算力偏科”一方面需要全局统筹，以满足长远需求；另一方面，也需要以通用计算架构为底实现开放兼容，通过底层芯片全精度计算能力，让计算中心根据AI for Science、AI for industries提供不同算力，以“通专融合”解决“算力偏科”问题。

而在计算架构搭建过程中，也出现对国外芯片产品依赖严重的问题。算力基本实现单元是芯片，而早在去年，英伟达就开始断供A100、H100等先进GPU，导致国内缺货紧俏。再加之国内愈加激烈的大模型竞争，过渡追捧国外芯片产品，也让单卡价格飙升，A100最高单价已达15万元；并催涨其市值已经突破万亿美元大关。如何减少对进口芯片的依赖，还需产业共同探讨解决。

另外，在计算生态商业化发展中，也需要避免生态建设走向封闭。在以市场需求为导向的竞争中，有些产业链生态圈看似开放但实则偏向封闭，因业务边界不清晰，合作伙伴依附生存时，常出现下游方技术和客户被上游方被吃干抹净的“黑寡妇”行为。如何在生态发展过程中杜绝黑寡妇行径，让产业链生态走向开放协作，需要产业协同构建整体性方案，团结产业联盟合力，杜绝恶性竞争，携手良性发展。

以大模型为代表的人工智能技术，正像汹涌的潮水般席卷而来。时代之势，往往不能扭转，亦不可阻挡。在剖析算力的“红与黑”之后，我们要做的，就是把潮水驯化成先进生产力，为社会发展提供源源动力，立于时代的潮头，勇当发展的见证者与赋能者。

— 完 —

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章

Leave a Reply Cancel reply