算力行业云基建专题报告：AI浪潮持续催化，云端配套升级加速

文琳行业研究 2024-04-11

（报告出品：中银证券）

大模型引领 AI 商业化，轻量应用价值亦凸显

2022 年 11 月 30 日，美国人工智能研究公司 OpenAI 正式发布全球瞩目的人工智能聊天机器人 ChatGPT。该技术的推出轰动了全球，仅仅 5 天的时间，ChatGPT 的注册用户数量就突破了 100 万大关，到了 2023 年 1 月末，ChatGPT 的月活跃用户数突破了 1 亿，成为了历史上增长最快的消费者应用之一。这一突破性的成就使得 ChatGPT 为代表的人工智能聊天机器人，将全球带入了一场前所未有的科技革命，标志着"智能时代"正式拉开帷幕，人工智能从技术升级开始向商业化落地迅速演进。英伟达创始人黄仁勋则形容这一时刻为 AI 领域的"iPhone"时刻。二十一世纪被称为信息时代。各种新兴技术如人工智能、机器学习、区块链、5G 和物联网等，每时每刻都在产生海量的数据，并将这些数据应用于人们日常生活的各个领域。数据已经成为继土地、劳动力、资本和技术之后的第五大生产力要素。根据 IDC 预计，2021 年全球数据总量达到 85ZB，并将在 2025 年达到 175ZB， CAGR 达到约 20%。庞大的数据为 AI 模型的诞生孕育了肥沃的土壤。

人工智能正逐渐走进我们的日常生活，与人们的生活越来越密切地联系在一起。而这一切的基础是数据和算力。数据的丰富和高效的算力，为人工智能的快速发展和商业应用提供了坚实的支持。在人工智能的浪潮中，数据被喻为"新的石油"，而强大的算力则是推动 AI 技术腾飞的引擎。

OpenAI 在从 GPT-2 模型升级到 GPT-3 模型时，其参数数量从 15 亿增长至 1750 亿级别。随着参数规模的增大，算力负担也相应增加。如果要在更短的时间内运行更大的模型，就必须进一步增加算力。在可预见的未来，算力将成为各大 AI 企业必须提升的关键技术能力。只有拥有足够的算力，才能支持更复杂、更庞大的人工智能模型，使其能够在实际应用中发挥更高的效能。AI 企业将不断探索和投资于新的计算技术，以确保其在竞争激烈的市场中保持领先地位。同时，算力的提升也将推动着人工智能技术的不断进步。更强大的算力意味着更复杂的模型和更深层次的学习，这将有助于改善人工智能系统的性能和智能化水平。因此，算力的不断增强不仅是 AI 企业的必然需求，也是人工智能技术发展的驱动力。

海外主要大模型包括 OpenAI 的 ChatGPT-3、 Anthropic 的 Claude、英伟达与微软的 Megatron Turing-NLG 以及 Meta 的 OPT 等。中国大模型主要包括百度文心、华为盘古、阿里通义、腾讯混云以及商汤的视觉模型等。百度推出文心大模型，基本实现跨模态和多下游多领域的应用，目前已上线文心一言。腾讯主要通过多模态解决语言理解与图像生成的问题。

在多模态大模型迈向商业化的同时，边缘级轻量化应用亦凸显价值。随着深度学习模型在各个领域的广泛应用，算力的消耗需要足够的硬件支持才得以运行。对于如何将大型模型轻量化部署到端测设备以及如何在小数据领域进行轻量化微调亦成为业界关注的焦点。一方面，在云端运行 AI 大模型，成本往往极高，受众较少。另一方面，如果能在本地运行，将带来如隐私保护等诸多优势。自 ChatGPT 发布以来，业内正对边缘级轻量化应用进行持续探索。

以谷歌 PaLM 2 为例，2023 年 5 月 11 日，谷歌发布全球首个支持边缘端的大模型 PaLM 2，开启了从云到端的终端交互革命。谷歌在大语言模型的小型化上，取得了非常重要的进步。而且在谷歌 I / O 大会上，还同时发布了 4 个参数更少的模型。其中最小的一款模型 Gecko（壁虎），甚至可以在智能手机上运行。我们认为轻量化应用将直击大模型训练成本高昂的痛点，配合特定行业场景以及参数调优，端侧的应用将为 AI 商业化带来更广阔的空间。

7 月 20 日，2023 世界半导体大会开幕式在南京举行，中国工程院院士倪光南发表主题演讲。他提供了一组数据：中国单位 GDP 的数据存储量只有美国 70%左右，而人均数据存储量，美国是中国的 9 倍。美国为 212GB/人，中国约为 25GB/人。从闪存占比看，全球是 41.3%，美国是 56.4%，而中国只有 20.3%。因此，倪光南建议通过政策引导力推 SSD（固态硬盘）取代 HDD（机械硬盘）。中国新型半导体存储产业链相对完整。上游芯片方面，NAND Flash 领域有长江存储；DRAM 有长鑫。闪存主控芯片方面生产厂商较多；NAND Flash 存储芯片的核心设备刻蚀机方面，中微公司的刻蚀机已经突破 5nm 工艺，达到国际领先水平。生产 SSD 主控芯片和 DRAM 的光刻机工艺为 12～28nm，不需要 EUV 光刻机，“卡脖子”风险较低。

存力算力封力三位一体，产业链再迎新机遇

AIGC 有望拉动全球云硬件需求增长，服务器则是 AI 算力的核心。由于全球经济疲软及通胀等因素， IDC 预计全球服务器出货量增速在 2023 年下滑，2024 年有望重回稳健增长轨道。AI 服务器方面， TrendForce 不断上修 AI 服务器出货量，预计 2023 年 AI 服务器（包含搭载 GPU、FPGA、ASIC 等）出货量近 120 万台，年增 38.4%，占整体服务器出货量近 9%，至 2026年将占 15%，同步上修 2022~2026 年 AI 服务器出货量年复合成长率至 22%。我们认为 AI 创新引发的算力“军备竞赛”将推动云基础设施超预期成长。

从服务器产业结构来看，服务器行业的上游主要由组成服务器的核心部件构成，其中包括 CPU、内存、硬盘、电源以及连接器等关键组件。在服务器产业中游，主要由系统集成商和服务器厂商构成。从硬件角度来看，与传统服务器相比，人工智能（AI）服务器通常配备高性能的 GPU 或 TPU 加速器，拥有大容量的显存和存储器，并且有较多的 PCIe 显示设备作为外设。这样的配置旨在实现图像识别、人工智能学习等复杂任务，以实现更快、更高效的数据处理和计算能力。AI 服务器的设计旨在满足人工智能等大数据应用的需求，因为这些应用对计算性能和数据处理速度有着更高的要求。随着人工智能技术的快速发展，对服务器的性能和配置提出了更高的要求。我们认为伴随 AIGC 的不断催化，以服务器为基石的云基础设施产业链将驱动硬件端加速迭代更新。

算力需求高速增长，国产 AI 芯片正当时

AI 芯片是算力的“心脏”。根据 WSTS 数据，2020 年全球人工智能芯片市场规模约为 175 亿美元，随着人工智能技术的日益成熟和不断完善的数字化基础设施，人工智能商业化应用正迅速推动 AI 芯片市场的高速增长。这一趋势得益于多方面的推动因素，将为 AI 芯片产业带来前所未有的机遇，据 WSTS 预计 2025 年全球人工智能芯片市场规模将达到 726 亿美元。

AI 芯片主要分为三种类型，分别是 GPU、FPGA 和 ASIC 芯片。每种类型的 AI 计算芯片都有其突出的优势和适用领域，并在 AI 训练和推理阶段发挥作用。目前，在人工智能领域中，CPU 的应用相对有限，主要是因为 CPU 在 AI 训练方面的计算能力不足。在独立 GPU 领域，英伟达是主要的市场领导者，其份额高达 88%。

为应对 AI 订单需求激增，供给端亦在发力。公司董事长刘德音指出，台积电今年 CoWoS 产能已较去年实现倍增，明年将在今年基础上再度倍增。同时，为应对先进封装产能的持续紧缺，台积电 CoWoS 封测产能不足的部分订单已外溢日月光、矽品与 Amkor，同时晶圆代工厂联电也分到英伟达 CoWoS 中的“W（Si interposer Wafer）”部分订单，联电预计下半年开始量产出货，之后再由封装厂商完成“oS”部分。我们认为伴随着订单外溢及先进封测六厂的启动，AI 订单产能瓶颈将有望趋于缓解。此外，国际巨头仍不遗余力的进行技术创新，以期在竞争日趋激烈的算力大战中获得更多非对称性优势，CPU+GPU 异构计算成芯片巨头新宠：首先，随着高性能计算应用的不断发展，驱动了对算力的需求不断增加。传统单一计算类型和架构的处理器已经无法满足处理日益复杂、多样化数据的要求。其次，由于数据量和多样性的不断增加，数据处理的地点、时间和方式也在不断变化。在这样的背景下，CPU+GPU 架构尤为适用于处理数据中心产生的大规模数据。采用 CPU+GPU 架构，可以更高效地处理这些海量数据。此外，CPU+GPU 架构还具有共享内存空间的优点，能够消除冗余内存副本，从而改善处理效率。通过将 CPU 与 GPU 集成在同一架构中，处理器无需再将数据复制到专用内存池来访问或更改数据，也无需使用第二个连接到 CPU 的 DRAM 内存芯片池。芯片三大巨头英伟达、AMD、英特尔也纷纷集中动作，分别推出 Grace、MI300、和 Falcon Shores 等架构， “超异构计算”已逐渐成为业界升级趋势之一。

早在 2022 年的 GTC 大会，英伟达 Grace Hopper Superchip 首次发布，14 个月后的 COMPUTEX 2023 上，GH200 Grace Hopper 超级芯片被正式宣布已经全面投产，将为大规模 HPC 和 AI 应用带来突破性的加速计算。与英伟达 GH200 超级芯片类似，AMD 在 2023 下半年即将推出的 MI300 也将采用 CPU +GPU 架构，同样发力于 AI 训练市场。AMD 于 CES 2023 介绍了新一代 Instinct MI300 加速器，结合 CPU 与 GPU，重点发力数据中心的 HPC 及 AI 领域，对标英伟达 Grace Hopper，一改过去 AMD 的 GPU产品主要应用在图像处理及 AI 推理领域的局限。公司早前在 22Q4 财报电话会里提及，MI300 已开始送样给重要客户，而正式推出将会在下半年，2024 年将看到明显贡献。

国内 GPU 赛道厂商中，景嘉微通过自主研发 GPU 并规模化商用，是国内显示控制市场龙头企业。此外，海光信息、寒武纪等公司均有布局 GPU 产品。在加速计算 GPU 领域，国内壁仞科技发布的 BR100 产品，在 FP32 单精度计算性能实现超越 NVIDIA A100 芯片，但是不支持 FP64 双精度计算；天数智芯推出的天垓 100 的 FP32 单精度计算性能实现超越 A100 芯片，但是在 INT8 整数计算性能方面却低于 A100；海光推出的 DCU Z100 实现了 FP64 双精度浮点计算，但是其性能为 A100 的 60% 左右。因此，从高精度浮点计算能力来看，国内 GPU 产品与国外产品的计算性能仍或有一代以上差距。此外，沐曦旗下的曦思 N100 也已经量产，成为其首款人工智能推理 GPU，它能够兼容多种视频格式，提供最高 128 路编码和 96 路解码的视频处理能力。

此外，GPU 的表现不仅体现在硬件上，软件层面对于生态的布局尤其重要。CUDA（Compute Unified Device Architectecture），是 NVIDIA 于 2006 年推出的通用并行计算架构，包含 CUDA 指令集架构（ISA）和 GPU 内部的并行计算引擎，它提供了一种比 CPU 更有效的解决大规模数据计算问题的方案，在深度学习训练和推理领域被广泛使用的 AMD ROCm 是 Radeon Open Compute (platform) 的缩写，是 2015 年 AMD 公司为了对标 CUDA 生态而开发的开源软件开发平台，主要用于 HPC 和超大规模 GPU 计算，ROCm 只支持 Linux 系统。目前国内企业多采用 OpenCL 进行自主生态建设，对比 AMD 从 2013 年开始建设 GPU生态近 10 年时间后才推出用于通用计算的 ROCm 开放式软件平台，国内厂商在软件和生态层面与英伟达 CUDA 生态的差距相较于硬件更为明显。我们认为，受美国对中国 GPU 芯片出口管制影响，预计国产 GPU 芯片替代进程将快速推进。此外，“超异构计算”概念下，封测及制造产业链的协同发力亦值得关注。在 AI 商业化的推进过程中，借助边缘计算的支持，"端"应用有望填补 AI 大模型的局限性。边缘计算是指将计算和数据存储能力移动到接近数据源的边缘设备，例如 AI 边缘计算盒子、物联网设备等，而不仅仅依赖于遥远的云服务器。边缘计算具有在成本、时延和隐私方面的天然优势，同时还可以作为桥梁，预处理海量复杂需求，并将其导向大型 AI 模型。根据 STL Partners 统计，2030 年全球边缘潜在市场将达 4450 亿美元，10 年复合年增长率为 48%。根据亿欧智库《2022 中国边缘计算产业研究报告》，2025 年我国边缘计算市场空间达 1987.68 亿元，具备较大发展潜力。

目前，边缘算力的存在形式主流是边缘计算芯片。从全球来看，高通作为全球手机芯片巨头，基于骁龙系列手机芯片推出了一系列专为边缘侧设计的模组芯片，将传统的 IOT 设备赋予了算力，也改变了过去边缘侧设备只能基于功耗与成本较高的 X86 平台的格局。高通于今年 4 月推出了最新一代的物联网芯片 QCS8550/QCM8550，处理器整合强大算力和边缘侧 AI 处理、Wi-Fi7 连接以及增强图形和视频功能，为高性能需求的物联网应用提供支持并助力其快速部署，比如自主移动机器人和工业无人机。上述产品采用了高通优化的 AI 架构。高通 QCS8550 和高通 QCM8550 还支持增强的视频和图形处理，支持沉浸式云游戏、视频协作和视频流媒体体验。我们认为，以高通为代表的边缘巨头推动下，芯片端亦具备一定边缘计算能力，AI 在“端”的部署正在加速演进。

而算力巨头英伟达在边缘侧亦有布局，英伟达 Jetson 边缘计算平台涵盖了机器人、自动驾驶、工业制造、智慧城市等边缘 AI 的主要应用场景。每个 NVIDIA Jetson 都是一个完整的系统模组，其中包括 GPU、CPU、内存、电源管理和高速接口等。不同性能、能效和外形规格的组合可满足各行业所需。可以说 Jetson 具备较完整产品谱系，并能提供软件、硬件设计服务以及涵盖载板到完整系统的现成兼容产品。

国内方面，相较国际芯片巨头的标准化定制能力，鉴于我国芯片设计业“百家争鸣”的行业格局，国内边缘芯片厂商走出了“中国式”的发展道路：即更多从芯片设计入手，深度参与芯片与产品的融合与定制化开发。经过多年的追赶，我国亦涌现出了许多优秀的边缘芯片提供厂商。如边缘算力 SOC 提供厂商包括了全志科技、瑞芯微、晶晨股份等厂商，而边缘通信芯片厂商则包括了如翱捷科技、乐鑫科技、紫光展锐等厂商。我们认为无论是国际大厂的标准化开发能力还是国内的定制化生产，AI 由“云”到“端”的逻辑均得到验证，伴随 AI 的探索趋向深处，国内相关厂商有望深度受益。

DDR5 渗透率盼加速，HBM 助推 AI 算力突破存力瓶颈

（本文仅供参考，不代表我们的任何投资建议）

文琳编辑

免责声明：转载内容仅供读者参考，观点仅代表作者本人，不构成投资意见，也不代表本平台立场。若文章涉及版权问题，敬请原作者添加 wenlin-swl 微信联系删除。

文琳行业研究 2018年—2023年7月文章汇总

今日导读：点击下面链接可查阅

公众号：文琳行业研究

《文琳资讯》

提供每日最新财经资讯，判断经济形势，做有价值的传播者。欢迎关注

今日导读：点击下面链接可查阅

▼长按2秒识别二维码关注我们

公众号：就业与创业

点击下方可看

继续滑动看下一个

文琳行业研究

向上滑动看下一个

“家属和记者取得联系”：记者的退场意味深长

劲爆！为了姜萍两位女CEO互揭老底！

中石化一副总被曝出轨人妻，本人嚣张回应：旧情复燃尔

（待会删）大家低调浏览

又一女明星涉毒被判刑！自称为了“刺激大脑”创作，央视网发文痛批

算力行业云基建专题报告：AI浪潮持续催化，云端配套升级加速

您可能也对以下帖子感兴趣

“家属和记者取得联系”：记者的退场意味深长

劲爆！为了姜萍两位女CEO互揭老底！

中石化一副总被曝出轨人妻，本人嚣张回应：旧情复燃尔

（待会删）大家低调浏览

又一女明星涉毒被判刑！自称为了“刺激大脑”创作，央视网发文痛批

生成图片，分享到微信朋友圈

算力行业云基建专题报告：AI浪潮持续催化，云端配套升级加速

您可能也对以下帖子感兴趣