查看原文
其他

存储行业深度报告:算力需求推动HBM市场数倍增长

(报告出品:招商证券)

一、AI 服务器相较普通服务器算力明显提升,存储 量价均有数倍增长空间

1、传统服务器采用 CPU 作为算力来源,一般配置 DDR4 内存和 SATA/SAS 等类型 SSD

传统服务器以 CPU 作为算力来源,采用提高核心数来提升算力。传统服务器组 件包括 CPU、内存、硬盘、RAID 卡、网卡等,搭配 BMC 管理系统,以及电源、 主板、机箱等基础硬件。按照外形分类,服务器可分为塔式、刀片、机架和高密 度服务器,按照处理器数量,可分为单路、双路及多路。传统服务器以 CPU 提 供算力,擅长逻辑和浮点型计算等,服务器的算力提升主要依靠 CPU 增加核心 数量。

CPU 和内存是普通服务器逻辑架构中最重要的部分,等效频率是内存的核心指 标。在服务器中,CPU 负责对数据进行逻辑运算,随着 CPU 主频、核心和线程 数量的不断提升,CPU 运算处理的速度已经远超硬盘的读写速度,因此需要 CPU 内存作为桥梁来暂时存放 CPU 中的运算数据,并与硬盘等外部存储器交换数据,CPU 和内存之间通过内存总线进行通信。由于内存是能够传输和储存数据的中 转站,传输速度和处理性能尤其重要,核心指标为频率。内存的频率分为三种, ①核心频率:指内存颗粒核心的时钟频率,核心频率是固定的;②工作频率:指 内存颗粒总线的时钟频率;③等效频率:指内存实际的数据传输率,也被称为内 存速率。

服务器的 DRAM 类型伴随 CPU 而升级,目前服务器标配 DDR4 或 DDR5。SDRAM 最早出现,为了与 CPU 的计时同步而设计,在一个周期内,SDRAM 只能在升的时候进行数据传输,即只能读写一次;改进后的 DDR 能够在升和降 两个阶段进行数据传输,所以等效频率相较 SDRAM 增加 1 倍;DDR1 到 DDR3 的升级主要在于预读取的能力,预读取从 1bit 上升至 8bit,每进步一代,预读取 能力增加一倍,相当于一次读写的数据数量增加一倍,即工作频率翻倍;相较 DDR3,DDR4 采用了 2-4 个 Bank Group 组的设计,即在同一脉冲工作周期内, DDR4 最多可以处理 2-4 组数据,相当于等效工作频率提升 2-4 倍;DDR5 将预 读取数提升至 16bit,等效频率再次翻倍。从当前服务器型号来看,传统服务器 的 CPU 内存一般标配 DDR4,最先进的 AI 服务器 CPU 则配备了 DDR5 或 LPDDR5。

GDDR 在 DDR 的基础上发展形成,主要用于 PC 端的显卡。GDDR/GDDR2 基 于原有的内存技术,但无法满足 GPU 对高性能存储的需求,进而推动了 GDDR3 作为第一款专为 GPU 而设计的存储器的诞生。GDDR3 采用 4-bit 预读取,能够 实现读写操作的快速切换;GDDR4 采用 8-bit 预读取技术,但由于 NVIDIA 不愿 跟进,最终并未得到广泛应用;GDDR5 使用了双 DQ 总线,实现了双倍的接口 带宽,自 GDDR5 开始,GDDR 广泛用于 PC 显卡中,但由于传统服务器中不配 备 GPU,因此 GDDR 并未在传统服务器中得到使用。

服务器硬盘主要包括 HDD 和 SSD,SSD 能够大幅提升服务器性能。目前服务 器的硬盘主要包括 SATA/SAS 等机械硬盘(HDD)以及固态硬盘(SSD)等, HDD 主要由机械驱动,包括马达、盘片、磁头摇臂等部件,尽管容量不断提升, 但磁盘记录方式并未改变,存储系统的发展越来越落后于 CPU 的发展速度;SSD 固态硬盘没有机械结构,主要由主控-内存-固件算法构成,SSD 以区块写入和擦 除的方式实现读写的功能,具备低功耗、稳定性高、耐震耐低温等特点,可以大 幅提升服务器性能,更适合工业自动化、嵌入式移动设备和 AI 推理/训练服务器 等应用。

RAID 卡可实现对固态硬盘数据的冗余保护,已成为 AI 服务器的重要配置。RAID (Redundant Array of Independent Disks),即独立硬盘冗余阵列,意为很多块 独立磁盘构成的磁盘组,主要具备如下功能:①通过对硬盘上数据的条带化,实 现对数据成块存取,减少硬盘的机械寻道时间,提高数据存取速度;②通过对一 个阵列的几块硬盘同时读取,减少硬盘的机械寻道时间,提高数据存取速度;③ 通过镜像或存储奇偶校验信息的方式,实现对数据的冗余保护。由于硬件 RAID 是采用集成的阵列卡或专用的阵列卡来控制硬盘驱动器,因此可以极大节省服务 器系统 CPU 和操作系统的资源,目前 RAID 卡已成为 AI 服务器的标配。

2、AI 服务器中 CPU+GPU 协同工作,存储容量和价值量相 较传统服务器均有数倍提升

AI 训练模型算力提升速度突破极限,目前英伟达训练型 AI 服务器一般配备 8 个 GPU。随着以 chatGPT 为代表的 AI 的发展,训练 GPT-3、Megatron-Turing NLG 530B 等超大语言模型所要求的算力提升速度已经突破了后摩尔定律算力提升速 度的极限,尽管 CPU 不断升级,但 CPU 制程以及单个 CPU 和核心数量接近极 限,仅依靠 CPU 无法满足算力需求。CPU 的内核数量大约数十个,但 GPU 具 备成千上万个 CUDA 核心,因此 GPU 多个内核决定了其能够在相同的价格和功 率范围内,比 CPU 提供更高的指令吞吐量和内存带宽,GPU 能够并行执行成千 上万个线程(摊销较慢的单线程性能以实现更大数据吞吐量)。在训练 AI 模型的 过程中,需要同时对所有样本数据执行几乎相同的操作,GPU 架构设计能够很 好满足 AI 场景需求。AI 服务器相较通用服务器的一个明显差别之一是增加了 GPU,通用服务器一般含有 1-2 个 CPU、不含 GPU,而当前英伟达训练型 AI 服务器一般搭载 8 个 GPU。

AI 服务器 GPU 需要 CPU 来进行指令,模型算力提升带动 CPU 核心、主频等提 升。在 AI 服务器的 GPU 模式下,模型训练一般分为 4 步,①将输入数据从系统 内存拷贝到显存;②CPU 指示 GPU 处理数据;③GPU 并行完成一系列计算;④将计算结果从显存拷贝到内存。虽然 GPU 并行能力优异但无法单独工作,必 须由 CPU 进行控制调用,CPU 可以独立工作并直接访问内存数据完成计算。因 此在 AI 服务器中,GPU 和 CPU 需要协同工作,训练模型所需算力升级也将带 动 CPU 技术升级,例如在英伟达 DGX-2 服务器中,采用英特尔第三代至强处理 器 8168,主频大约 2.7GHz,核心数量为 24 个;在英伟达 DGX H100 服务器中, 搭载英特尔第四代至强处理器 8480C,主频提升至最高 3.8GHz,CPU 核心数量 提升至大约 56 个。

AI 服务器存储器容量伴随 CPU/GPU 的升级而提升,相较传统服务器有数倍提 升。最先进的 AI 服务器尽管增加了大量 GPU 需求,但存储器的数据存储方式、 总线连接方式均和普通服务器相近,CPU 的运行数据写入 DRAM 中,CPU 和 GPU 产生的数据共同写入 NAND 中。AI 服务器将提升内存、显存的工作频率和 带宽等,带动存储容量明显上升。

DRAM:AI 服务器 CPU+GPU 相较普通/高性能服务器对 DRAM 容量大约 有 3-8 倍的拉动。当前服务器一般配 1-2 个 CPU,每个 CPU 一般标配 DDR4 内存,普通双路服务器用于打印、网络管理、数据记录等场景,一般配备 1-2 个 CPU,每个 CPU 周围搭配大约 10 个内存插槽,按照单个 DDR4 32GB 容量计算,每个 CPU 搭配的内存容量大约不超过 320GB,系统容量不超过 640GB;根据浪潮官网,高性能服务器用于涉及高密度计算的企业端,例如 搭载双路 CPU 的 NF5280M6 型号服务器单个 CPU 插槽数量为 16 个,按 照每个 DDR4 32GB、插满内存条计算,系统的内存容量可达 1TB;英伟达 AI 服务器 CPU 均标配 2TB 的 DDR4/DDR5;另外,AI 服务器增加了 GPU 的数量,每个 DGX A100 和 H100 均需要搭配 80GB 容量的 HBM,系统整 体需要 640GB 的容量。综上所述,从容量上看,按照普通服务器 CPU 内 存 320-640GB 容量计算,AI 服务器对 DRAM 容量的提升大约为 4-8 倍;按照高性能服务器 CPU 内存 1TB 容量计算,AI 服务器对 DRAM 容量的提 升大约为 2.5-3 倍。

NAND:AI 服务器相较普通/高性能服务器对 NAND 容量大约有 2-4 倍的拉 动。由于机械硬盘持续进行成本优化,普通服务器依然会配备较多的机械硬 盘,而高性能服务器和 AI 服务器对于存储速度、准确性等提出更高要求, 因此主要配备固态硬盘。从容量上看,传统服务器 NP5570M5 最多支持 16 块 2.5 英寸 SAS 硬盘或 4 块 3.5 英寸 SATA 硬盘,SAS 硬盘支持 300GB/600GB/1TB/1.2TB/1.8TB/2.4TB 容量,SATA 硬盘支持 1/2/4/6/8TB 容量,按照中间容量测算,系统硬盘容量大约共 8-16TB;高性能 NF5280M6 型号最大支持 20 块 3.5 英寸硬盘,系统硬盘容量大约 20TB;AI 服务器采 用的硬盘容量大约 30TB,相较传统服务器 NAND 容量提升大约 2-4 倍。

AI 服务器的 GPU 和存储价值量均明显提升,GPU 价值量占比最高。1)基础型服务器:根据 IDC,基础型服务器中 CPU、内存和硬盘的占比最高, 根据英特尔,典型的 x86 服务器—E5 高配服务器的成本中硬盘、CPU 和内存成 本占比分别为 31%、28%和 21%。例如浪潮 NF5270M5 售价大约 39000 元,采 用 2颗Xeon Silver 4214 CPU,每颗售价大约 1000 美金,CPU 成本占比大约 32%;配置 16 个 32GB DDR4,按单 GB 成本 3 美金计算,DRAM 成本占比大 约 26%;最大支持 25 块 2.5 英寸硬盘,按照每块硬盘 512GB、1TB SATA 40 美元计算,硬盘总价值量占比大约 20%;2)AI 服务器:以英伟达 DGX A100 系统为例,售价大约 19.5 万美金,含有 2 颗 AMD Rome 7742,每颗售价大约 7000 美金,价值量占比大约 7%;含有 8 颗A100 GPU,每颗GPU售价大约1-1.5万美元,GPU价值量占比大约40-50%;CPU 采用 2TB 的 DDR4,价值量占比大约 3-4%;GPU 配置共 640GB HBM2E, 假设单 GB 价值量 15-20 美金,价值量占比大约 5-8%;操作系统配备 2 块 1.9TB SSD,内部配备 8 块 3.84TB SSD,按照 1 块 1.92TB 数据中心 SSD 650 美元、 1 块 3.84TB 数据中心 SSD 1200 美元测算,硬盘价值占比大约 6%。综上所述,从价值量来看,AI 服务器中 CPU 内存和 SSD 的价值量相较于普通 双路服务器预计均提升 5 倍左右,GPU 显存为纯增量市场。

3、存算一体突破存储和功耗“双墙”瓶颈,催生 2.5/3D 封 装及新型存储器需求

传统服务器计算芯片与存储器采用并行架构,“存储墙”和“功耗墙”分别限制 数据访问速度提升和数据访问能耗下降。在冯-诺依曼架构中,计算和存储功能 分别由 CPU 和存储器完成,数据从存储单元外的存储器中获取,处理完毕后再 写回存储器,计算核心与存储器之间有限的总带宽直接限制了交换数据的速度, 处理器速度和访问速度的差异进一步减缓处理速度。一方面,处理器和存储器制 程、工艺不同,性能差距逐渐增大,存储器数据访问速度远低于 CPU 的数据处 理速度,即形成“存储墙”;另一方面,数据搬运的能耗比浮点计算高 1-2 个数 量级,DRAM 的访问功耗可达芯片内一级功耗的 50-100 倍,进一步增加了数据 访问功耗。

存算一体架构可部分解决“双墙”问题,主要包括近存计算和存内计算。1)近 存计算:主要包括光互联、2.5/3D 封装等形式,其中 2.5/3D 封装可以提高系统 集成度,增大并行带宽或利用串行传输提升存储带宽。典型的产品形态为高带宽 内存(High Bandwidth Memory,HBM),将内存颗粒通过硅通孔(TSV)多 层堆叠实现存储容量提升,同时基于硅中介板的高速接口与计算单元互联提供高 带宽存储服务;2)存内计算:主要包括①存储内计算(In-Storage Computing, ISC),即在固态硬盘中等加入 FPGA、ARM 处理核等计算单元,承担如数据压 缩、搜索、视频文件转码等本地处理,减少远端处理器如 CPU 的负载;②内存 内计算(In-Memory Computing,IMC),数据直接在内存中计算后返回,通过将 存储层和逻辑层堆叠实现高带宽计算。典型产品形态包括 HBM-PIM 和 PIM-DIMM,在 DRAM die 中内置 AI 等处理单元,提供大吞吐低延迟片上处理 能力。

存内计算电路可基于易失性和非易失性存储器实现,未来 RRAM、MRAM 等新 型存储器件有望得到更多应用。易失性存储器包含 SRAM 等,非易失存储器包 含 NOR Flash、阻变随机存储器(Resistive Random Access Memory,RRAM)、 磁性随机存储器(Magnetoresistive Random Access Memory,MRAM)、相变 存储器(Phase Change Memory,PCM)等。SRAM:常用于 CPU 中的缓存,其读写速度快、无读写次数限制,且工艺 成熟,器件的一致性和稳定性较好,缺点是价格相对昂贵、多晶体管单元结 构下存储密度较低、需要通电以保持数据,因此芯片面积大、功耗较高;NOR:基于 NOR 的存内计算芯片具有存储密度大、工艺成熟、成本低等优 点,业内主要利用其多比特存储特性进行模拟存内计算,相关产品在智能终 端与边缘场景实现小批量商用。目前 NOR 的问题在于工艺微缩存在一定瓶 颈,可能需要 2.5/3D 封装工艺配合扩展性能;阻变随机存储器(RRAM):基本存储单元一般为金属-绝缘体-金属/半导体 结构,通过在电极层施加电压/电流,电阻转变层的电阻值可以实现高阻态 和低阻态的切换,并可实现多级电阻状态,从而存储多比特信息。基于 RRAM 的存内计算芯片制备工艺简单、工艺成本低、支持多比特存储,但目前在器 件一致性和准确性等方面需要提高;磁性存储器(MRAM):利用磁隧道磁阻效应实现电阻状态改变,从而存储 信息,具有非易失、访问速度快、读/写次数高等优点,具备较高的可靠性 和稳定性,但目前成熟度较低,功耗、速度和耐久性等指标有待提升;相变存储器(PCM):可以介于完全多晶态和完全非晶态之间的多种状态, 以此实现多值存储,具备存储密度高、多比特存储、支持 3D 堆叠等优点, 但 PCM 存在写入功耗较大、擦写次数较少等问题。

目前存内计算主要采用 NOR、SRAM、DRAM 等成熟存储介质,新型存储器在 大算力领域应用尚不成熟。目前 HBM 等近存计算已经规模商用,但大部分存内 计算采用模拟计算或使用 DRAM 等成熟存储介质,新型存储器落地场景仍相对 有限。在低功耗、低精度和中小算力场景,多使用 NOR、SRAM 等工艺;在高 精度、大算力的 AI 芯片中,目前 RRAM、MRAM 等新型存储器技术指标尚在提 升,因此新型存储器尚未规模应用,应用方案以 HBM、HBM-PIM 等为主,例如 三星、海力士等均采用 2.5D 封装形式,将 DRAM die 堆叠形成 HBM,进而提高 集成度;三星于 2021 年推出结合 DRAM 的高带宽内存-内存内处理(HBM-PIM), 将 AI 计算能力引入内存,通过将经过 DRAM 优化的 AI 引擎置于每个存储子单 元内,将处理能力直接引入到数据的存储位置,从而实现并行处理并尽可能减少 数据移动。

二、HBM 新型存储器突破带宽极限,训练型 AI 服务 器推动超百亿美金增量市场

1、HBM 用于高带宽和高容量场景中,已普遍搭配主流 AI 训练芯片使用

HBM 是基于 2.5/3D 封装技术的新型存储器,满足高带宽、高速度等需求。HBM (High Bandwidth Memory)指高带宽存储器,是一款新型的 CPU/GPU 内存芯 片,基于 2.5D/3D 封装技术将 DRAM Die 垂直堆叠,具备高带宽、高速度等特 点。DRAM Die 之间通过 TSV 的方式连接,逻辑控制单元对 DRAM 进行控制, GPU 和 DRAM 之间通过 uBump 和 Interposer(起互联功能的硅片)连通。目 前最先进的 HBM 为第五代 HBM3 以及第六代 HBM3E,封装的 DRAM Die 层数 达到 12 层。

GPU 显存一般采用 GDDR 或 HBM 两种方案,HBM 能够在实现高带宽和高容 量的同时节约芯片面积和功耗,非常适合在功率受限但又需要高带宽的场景中使 用。1)传统的 GDDR 方案:主要通过提升 GDDR 的带宽实现性能的提升,但存在 如下问题:①GDDR 不断增长的功耗一定程度阻碍了图形性能的表现,未来可能 导致GDDR的性能表现无法匹配GPU的性能要求;②为了实现GPU的高带宽, GPU 需要搭配大量的 GDDR5/6 芯片,芯片面积不断增大,同时也需要更高的电 压。2)HBM 方案:将原本在 PCB 板上的 DDR 内存颗粒和 GPU 芯片同时集成到 SiP 封装中,使内存更加靠近 GPU,DDR Die 采用堆叠方式,通过增加单个 DDR 容量和层数来实现内存容量和带宽的提高。HBM 具备如下优势,①大大节约芯 片面积:根据 AMD,1GB HBM 相较 1GB GDDR5 能够节省大约 94%的芯片面 积;②能够在更低的频率和更少的功耗下提供超越常规内存的带宽:HBM 通过 同一封装内的硅中介层与 SoC 集成在一起,能够克服数据 I/O 封装管脚限制的 最大数量,进而突破内存带宽的限制。例如,典型的 GDDR5 使用 32 位总线, 在 1750MHz、1.5V 电压下,最高带宽为 28GB/s,而一个 HBM 包使用 1024 位 总线,仅在 500MHz、1.3V 的电压下,就能达到超过 100GB 的带宽。

HBM 已普遍搭配主流 AI 训练芯片使用,相较 GDDR 带宽显著提升。HBM 最早 于 2013年由SK 海力士首先制造,第一颗采用HBM存储的 GPU是 2015 年AMD 的 Radeon R9 Fury X,第一颗应用 HBM2 的 GPU 是英伟达的 Tesla P100;目 前,先进的 AI 训练 GPU 芯片均搭载 HBM 存储芯片,例如英伟达的 DGX A100 单 GPU 搭载了总计 80GB容量的HBM2E,DGX H100 单 GPU 搭载了总计80GB 容量的 HBM3 存储,单个 HBM3 存储带宽最高可达 819GB/s,较单个 GDDR 带 宽提升 10 倍以上,H200 更是搭载了共 141GB 的 HBM3e 内存,总 HBM 容量 较 H100 提升 76%,总带宽提升约 43%。

2、HBM 容量、带宽、速度持续升级,训练型 AI 服务器将 带来 HBM 超百亿美元增量市场

HBM 目前最主要搭配 AI 的 GPU 使用,训练型 AI 服务器是最主要的增量市场。根据 SK 海力士,受益于 HPC、AI、CPU 等应用,HPC 市场复合增长率达到 40% 左右,由于随着数据量呈指数级增长,以及 AI/ML 训练等高级工作负载的快速增 长,预计 AI 服务器将是几年内 HBM 最大的下游市场。训练型 AI 服务器对于 HBM 市场的拉动体现在:①AI 服务器渗透率的提升;② 单个 AI 服务器搭载 GPU 数量的增加;③每个 GPU 搭载的 HBM Stack 数量增 加;④单个 HBM 堆叠的 DRAM die 层数(Hi)增加,以及 DRAM die 容量增 加;⑤HBM 代际进步带来单 GB 价值量的提升。

AI 训练服务器渗透率提升:根据 Trendforce,2022 年全球服务器出货大约 1430 万台,其中训练侧 AI 服务器占比仅为 1%;由于四大 CSP 陆续下调 采购量,Dell 及 HPE 等 OEM 厂商在 2-4 月期间下调全年出货量至同比分 别减少 15%和 12%,Trendforce 预估 2023 年全球服务器整机出货量将同 比减少 2.85%至 1383.5 万台。同时,考虑到云服务厂商积极投入生成式 AI, AI 服务器渗透率预计将快速提升;1)GPU 基板搭载 HBM 数量提升:搭载 HBM1 的 GPU 基板上仅采用 4 个 HBM1 芯片,而英伟达 AI 服务器 DGX A100 和 H100 的基板搭载了 8 个 GPU,每个 GPU 搭配 6 个 HBM2e;2)单个 DRAM die 密度增加、HBM 堆叠层数和容量提升:根据 SK 海力 士官网信息,从 HBM1 进步到 HBM3,单个 DRAM Die 密度从 2Gb 提升至 16Gb,堆叠高度从 4Hi 提升至最高 12Hi,单个 HBM 容量从最高 1GB 提升 至 24GB;3)HBM 性能提升:HBM1 提升至 HBM3,最高速度从 1Gbps 提高到高于 6Gbps,带宽从 128GB/s 提升至最高 4.8TB/s。例如,SK 海力士的 HBM3 将 DRAM 芯片高度减少至大约 30 微米,相当于 A4 纸厚度的 1/3,使用 TSV 技术(在 DRAM 芯片上打上数千个细微孔并通过垂直贯通的电极连接上下 芯片)垂直连接 12 个芯片,相较于 HBM2e,HBM3 的速度提高了大约 78%, 容量提升了 1.5 倍,并且大大降低了工作温度;4)价值量较传统 DRAM 提升:传统 DDR4 每 GB 价格大约数美元,HBM 价格大约为其数倍,HBM3、HBM3E 相较前几代产品价值量也大大提升。

2024 年训练型 AI 服务器对 HBM 增量空间预计超百亿美元。由于推理型 AI 服 务器对 GPU 和 HBM 需求量相对较少,因此我们仅考虑训练型 AI 服务器带来的 HBM 市场增量。假设 2024 年训练型 AI 服务器渗透率达 4%,单个训练型 AI 服 务器搭载 8 个 GPU,目前 DGX A100 和 H100 的每个 GPU 配 6 个 HBM,总容 量为 80GB;考虑到改进前的 GH200 搭载的 HBM 总容量为 96GB,H200 搭载 的 HBM 总容量升至 141GB,考虑到 GPU 算力持续提升,因此我们合理假设平 均每个 GPU 搭载 HBM 容量持续提升;目前 HBM 持续供不应求,单价快速增长, 但目前 HBM 产品以 HBM2 及 HBM2E 为主,考虑到 2024 年更高价值量的 HBM3 将持续放量,因此假设 2024 年价格继续上涨;考虑到 2025 年 HBM 产能逐步开 出,成本有望持续下降,我们假设 2025 年价格有所回落。综上所述,我们预计 2024 年 AI 服务器有望带动 HBM 超百亿美金增量市场。

英伟达在 COMPUTEX 2023 大会上公布了 GH200 Grace Hopper,每个 GPU 使用 96GB 的 HBM3,搭载的 HBM 容量继续提升。由 NVIDIA GH200 Grace Hopper 超级芯片和 NVIDIA NVLink Switch System 驱动的 NVIDIA DGX 超级计 算机,旨在助力开发面向生成式 AI 语言应用、推荐系统和数据分析工作负载的 巨型、下一代模型。NVIDIA DGX GH200 的超大共享内存空间通过 NVLink 互连 技术以及 NVLink Switch System 使 256 个 GH200 超级芯片相连,使它们能够 作为单个 GPU 运行。其提供 1 exaflop 的性能和 144 TB 的共享内存——相较 2020 年推出的上一代 NVIDIA DGX A100 内存大了近 500 倍。H200 单 GPU 总 共支持 576GB 的内存,其中 480GB 为 LPDDR5X,从 HBM 容量来看,A100 和 H100 单 GPU 最大支持 80GB HBM 容量,H200 单 GPU 最大支持 96GB 容 量的 HBM3。

英伟达于 11 月 13 日上午在“Supercomputing 23”会议上正式发布了全新的 H200 GPU 和改进后的 GH200,每个 H200 GPU 搭载 HBM3e 容量进一步提升 至 141GB。H200 依然是建立在现有的 HopperH100 架构之上,但增加了更多高 带宽内存(HBM3e),全新的 H200 提供了总共高达 141GB 的 HBM3e 内存,有 效运行速度约为6.25Gbps,六个HBM3e堆栈中每个GPU的总带宽为4.8TB/s。与上一代的 H100(具有 80GB HBM3 和 3.35TB/s 带宽)相比,HBM 容量提升 了超过 76%。改进后的 GH200 预计将包含总计 624GB 内存,相较改进前的 GH200(总计 576GB 内存),总内存容量提升了 8.3%。

长期来看,HBM 在 AR/VR 设备、汽车自动驾驶域等领域也将有更多应用。1) AR/VR 设备:以 HTC VIVE pro2 为例,其连接 GTX1060,当前并不需要 HBM等高带宽产品,未来有望伴随显示需求增多逐步产生高带宽需求;2)汽车:当 前自动驾驶域并不需要 HBM 的高带宽,比如英伟达 Jetson AGX Orin 采用 256 位的 LPDDR,带宽最高为 204.8HB/s。但长期来看,伴随 L3/L4 等级别自动驾 驶汽车逐渐落地,也将提升 HBM 需求,例如 L3 级别自动驾驶带宽要求一般为 600GB/s-1TB/s 之间,单车可用 2 个 HBM2e 或者 1 个 HBM;L4 级别自动驾驶 带宽要求一般为 1-1.5TB/s 之间,单车可用 3 个 HBM2e 或 2 个 HBM3。

三、HBM 采用 2.5D+3D 封装,核心工艺包括 TSV、 CoWoS 等


1、HBM 和 Si 中介层封装远期市场预计数倍增长,核心封 装工艺包括 Bumping、TSV、CoWoS 等

文琳编辑

免责声明:转载内容仅供读者参考,观点仅代表作者本人,不构成投资意见,也不代表本平台立场。若文章涉及版权问题,敬请原作者添加 wenlin-swl  微信联系删除。

为便于研究人员查找相关行业研究报告,特将2018年以来各期文章汇总。欢迎点击下面红色字体查阅!

文琳行业研究 2018年—2023年11月文章汇总

▼长按2秒识别二维码关注我们

今日导读:点击下面链接可查阅

公众号 :文琳行业研究

  1. 2023年双十一水饮行业报告

  2. 饮料行业专题报告:复盘日本软饮变迁,探究行业潜力赛道

  3. 2023国潮新茶饮产业发展洞察报告

  4. 2023年双十一调味品销售数据解读报告

  5. 火锅品类发展报告2023

  6. 抖音电商预制菜行业报告

  7. 中国方便速食行业研究报告

  8. 2023白酒行业深度报告

《文琳资讯》

提供每日最新财经资讯,判断经济形势,做有价值的传播者。欢迎关注

▼长按2秒识别二维码关注我们

今日导读:点击下面链接可查阅
  1. 热搜第一!北京、漠河等多地拍到极光!大地磁暴预警发布,对生活有影响吗?

  2. "政府决心把大盘拉起来",刘纪鹏重磅发声

  3. 11月百强房企拿地情况出炉!18城取消土地限价,"价高者得"

  4. 最新官宣!华为大消息,A股又要"沸腾"?

  5. 黄金,有史以来的最高价!

  6. 半岛突发!朝鲜发出"宣战"警告!局势升级,土耳其发动空袭!扎波罗热核电站出事,影响多大?

公众号 :就业与创业
点击下方可看
  1. 大城市的体制内,其实不太适合寒门子弟

  2. 马云下猛药,出手拯救阿里巴巴,结束了淘宝和天猫8年的内

  3. 知名男星承认漏税!被曝职场冷暴力、PUA

  4. 女子变成植物人,男友负债20万照顾她,苏醒后她眨了2下眼睛,警察马上抓捕其男友

  5. 体制内退休后精神状态明显改善的,大部分是单位中层干部



继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存