查看原文
其他

计算机行业算力租赁专题研究报告:大模型发展的关键引擎

(报告出品方/作者:西部证券,邢开允)

AI算力需求空间测算

训练规模突破临界值,大模型“智慧涌现”

大模型训练规模与参数量、数据量及训练轮数等紧密相关。当模型规模突破阙值,即出现“智慧涌现”。

迈入AI智能时代,计算芯片依赖已从CPU转向GPU

AI时代离不开机器学习,而神经网络训练及推理需要进行大量的矩阵运算和卷积运算,具有强并行运算与浮点计算能力的 GPU逐渐成为计算主力军。

大模型训练侧 GPU 需求测算

2022年,英伟达、斯坦福联合微软研究院共同训练出了万亿级参数的GPT,比1746亿参数的GPT-3还高出了一个量级;论文中的测试基于DGX A100-80GB集群完成。对于最大的 1T 规模的模型,一共使用了384台8卡DGX-A100服务器,服务器 内部各GPU间使用超高速NVLink和NVSwitch互联,每台机器装有 8个200Gbps的 InfiniBand网卡;GPU利用率 = 单张GPU训练时吞吐量/单张GPU峰值吞吐量,论文使用了数据并行、流水线模型并行、张量模型并行、服务 器通信优化等加速技术提高GPU利用率。训练过程中,英伟达A100卡使用数量的变化范围为[32,3072],GPU利用率随参数量增加而增长,变化范围为[44%,52%]。

大模型推理侧 GPU 需求测算——推理侧具备更大的成长空间

根据Similarweb数据,2023年8月ChatGPT的月度访问量为14亿(包括直接访问、外链等),平均访问时长为7分钟。假设1:ChatGPT访客平均每次访问提问数为10个,每个问题加上其回答的Token数量平均为1000;假设2:ChatGPT访客来自全球各地,假设在每日24小时内平均分配访问量和计算量;假设3:在推理侧,大模型运算更为简单,我们仍保守假设GPU利用率为45%。推理过程中,每个参数只需执行1次乘法运算和1次加法运算,以GPT-3的参数量1750亿带入以下测算。推理前一般采用量化等技术将模型优化到Int8精度,在此精度下,每张A100的峰值吞吐量(非稀疏)为 624 TOPS。

未来每家龙头大模型厂商推理侧A100需求有望达到十万张量级

2023年9月25日,ChatGPT进行重大更新——GPT-4和GPT-3.5都具有了基于图像进行分析和对话的能力。我们认为,当模型参数 增长至万亿级且具有多模态能力,能承担更多生成、分析等任务时,将吸引更多用户,ChatGPT月度访问量将高增(2023年8月, 谷歌月度访问量为860亿,约为ChatGPT的70倍)。在以下三点假设下,长期来看,我们推测未来ChatGPT推理侧A100需求将超过70万张。假设1:我们采用外媒SemiAnalysis给出的数据,即使用GPT-4时每次推理只需使用2800亿个参数;假设2:多模态能力与更强大的分析能力将使得用户更加依赖大模型,推理侧每日问答的Token平均数量达到30000甚至更多;假设3:随着大模型技术发展,假设未来ChatGPT的月度访问量翻20倍,达到300亿。

大模型推理侧 GPU 需求测算 —— 微软Copilot

2023年9月21日,微软宣布基于GPT-4的Copilot将全面开放:微软全球版Copilot于2023年9月26日随更新的Windows 11以初期版本 形式推出,融入到画图、照片、Clipchamp 等应用程序中;全球版Microsoft 365 Copilot将于2023年11月1日起面向企业用户提供 服务,融入Teams、Outlook、Word、Excel、Loop、OneNote 和 OneDrive等应用程序中,同时微软将推出AI助手 Microsoft 365 Chat。

大模型推理侧 GPU 需求测算 ——Copilot + Microsoft 365

微软曾在FY20Q1电话会议上披露,Office 365(现已更名为 Microsoft 365 )商业版的月度活跃用户突破 2 亿,而根据微软的季 报及年报数据,商业版用户数量年增速保持在15%左右,我们推测Microsoft 365 企业用户数目前已突破 3 亿。假设Microsoft 365中Copilot使用率为15%-80% ,企业用户使用Copilot时,输入和输出的平均Token数量为2000-30000。

驱动AI发展的关键引擎,英伟达A100 & H100 供不应求

自年初以来,英伟达A100一直处于供不应求的状态,而其他加速卡由于性能、生态等方面与英伟达存在较大差距,大部分场景无法实现替代, 尤其在训练侧,A100与H100具有极大的优势与较高的技术壁垒。现阶段,大模型技术突破遭遇瓶颈,算力资源短缺为重要原因之一。OpenAI 表示GPU供应不足阻碍了其研发计划的推进,例如模型微调和划拨专用容量等受到影响。

OpenAI联合创始人Andrej Karpathy曾转发了一篇博客文章。这篇文章认为训练大语言模型的初创企业、云服务供应商及其他大公司需要拥有超 过1000张H100或A100。A100方面:GPT-4可能在10000-25000张A100上进行了训练,Meta拥有约21000张A100,特斯拉拥有约7000张A100,Stability AI拥有约 5000张A100,Falcon-40B在384张A100上进行了训练。H100方面:a) OpenAI可能需要50000张,Inflection可能需要22000张,Meta可能需要25000张。大型云厂商可能每家都需要30000张(Azure、谷 歌、AWS、Oracle)。Lambda和CoreWeave以及其他私有云厂商可能总共需要10万张, CoreWeave预订的H100数量约为35000- 40000张,而Anthropic、Helsing、Mistral、Character等每家可能需要10000张。b) Inflection在其GPT-3.5等效模型中使用了3500张H100。GCP拥有大约25000张H100。微软Azure和Oracle可能有10000-40000张H100。

发展趋势

大模型训练中的故障与中断问题对GPU集群的质与量提出了更高要求

大模型架构复杂,训练周期较长。硬件、系统、软件、驱动等等需要稳定运转才能最大化加速卡并行运算的能力,保障模 型训练的效率,缩短训练的时间和成本。虽然加速卡具有优异的计算性能,但软、硬件等故障时常发生,各类任务频繁重启,训练经常中断、持续时间较短。如果 训练中断后不能及时恢复,不仅会影响训练成功率,还会使得训练成本居高不下。

案例:阿里云面向AI大模型的解决方案

SCC高性能弹性计算集群:为提升并行运算的效率,集群中GPU之间使用了最高效的NVSwitch互联。节点之间使用了非阻塞 式的RDMA网络,同时节点间还有VPC网络互联。此外,集群还用了高性能的集群存储CPFS和块存储。算力切割&调度:提供更小的 GPU 计算粒度,通过池化的方式提升资源使用效率。例如,通过 cGPU 技术实现GPU的资源 切割和跨主机资源池,以解决 GPU 资源的使用不充分、或者更加夸张的计算资源配比需求等等,帮助用户获得更有效率 和更有性价比的 GPU 计算资源。

阿里云基于自身IaaS资源推出AI加速套件AIACC,用于优化基于AI主流计算框架搭建的模型,显著提升训练和推理性能。当前AIACC推理引擎包含AIACC-Torch(Pytorch推理加速引擎)、AIACC-MLIR(MLIR推理加速引擎)、AIACC-HRT(AIACC 算子深度加速引擎)几个组件。AIACC-Torch(Pytorch推理加速引擎)主要用于业界主流的PyTorch 模型的推理加速引 擎;AIACC-MLIR(MLIR推理加速引擎)是基于MLIR用于优化Tensorflow的加速引擎;AIACC-HRT(AIACC算子深度加速引擎) 是阿里云底层高性能的限制加速库。

竞争格局和要素

云厂商的核心竞争力体现在资金、软硬件、下游客户等多个层面

算力需求贯穿大模型训练、微调、推理整个周期,无论是 国内还是国外,目前AI算力需求都具有较强的确定性,我 们认为AI算力需求未来还将维持高增。各个云厂商在硬件、软件和商业化上的布局不同,所匹配 到的客户特征、用户决策偏好以及在 LLM 发展的客户需 求等方面也存在差异。

硬件:GPU、通信、裸机实例;从NVIDIA拿货的实力尤为重要:提货优先级>目前所拥 有的绝对数量。NVIDIA 不仅会考虑云厂商服务的大模型 客户的实力,还会考虑LLM生态均衡性、自研芯片的竞 争态势和客户体量等因素;裸机实例在训练环节更占优势,因为客户需要最大化利 用算力资源;而在微调与推理环节,由于业务复杂度、 成本等考量,传统进行虚拟化后的云服务大概才能满足 各类客户的多样化需求。软件:Kubernetes、ML/AI Ops;商业化:硬件和运维成本、定价策略、目标客群、用户体 验等。

AI算力租赁的收入和成本结构

采购端,目前A800服务器整机含配套采购价格约为120-150万元/台,我 们按照5-7年折旧;收入端,按照中贝通信与青海联通签订的算力服务框架协议,租金按照 含税¥12万元/P/年计算,单台8卡A800服务器租金约为60万元/年。采取FP16(稀疏)精度下的算力。单张A800卡算力为624 TFLOPS,则一 台8卡A800服务器算力约为5P;单张H800卡算力为1979 TFLOPS,则一台8 卡H800服务器算力约为16P。

重点公司算力布局情况

鸿博股份:深度绑定英伟达,AI算力稳步落地

鸿博股份2022年8月切入AI算力领域, 与中关村中恒文化、英伟达、英博数 科签订四方合作协议,合作成立北京 AI 创新赋能中心。主要业务为:算力 出租、云资源采购一站式服务、人工 智能教育培训、产业实验室。2023年7月,完成共计1000P由英伟达 A&H系列智算服务器组成的AI算力集 群部署调优并交付。9月,已向客户交 付1300P算力。计划于2023年在京落成 3000P以上智算中心。搏博云平台:跨平台GPU算力管理、 统筹、调度及整合。截至2023年6月,已完成5120P订单签 约。客户:多模态大模型训练、云渲 染、无人驾驶、量化交易模型训练等。

青云科技:云服务技术背景+大集群运维经验,轻资产模式优势尽显

公司提供NVIDIA A800和H800云服务器的算力租赁业务,打造第二成长曲线:2023H1,公司实现AI算力服务收入2651万元。公司超级智算平台适用于生命科学、CAE 仿真、海洋气象、影视渲染、石油勘探、深度学习、测绘地理、模型训练、场景推理等计算场景。“代建+轻资产”模式优势尽显:在三大国家千亿万次超算中心之一的国家超算济南中心项目上,公司交付了一整套完整的多元算力服务管理平 台,包括了HPC算力、GPU算力、云计算算力、高性能存储以及海量非结构化数据存储。AI算力调度平台优势:提供多元算力统一调度、实现智能化算力调度与管理、芯片国产替代、智简运营运维、建设智能生态打造丰富应用。

中贝通信:智算中心建设加速推进,计划年内落地AI算力5000P

中贝通信确定发展AI大模型业将智算算力服务作为新基建业务发展重点,目前已部署合肥与长三角两个算力中心,计划 2023 年实现5000P算力 服务能力,未来三年达成万P算力+万卡集群的“双万”战略目标:收购容博达云计算70%股权,合肥算力中心首期投资约10亿元,已完成土建与园区配套,机房配套已启动,一期项目将实现算力3000P,计 划在2023Q4具备服务能力,总体建成后最大可提供算力10000P的能力;长三角算力中心计划投资2亿元,提供800-1000P算力能力,机房选址已初步确定,正在与当地政府洽谈投资协议;前期采购的A800卡与服务器已陆续到位,H800服务器采购订单已经陆续下达,在9-10月份陆续到货,已提供样机给部分客户进行测试。供应端,与浪潮、新华三等签订战略合作协议,在服务器采购供应、资源共享、用户开发与维护、商业推广等领域开展合作达成行动方案。

恒润股份:在手算力2500P,携手运营商建设芜湖智算中心

2023年7月,恒润股份与上海六尺科技集团有限公司共同出资设立上海润六尺科技有限公司,计划于上海、福州经开区、 安徽芜湖、山东济宁等地合作建立算力中心,并打造长三角GPU算力中心集群。上海六尺核心团队深耕GPU算力多年, 具有丰富的AI智算中心(GPU算力)建设、运营经验和算力市场资源。与上游GPU供应厂商英伟达、新华三等有深度合作 关系。

公司与运营商合作提供高端算力租赁,基于丰富的经验,公司能提供针对性的算力租赁服务,帮助运营商优化现有的 算网服务,为客户提供AIDC一站式服务:8月3日,上海六尺、中国移动芜湖分公司、新华三在芜湖签署战略合作协议,三方将携手建设东数西算芜湖集群首 个大规模智算中心,项目总投资规模超20亿元。8月29日,上海润六尺与安徽联通在合肥签订战略合作协议,携手推动芜湖集群大规模智算中心项目建设,共享智 算中心建设能力、运营经验和算力市场资源。此次中国联通长三角(芜湖)智算中心和六尺科技长三角智算中心项 目总投资规模超80亿元。

报告节选:































(本文仅供参考,不代表我们的任何投资建议)

文琳编辑

免责声明:转载内容仅供读者参考,观点仅代表作者本人,不构成投资意见,也不代表本平台立场。若文章涉及版权问题,敬请原作者添加 wenlin-swl  微信联系删除。

为便于研究人员查找相关行业研究报告,特将2018年以来各期文章汇总。欢迎点击下面红色字体查阅!

文琳行业研究 2018年—2023年11月文章汇总

▼长按2秒识别二维码关注我们


今日导读:点击下面链接可查阅

公众号 :文琳行业研究

  1. 2023年双十一水饮行业报告

  2. 饮料行业专题报告:复盘日本软饮变迁,探究行业潜力赛道

  3. 2023国潮新茶饮产业发展洞察报告

  4. 2023年双十一调味品销售数据解读报告

  5. 火锅品类发展报告2023

  6. 抖音电商预制菜行业报告

  7. 中国方便速食行业研究报告

  8. 2023白酒行业深度报告

《文琳资讯》

提供每日最新财经资讯,判断经济形势,做有价值的传播者。欢迎关注

▼长按2秒识别二维码关注我们

今日导读:点击下面链接可查阅
  1. 热搜第一!北京、漠河等多地拍到极光!大地磁暴预警发布,对生活有影响吗?

  2. "政府决心把大盘拉起来",刘纪鹏重磅发声

  3. 11月百强房企拿地情况出炉!18城取消土地限价,"价高者得"

  4. 最新官宣!华为大消息,A股又要"沸腾"?

  5. 黄金,有史以来的最高价!

  6. 半岛突发!朝鲜发出"宣战"警告!局势升级,土耳其发动空袭!扎波罗热核电站出事,影响多大?

公众号 :就业与创业
点击下方可看
  1. 大城市的体制内,其实不太适合寒门子弟

  2. 马云下猛药,出手拯救阿里巴巴,结束了淘宝和天猫8年的内

  3. 知名男星承认漏税!被曝职场冷暴力、PUA

  4. 女子变成植物人,男友负债20万照顾她,苏醒后她眨了2下眼睛,警察马上抓捕其男友

  5. 体制内退休后精神状态明显改善的,大部分是单位中层干部





继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存