2024AI的内存瓶颈高壁垒高增速.doc
《2024AI的内存瓶颈高壁垒高增速.doc》由会员分享,可在线阅读,更多相关《2024AI的内存瓶颈高壁垒高增速.doc(67页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、证券研究报告行业深度HBM:AI的内存瓶颈,高壁垒高增速分析师:刘双锋分析师:章合坤分析师:孙芳芳研究助理:何昱灵liushuangfengzhanghekunsunfangfangheyulingSAC 编号:S1440520070002SAC 编号:S1440522050001SAC 编号:S1440520060001发布日期:2024年3月9日本报告由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。同时请务必阅读正文之后的免责条款和声明。摘要 HBM是限制当前算力卡性
2、能的关键因素,海力士、三星、美光正加大研发投入和资本开支,大力扩产并快速迭代HBM,预计2024年HBM3e 24GB/36GB版本将量产/发布,内存性能进一步提高。HBM供需将持续紧俏,市场规模高速增长。通过分析生产工艺(TSV、键合等)和技术演进方向(先进制程、叠层),我们认为封装测试、前道和后道先进封装的设备和材料将是HBM主要受益方向。 HBM是当前算力的内存瓶颈。存储性能是当下制约高性能计算的关键因素,从存储器到处理器,数据搬运会面临带宽和功耗的问题。为解决传统DRAM带宽较低的问题,本质上需要对单I/O数据速率和位宽进行提升。HBM由于采用了TSV、微凸块等技术,DRAM裸片、计算
3、核心间实现了较短的信号传输路径、较高的I/O数据速率、高位宽和较低的I/O电压,因此具备高带宽、高存储密度、低功耗等优势。即便如此,当前HBM的性能仍然跟不上算力卡的需求。 三大原厂持续加大研发投入,HBM性能倍数级提升。随着技术的迭代,HBM的层数、容量、带宽指标不断升级,目前最先进的HBM3e版本,理论上可实现16层堆叠、64GB容量和1.2TB/s的带宽,分别为初代HBM的2倍、9.6倍和4倍。从Trendforce公布的HBM Roadmap来看,2024年上半年,海力士、三星、美光均会推出24GB容量的HBM3e,均为8层堆叠。2024年下半年,三家厂商将推出36GB版本的HBM3e
4、,或为12层堆叠。此外,HBM4有望于2026年推出。 HBM制造集成前道工艺与先进封装,TSV、EMC、键合工艺是关键。HBM制造的关键在于TSV DRAM,以及每层TSV DRAM之间的连接方式。目前主流的HBM制造工艺是TSV+Micro bumping+TCB,例如三星的TC-NCF工艺,而SK海力士则采用改进的MR-MUF工艺,在键合应力、散热性能、堆叠层数方面更有优势。目前的TCB工艺可支撑最多16层的HBM生产,随着HBM堆叠层数增加,以及HBM对速率、散热等性能要求的提升,HBM4开始可能引入混合键合工艺,对应的,TSV、GMC/LMC的要求也将提高。2摘要 AI刺激服务器存储
5、容量扩充,HBM需求强劲。随着云计算厂商将更多资本开支投入AI基础设施,AI服务器ODM对2024年展望乐观,预计2024年AI服务器出货量继续大幅增长。相较于一般服务器而言,AI服务器多增加GPGPU的使用,以NVIDIA A100/H100 80GB配置8张计算,HBM用量约为640GB,超越常规服务器的内存条容量,H200、B100等算力卡将搭载更高容量、更高速率HBM。我们测算,随着算力卡单卡HBM容量提升、算力卡出货量提升、技术迭代带来单GB HBM单价提升,2023年HBM市场规模为40亿美元,预计2024年增长至148亿美元,2026年增长至242亿美元,20232026年CAG
6、R为82%。 目前HBM供应链以海外厂商为主,部分国内厂商打入了海外存储/HBM供应链。国产HBM正处于0到1的突破期,HBM供应主要为韩系、美系厂商,国内能获得的HBM资源较少。随着国产算力卡需求快速增长,对于算力卡性能至关重要的HBM也有强烈的供应保障诉求和国产化诉求。建议关注:封测、设备、材料等环节。 相关标的: 封测:通富微电、长电科技、深科技; 设备:中微公司、北方华创、拓荆科技、芯源微、赛腾股份、华海清科、精智达、新益昌; 材料:雅克科技、联瑞新材、华海诚科、强力新材、天承科技、飞凯材料、壹石通、兴森科技; 代理:香农芯创。 风险提示:AI技术落地不及预期;国际环境变化影响;宏观环
7、境的不利因素;市场竞争加剧风险。3目录CONTENTS一、HBM:算力的内存瓶颈二、S K海力士HBM工艺分析:TSV、EMC、混合键合成趋势三、市场测算:未来三年 CAGR超80%四、相关标的:设备、材料迎来新成长五、风险提示CPU拥有多级缓存架构,HBM属于内存环节 现代CPU为了提升执行效率,减少CPU与内存的交互(交互影响CPU效率),一般在CPU上集成了多级缓存架构。 CPU缓存即高速缓冲存储器,是位于CPU与主内存间的一种容量较小但速度很高的存储器。由于CPU的速度远高于主内存,CPU直接从内存中存取数据要等待一定时间周期,Cache中保存着CPU刚用过或循环使用的一部分数据,当C
8、PU再次使用该部分数据时可从Cache中直接调用,减少CPU的等待时间,提高了系统的效率。 从CPU到用户数据,需经历“寄存器SRAM内存SSD或HDD” 的路径,HBM属于内存的一种。图表:CPU的多级缓存架构HBM数据来源:中国闪存市场,中信建投5存储性能是当下制约高性能计算的关键因素 内存墙(传输带宽慢或容量有限)是算力提升的重要瓶颈。 从存储器到处理器,数据搬运会面临2个问题:(1)数据搬运慢;(2)搬运能耗大。图表:数据传输的速率及能耗限制算力性能发挥数据来源:知存科技,中信建投6存储性能是当下制约高性能计算的关键因素 算力的增速远大于存储的增长速度。目前绝大部分的计算系统基于冯诺依
9、曼计算机体系,而该体系下存储与计算单元分离,需要通过总线不断在存储与处理器之间传输数据,因此存储的带宽制约了算力的利用效率。此外,从外部处理器到内存之间不断进行数据的搬运,搬运时间往往是运算时间的成百上千倍,产生的无用能耗过多。图表:算力的增速远超存储与互连带宽的增速数据来源:riselab,中信建投7存储性能是当下制约高性能计算的关键因素 模型体量的增速远大于算力卡存储容量的增速。随着 Transformer 模型的大规模发展和应用,模型大小每两年平均增长了240倍,而单个GPU内存容量仅以2年2倍的速度扩大。为了摆脱单一算力芯片内存有限的问题,可以将模型部署于多颗GPU上运行,但在算力芯片
10、之间移动数据,仍然比单一芯片内部移动数据低效,因此算力芯片内存容量的缓慢增速制约了更大规模的模型应用。图表:大模型体积的增速远高于算力芯片存储容量的增速数据来源:riselab,中信建投8HBM:基于TSV技术获得的高带宽内存,已成为高性能计算的首选 如同闪存从2D NAND向3D NAND发展,DRAM也正在从2D向3D技术发展,HBM(High Bandwidth Memory,高带宽存储)为主要代表产品。从结构上看其特点有:(1)3D堆叠结构并由TSV互连:HBM由多颗DRAM die堆叠成3D结构,使用TSV技术实现信号的共享与分配;(2)高I/O数量带来高位宽:HBM的每颗DRAM
11、Die包含多个通道,可独立访问。每个通道又包含多个I/O口,位宽64/128bit,使HBM的总位宽高达1024bit。 HBM性能优异,主要用于高性能计算芯片。HBM的结构特点为其带来存储密度更大、功耗更低、带宽更高的优势。HBM通常采用CoWoS等先进封装技术与计算核心进行互连,多用于与数据中心算力芯片GPU/FPGA/ASIC等配合工作。图表: HBM结构示意图图表: HBM采用CoWoS封装与计算核心互连数据来源:SK Hynix,中信建投数据来源:AMD,中信建投9HBM优势:相比GDDR,大幅增加计算核心可用的带宽 总带宽=I/O数据速率(Gb/s)*位宽/8。为解决DDR带宽较低
12、的问题,本质上需要对单I/O的数据速率和位宽(I/O数*单I/O位宽)进行提升,着重于不同方向发力的方案分别为GDDR和HBM。 GDDR提升单I/O的数据速率,总带宽提升有限:GDDR采取大幅提升单I/O数据速率的手段来改善总带宽,GDDR5和GDDR6的单I/O数据速率已达到7 Gb/s到16Gb/s,超过HBM3的6.4 Gb/s。虽然GDDR的位宽相比DDR也有提升,但由于GDDR仍然是通过PCB与计算核心进行互连,总位宽的提升受到限制。 HBM利用TSV技术提升I/O数,总带宽提升明显:HBM利用TSV技术在维持较低的单I/O数据速率的情况下,大幅提升了位宽进而获得了远优于GDDR的
13、总带宽表现。图表:HBM利用高位宽克服带宽的限制图表:决定GDDR、HBM带宽差异的核心因素对比最新标准GDDR6HBM2eHBM3最高I/O速率(Gb/s)163.66.4每颗DRAM通道数2816单通道位宽(bit)1612864最高位宽(bit)3210241024最高带宽(GB/s)64460819数据来源:Sk Hynix,中信建投数据来源:Rambus,中信建投10HBM优势:相比GDDR,功耗、集成度更具优势 HBM的高I/O速率和低电压使其获得优异的能效比。由于采用了TSV、微凸块等技术,DRAM裸片、计算核心间实现了较短的信号传输路径、较高的数据速率和较低的I/O电压,使HB
14、M的能效比优于DDR和GDDR。 HBM采用DRAM堆叠获得高存储密度,有利于提高集成度。相比于1GB GDDR5(4颗256M颗粒),1GB HBM1的表面积节省达到了94%。对比AMD使用4GB HBM1的GPU R9 Fury X与使用4GB GDDR5的 R9 290X,HBM方案的面积可以控制在4900 mm2以内,而使用GDDR5方案的面积达到9900 mm2。图表: HBM能效比优于GDDR与DDR图表: HBM有效减少芯片的面积占用 mW/Gbps/Pin1.2110.960.80.580.60.450.40.330.20DDR3 x16DDR4 x16GDDR5 x32HBM
15、1HBM2数据来源:Sk hynix,中信建投数据来源:AMD,中信建投11HBM标准历经多次升级,I/O速率、带宽获得明显提升 三大DRAM原厂推动技术迭代,性能表现持续提升。HBM高带宽的特点使其适合数据中心GPU等高性能算力芯片,全球三大DRAM原厂陆续加强HBM的技术投入。随着技术的迭代,HBM的层数、容量、带宽指标不断升级,目前最先进的HBM3e版本,理论上可实现16层堆叠、64GB容量和1.2TB/s的带宽,分别为初代HBM的2倍、9.6倍和4倍。 容量(GB):由单颗DRAM颗粒的容量、DRAM颗粒的堆叠层数共同决定。 总带宽(GB/s):从HBM1到HBM3e,尽管不同代际之间
16、的I/O数量和单I/O位宽存在差异,但总位宽均保持为1024bit,因此I/O速率的提升推动了总带宽提升。根据DigiTimes援引Seoul Economy的消息,HBM4有望将总位宽提升至2048bit,即使I/O速率维持不变,总带宽也将有翻倍增长。图表:各代HBM参数对比制程最大I/O单通道位总位宽最大带宽可堆叠高DRAM颗HBM最代际速率通道数宽粒最大容大容量Sk HynixSamsungMicron(nm)(bit)(GB/s)度量(Gb/s)(bit)(GB)(Gb)HBM20nm18128102412881616HBM220nm28128102425681616HBM2e1y/1
17、z3.68128102446112243616GbHBM31z 16Gb6.416641024819163264HBM3e1/19.616641024122916326424Gb数据来源:Rambus,中信建投122024年HBM3e 24GB版本和36GB版本将量产 自2023 年ChatGPT发布以来,AI服务器的强劲需求正推动 HBM快速迭代。从 Trendforce公布的HBM Roadmap来看,2024年上半年,海力士、三星、美光均会推出24GB容量的HBM3e,按照1 alpha/beta 24Gb的工艺计算,均为8层堆叠。2024年下半年,三家厂商将推出36GB版本的HBM3e
18、,或为12层堆叠。图表:各家HBM Roadmap数据来源:Trendforce,中信建投13HBM4展望:除配置升级外,还可能朝客制化发展 当前供应商聚焦于迭代HBM3e,单die容量和堆叠层数仍有提升空间,但HBM4已经列入研发计划: 1、堆叠层数:HBM4在堆叠层数上,除了现有的8/12层外,将再往16层发展,更高层数也将带动新堆叠方式Hybrid bonding的需求。HBM4 12层将于2026年推出,而16层则预计于2027年问世。 2、逻辑die:受到GPU/HBM规格更往高速发展带动,Trendforce预计HBM最底层的Logic die(Base die)将采用12nm制程
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2024 AI 内存 瓶颈 壁垒 增速
限制150内