东数西算数据中心基础架构设计方案白皮书2022.docx
《东数西算数据中心基础架构设计方案白皮书2022.docx》由会员分享,可在线阅读,更多相关《东数西算数据中心基础架构设计方案白皮书2022.docx(36页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、翻二 SUPERNEKCL公UD让数据中心率简单目录一、东数西算的背景3(一) 政策背景3.核心战略31 .东数西算和国家热点战略关系解读4. 一张图解读政策之间的关系72 .典型枢纽和节点布局7(二)投资背景9.政府投资91 .民间投资10(三)业务背景11.东数西算业务需求111 .业务承载能力需求13.业务上线效率的需求132 .能效水平需求15(四)技术背景16.云边协同发展趋势161 .算力芯片发展趋势16.存储介质发展趋势182 .节能减排技术发展趋势19二、从0到1基础设施建设模式21(一)基于微模块建设方式21.数据中心建设211 .简易算力部署22.边缘计算节点22(二)基于
2、整机柜交付方式23.厂内预制、快速交付23(三)基于液冷建设交付方式24.数据中心液冷技术24就业、人才引进方面为当地做出贡献,拉动当地数字产业和数字经济发展,形成双 赢局面。2.民间投资民间投资往往以第三方数据中心为主要投资方式,第三方数据中心运营商 占据我国数据中心市场半壁江山,且份额每年都有所上升。源于早期数据中心建 设资源和网络资源积累的优势,当前我国数据中心市场格局仍由三大基础电信运 营商主导,众多第三方数据中心运营商加速追赶,共同构成我国数据中心主体格局。从2020年数据中心业务市场收入占比来看,基础电信运营商约占总市场规模 的54. 3%,其中中国电信市场规模约占23. Wh、中
3、国联通约占6.7%、中国移动 约占13.8%。第三方数据中心运营商市场规模占比为蜴.7%,2019年的40.7%,市场收入占比有明显提升(注5)。2020年基础电信运营商及第三方数据中心运营商 数据中心业务收入分布图3: .基础电信运营商及第三方数据中心运营商数据中心业务收入分布(三)业务背景1 .东数西算业务需求离线数据处理场景。企业中有非常多需要离线分析的数据,例如,软件系统 中的日志分析、每日每月报表分析、用户图片,视频算法分析等,采用大数据软 件进行离线数据分析,这些数据和分析产生的结果对时效性要求并不是很高,因 此西部价格便宜的算力优势足以低过数据传输带来的成本。AI训练、视频渲染、
4、超算场景。AI平台提供训练往往需要专门的算力设备, 同时可以基于线下数据进行线下训练,因此用户可选择在西部数据中心中运行算 力密集度高的AI模型训练任务,训练出的模型再同步至东部数据中心的镜像Hub 中并用于推理服务。视频渲染也是类似特性的算力密集型任务,将需要渲染的数据 存储至西部数据中心,充分利用计算资源充足和价格优势完成视频渲染后,再将最终 视频推流至用户端。同时东部地区还可采用边缘计算节点来缓存加速视频文件和相 关数据,实现就近访问。同样对于科研计算中的流体力学、物理化学、生物信息等 高性能超算场景,也适合在西部地区数据中心中进行计算。物理托管和混合云场景。在企业上云过程中并不是把所有
5、业务和数据全部 迁移至云平台,因为企业IT历史原因和客观条件约束,有一部分服务器必须采 用物理部署的形式。这样,企业就可选择在企业本地物理服务器集群和公有云之间 构建混合架构,也可以选择将物理服务器集群托管至云平台。随着网络时延的逐步 改善,以及西部数据中心的建设和配套服务的完善,让需要有服务器托管的中西部 用户,甚至一些东部客户有了更多选择。数据归档场景。如目前火爆的直播带货行业每天会产生大量的视频数据,根 据直播带货视频合规要求,相关视频要至少保存三年;医院医疗影像、医疗诊断记 录也要根据合规要求进行长时间保存。存储这些数据一方面对容量需求巨大,另外 一方面有很少的读取需求,越便宜越好。这
6、些就是我们说的冷数据,因此将冷数据 存储至西部数据中心中的廉价存储介质中,比如说大容量的机械硬盘,甚至是带库, 是非常好的选择。两地三中心灾备场景。政府和大型企业构建大型数据中心,根据政策法规要 求,都会考虑灾备场景,随着两地三中心模式的普及,异地灾备成为政府和大型企业的广泛要求,以前中西部地区因为东部数据中心配套的网络建设、运维服务、方 案成熟度相对更高,往往会把灾备中心建设在东部,这就面临着越来越有限的扩展 空间和昂贵的成本。随着西部数据中心的不断成熟,中西部甚至东部客户,可以 根据自身地理位置情况,将主副中心或者灾备中心建立在离自身距离较为合适的西 部地区(注6) o2 .业务承载能力需
7、求依据地域不同,东数西算数据中心业务承载也呈现不同特点,需要截然不 同的硬件基础架构支撑。对于占据数据量 那卜的温冷数据而言,规模化的应用需 要海量的数据处理与存储需求,此时集聚性的数据中心能够显著降低数据中心建 设和使用成本,数据中心内部大多数业务对于网络实时性要求不高,却需要更多的 异构算力融合及云网融合,来加强数据流通与数据处理能力。部分业务如人工智 能训练,超算中心等,更是需要发挥集群的算力优势,组建并行集群。数据利用率极高的业务,则是对于网络实时性提出了更高的要求,需要在 本地化数据中心或边缘环境下部署,作为数据中心云在用户侧的延伸和触角,满 足更广连接、更低时延、更优控制的需求。数
8、据中心需要在边缘端提供更密集的网 络算力,更灵活的部署方式。3 .业务上线效率的需求随着“东数西算”工程和企业数字化转型进程的不断推进,数字技术逐渐渗 透 到各行典务的方方面面。当下,在数字化的过程中,越来越追求业务部署的 速度,这就对作为产业数字化底座的数据中心提出了更高的要求,通常会尽可能的 要求生产力逐步提升、生产效率不断提高,从而迅速扩大企业的业务范围和影响 力;相反,数据中心的运营成本、建设周期要尽量降低和缩短。因此,数据中心的 建设和交付成为提升业务上线效率的关键环节之一。数据中心采用传统“建设模式”会是一项复杂的系统工程,涉及数据中心选址、 建筑方案设计、风火水电等基础设施建设、
9、IT设备部署调试、运维管理、队伍建设 等一系列工作,不仅在建设期需要投入大量的人力、物力和财力,而且在建成后还要 持续投入大量的运营管理资金和人员。传统的建设模式,建成后数据中心可扩展性差, 基于对未来业务需求的分析,规划系统容量,却无力预见3至4年以后的情形,因 此造成了建设不足或过度建设。从而影响用户及村服务商双方的业务发展。这 种规划方式需要将设备部署与建设设计的功能区域划分做强耦合,方案设计复杂, 施工过程难度大、周期长,不具备良好的扩容能力;显然这种工程建设方式已经不适 应数据中心响应数字时代转型,生产能力飞速提升的需要。需要将数据中心的设备层 与建筑层做分离,将建筑设计简化为标准空
10、间,而设备层不依赖于建筑物区域和空 间的划分,自成标准,结合优势技术不断迭代升级的同时,又能满足任何时期增 量部署的要求。数据中心的“交付模式”主要实现的是在基础设施设备和IT设备层面进行 耦合,做到去工程化、全面预制化的水平;可以理解为将建设现场的安装部署、 调试等工作交由工厂预先完成,将各层“先实施、后集成”的建设方式升级为“先验 证、后生产”的先验一体化交付模式;模式”可以不受场地条件的限制,类似于虚拟化技术可以突破硬件设备限制,将灵活、快速提升生产力作为首要目标, 不断地进行技术迭代,缩短数据中心基础设施设备和IT设备的实施周期,从而 实现快速交付的能力。完美匹配数据中心响应企业“数字
11、化转型”的要求。4 .能效水平需求根据东西部枢纽节点地理位置、功能、定位等不同的特点,“东数西算”工 程注重高算快存的同时也对东西部枢纽节点分别提出不同能效水平要求。根据 “东数西算”的文件要求,对自 然环境优越,可再生资源充足的西部枢纽要求数据 中心能耗水平达到12以下,对东部枢纽地区数据中心能耗水平要求 达至八.25以下。东数西算工程将东部算力有序引导至西部,但例如工业互联网、视频编辑、 自动驾驶等仍需东部边缘算力支撑,增大算力能效水平对于东西部业务部署都至关 重要。扩大数据处理量,加快计算速率,影响其主要因素一是设备,二是电力,因止娱 高数据中心建设密度成为提高算力水平的重要举措,这就需
12、要在节能的前提下提高单柜功 率密度。要达到当前所要求的能效水平,则不能仅依赖于传统数据中心建设模式,需 要在集约化、规模化、绿色化方面着重发力。技术背景1 .云边协同发展趋势在东数西算大背景下,5G、物联网等技术飞速发展,企业数字化转型进程加 快,高带宽、低延时、数据安全的要求越发强烈,带动边缘计算需求激增,云边协 同成为未来技术重要演进方向,驱动数据处理向边缘扩散,云边端一体化算力形 态将更好地满足各行各业创新需求。2 .算力芯片发展趋势CPU作为数据中心算力的基石,目前呈现出一超多强的市场格局,X86架构 历场Intel牢牢占据霸主地位,N柳作为后起新秀2021年最新市场份额超过7。, 隈
13、架构也呈现了群雄割据之势,尤其在信创趋势下,各个芯片厂商围绕着芯片 制程、核心主频、加及封装方式不断进行更新迭代。制程工艺与核心数量。以Intel为例,至强Ice Lake CPU已升级至10nm, 单颗最多支持40个物理核心;在2021年7月Intel公布的芯片制程工艺路线 图显示,新一代可扩展处理器将采用更先进的制程,单颗核心数预计将达到56 核以上,版与即从技术路线来说,制程工艺更加先进,核数更多。模块化与Chiplet设计。CPU作为精密的半导体部件,为提高良品率,厂商 通常将一个。拆分成多个较小的晶片3m)分别生产、再进行互联、封装。 以他服务器为例,一代针YC最多能提供32核心,最
14、大的变化是采用了多翻 WSUPERNBKcl公UD让数据中心率简单芯片模块架构mCU),包括了四个对等的Die组成,单Die最多提供8个物理 核心及Cache,在二代和三代EPYC则对多die互联架构持续优化,形成了 8个 CCD围绕一个IOD的Chiplet设计(如下图)。HYBRID MULTI-DIE DESIGN IN ACTIONEPYC 7001 Series Processors ii 4dieSoC hEPYC 7002 Series Processors 9deSoCEPYC* 7002 Series is Platform Compatible with EPYC- 700
15、1 Series to Optimize Ecosystem Deployment Performance-optimized Dte-to-die Infinity Fabric图4:模块化与Chiplet设计示意图CPU功耗逐步接近风冷极限。目前最新在售的Ne初AMD处理器、DP单 颗最高分别为270飞和次,下一代皿预计将逼近40琳,对于传统的风冷散热 带来严峻挑战,促进液冷技术的创新和落地。AI算力。在算力多样化的新型数据中心建设中,AI算力与通用算力同样重 要,2芯片算力将承担更多的算力任务,向着更高算力、更先进制程、更多核 心、更安全和更智能的方向发展。以NVIDIA最新发布的o口p
16、et架构的H00为 例,单张GPU的晶体管数量达到了恐怖的800亿个,制程工艺也提升至台积电 4nm, 18432个CUDA核心,支持PCI-E 5.0、NV L1#第四代,后者带宽提升至 900GB/S,七倍于PCI-E 5. 0。相比于A100在智能化和安全性方面也对MIG技 术进行了升级,支持机密计算和全新的型X指令。网络算力。在计算模型复杂化、算力要求提升的趋势下,牌 的出现减轻了 CPU的计算负担,而算力要求提升的背景下是数据量、数据类型的增多,为了进 一步提升计算系统的数据处理与调度能力,DPU应运而生。主要处理网络10和 减轻CPU对数据处理的负载,释放更多的CPU算力,将数据集
17、中处理和调度,不 仅能够缩短数据经过的路径、减轻CPU负担,还将以计算中心的网络数据处理改 变为以数据为中心,提高了整体数据中心的数据处理效能。3 .存储介质发展趋势东数西算对海量数据的需求和运用更广泛。来自中商产业研究院发布的数据 显示,中国83. 7%的数据集中在“胡焕庸线”以东,为此需要通过“东数西算” 工程来改善数字基建不平衡的布局,对海量数据进行合理、优化的调度、存储与 处理,发挥数据资产对行业数字化的更大价值。HDD的发展趋势:在总体数据类型中,温冷数据的占比依旧是最大的,HDD 机械盘凭借单T成本优势仍然是温冷数据存储的首选,随着数据爆炸式的增加, 如何突破HDD容量增长瓶颈及实
18、现容量与性能的均衡提升是目前机械介质技术 发展所面临的核心挑战。1)容量提升:通过热辅助磁记录相关技术实现了单盘20+的容量突破:2)性能提升:通过双驱动臂技术(以希捷Mach. 2为例)实现了在容量点 不变的情况下性能加倍;) TCO降低:通过氨气填充、SMR技术大幅提高单盘容量的同时降低总体 TCO;SSD的发展趋势:SSD的NAND “楼层”越来越高,目前,主流的企业级SS4 均采用了最新的3D NAND技术,64-176层芯片成为主流产品。2022年上半年 三星宣布推出176层NAND,预计最快在2022年底发布200层及以上堆叠技术 的NAND芯片,单的SSD成本也逐步降低。3 .节
19、能减排技术发展趋势东数西算将从源头上推动数据中心持续提高能效、碳效水平,强化全生命周 期的节能管理。在全国各地对节能审查,政策扶持等方面做出明确规定,政策限 制高FUE值IDC入场。供电技术。发展清洁能源为数据中心供电:直接部署清洁能源采用太阳能、 风能、水能等清洁能源发电为数据中心供电。储能技术包含储热、储氢、储电多种 方式,由于不同技术适用的场景不同(包括能量和功率),其中储电技术应用.冷板式液冷252 .浸没式液冷26算力部署及数据处理模式27(一) 计算27Intel架构典型服务器281. AMD架构典型服务器29 AI30GPU典型服务器302. ASIC典型服务器32FPGA典型服
20、务器33(三)存储33.海量存储服务器341 .紧凑型存储服务器35.全闪存储服务器35三、 集群管理及应用模式36系统运行维护模式39四、 结论40关于超云41五、 参考文献引用备注42最为广泛,又可分为物理储电和化学储电。储能技术的发展与利用,弥补了太阳能、 风能等间歇能源的不足。数据中心UPS使用高频机替换工频机。对于工频机,发电机的容量至少要、倍于UPS功率;对于高频机,输入功率因数可做到或以上,谐波电流小于5%,前置发电机的容量理论上和UPS功率相同,大大缩减了投资和占地面积等。高压直流(HVDC)代替UPS。相较于UPS, HVDC在备份、工作原理、扩容以及蓄电池挂靠等方面存在显著
21、的技术优势,因而具有运行效率高、占地面积少、投资成本和运营成本低的特点。降压和整流合二为一。随着数据中心建设规模的变大,电力容量需求也越来越大。需要提高供电的电压等级来满足容量需求。这时我们需要通过降压变压器将 中高压电源降压到近380V,再由小DC为服务器等供电。降压过程也存在能量 损失,将降压与整流合二为一来有效降低能量损耗。负载端升压降损。随着芯片集成度增加,服务器整机功率密度逐步呈现上升趋 势,末端柜机、板载电源也需要提高DC-DC供电的电压等级来满足容量需求,并 减少中间降压环节,避免损耗。数据中心散热技术。目前主流的散热技术包括自然冷源散热、间接蒸发冷却 和液冷技术。相较于前两者,
22、液冷散热技术不受自然条件和地理位置限制,可以达 到更低PUE、降低IDC噪音,在高功率密度情况下散热效果更优。:、从0到1基础设施建设模式(一)基于微模块建设方式1 .数据中心建设东数西算政策出台时,已经考虑到布局的重要性,我国西部自然条件良好, 清洁能源丰富,可以解决新建算力中心耗电量大,节能减碳要求高的问题。非常适 合新建大型或者超大型的算力中心。前面已经提到算力中心在建设时交付效率、能效水平等硬性要求,而模块化 的方式建设算力中心是最适合的解决方案,采用池级微模块和集装箱微模块解决 方案,算力中心可以分割成多个算力模块或者算力节点,整体算力按照节点或模块 逐步增加,可以从单个模块到几十个
23、微模块根据需求分期建设,分期部署。此举 可大幅提升算力中心的扩展性,可使任何大小的IT空间的配置都达到最佳状态。 与此同时,微模块算力中心方案还可显著降低数据中心在使用寿命期间的成本。相较传统建设方式,工厂预制化的算力微模块建设周期更短。在规划及设计 初期,可根据设计目标以合理的方式配置系统结构;每个模块可以批量生产,现货 供应;标准化的连接方式可减少现场配置与连接的工作量,加快安装速度。以现有 案例来看,模块化算力中心可大幅缩短建设周期,建设周期可缩短至2至3个月。另外,预制化、模块化算力中心采用标准化高度整合式设计,系统稳定性、 适配性高,从根源上就降低了运维难度。同时,模块化算力中心还可
24、根据不同用户 对数据中心等级需求,可灵活弹性的配置N、N+1、颂等配电方案。值得注意的是,随着智能化水平的提升,模块化算力中心层面也逐步智能化,从 供配电、机柜、制冷、综合布线等多方面出发,实现智能化,可以做到“早预防, 早发现,进一步降低了运维难度,提升了算力中心稳定性。2 .简易算力部署简易算力需求灵活,部署规模可大可小,除了场地条件规模较小之外,环境条 件也无法达到西部新建大型算力中心等级标准,池级微模块应用会受到电力、散热 等条件的制约,但算力密度和制冷需求并未降低,排级微模块在保留池级微模块高 扩展性、预制化、标准化、智能化的基础上,设计了封闭式的排级机柜系统,封闭机 柜具备智能超温
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 东数西 算数 中心 基础 架构 设计方案 白皮书 2022
限制150内