欢迎来到得力文库 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
得力文库 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    先进计算发展研究报告(2018年).pdf

    • 资源ID:789590       资源大小:1.25MB        全文页数:47页
    • 资源格式: PDF        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    先进计算发展研究报告(2018年).pdf

    先进计算先进计算发展研究报告发展研究报告 (2012018 8 年)年) 中国信息通信研究院中国信息通信研究院 2012018 8年年1 12 2月月 版权声明版权声明 本本研究研究报告报告版权属于版权属于中国信息通信研究院中国信息通信研究院,并受法律,并受法律保护保护。转载、摘编或利用其它方式使用转载、摘编或利用其它方式使用本本研究研究报告报告文字或文字或者观点的,应者观点的,应注明注明“来源:来源:中国信息通信研究院”中国信息通信研究院” 。违反上。违反上述声明者,本述声明者,本院院将追究其相关法律责任。将追究其相关法律责任。 前前 言言 作为信息技术领域的基础和核心,近半个世纪以来,不断涌现的计算技术浪潮推动着信息技术的持续发展和普及,对国民经济、社会发展发挥着基础性、渗透性、引领性的作用,是科技、经济和社会创新发展的重要推动力。 现代计算技术起源于 1946 年埃尼阿克(ENIAC)的诞生,迄今为止已有超过七十年的发展历程,在半导体工艺器件、CPU 芯片以及分布式、集群、异构等系统技术的推动之下,历经大型机/小型机、PC/服务器、集群/分布式、小型化/低功耗等发展阶段,成为 ICT 产业升级最快、创新最活跃的领域之一。 供给和需求的不匹配推动计算技术产业进入新一轮发展周期,人工智能、自动驾驶、物联网、VR/AR 等创新应用取代基础软硬件成为创新新动能,面向不同应用计算需求的优化和加速将成为近期先进计算技术升级的主要思路。当前,技术创新模式和产业生态体系重构在即,开源开放的影响力日益凸显,多元化的生态发展趋势也为后进入者带来更多的发展机遇。 目目 录录 一、 先进计算的内涵和体系 . 1 (一) 计算技术产业发展历程 . 1 (二) 对先进计算的理解 . 3 二、 现阶段先进计算总体发展态势 . 6 (一) 供需不匹配是目前计算技术产业面临的主要问题 . 6 1.固有计算技术升级模式遭遇天花板 . 6 2.应用创新对计算需求的增速远超摩尔定律 . 8 (二) 短期内需求驱动创新将主导计算技术产业的升级 . 9 1.发展动能转换:应用取代基础软硬件成为创新新动能 . 10 2.发展模式变换:以融合专用加速的系统优化为主 . 11 三、 现阶段先进计算创新重点 . 13 (一) 器件技术:多路径推动摩尔定律持续演进 . 13 (二) 部件技术:三大计算单元加速协同创新 . 16 1.数据处理单元 . 17 2.数据存储单元 . 21 3.数据交换单元 . 23 (三) 系统技术:围绕应用需求展开体系化升级 . 23 1.异构及可重构 . 24 2.分布式及集群 . 28 3.内存计算及存算一体化 . 32 (四) 非冯诺依曼架构:量子和类脑成为探索重要方向 . 33 四、 近期发展趋势与展望 . 36 (一) 创新应用是计算技术产业升级的首要驱动力 . 37 (二) 开放融合是先进计算技术创新的主导模式 . 38 (三) 先进计算产业生态进入多元化重构期 . 40 中国信息通信研究院 先进计算发展研究报告(2018 年) 1 一、一、 先进计算先进计算的的内涵和体系内涵和体系 ( (一一) ) 计算技术产业计算技术产业发展历程发展历程 计算技术与人类文明同期起步,历经手动、机械、电动及电子四大阶段。手动计算阶段最早可溯源至远古时代,人类早期通过手指或石子、木棍、结绳等工具实现计数和简单计算,后期随着数学理论的发展逐渐衍生出算筹、算盘、计算尺等计算工具,此时计算的实现以人自身的逻辑计算为主,工具只是辅助实现手段。十七世纪初,伴随人类机械制造能力的不断进步, 可用于实现计算的机械装置也日益复杂,包括计算钟、计算器、差分机、分析机等多种基于齿轮传送等机械原理实现的计算机层出不穷,相比较手动阶段而言,极大提升了计算能力。十九世纪末,电机工程学的进步和电的发现及使用给人类社会带来深刻影响的同时,也推动了机械式计算机的又一次进步,电力 不仅成为计算设备的动力来源,带动包括制表机、祖思机等一系列复杂计算装置的发展,也推动了后续二进制数字计算机的快速实现。二十世纪四十年代后,诞生于美国的埃尼阿克(ENIAC)标志着计算电子化时代的开启,自此后七十多年里,计算技术的性价比保持指数级增速,成为科技创新、社会进步和经济增长的重要驱动力,据研究机构表明,数字化程度每提高 10%,人均 GDP 增长 0.5-0.6%。 自动化电子化推动计算技术的规模普惠和计算产业的快速繁荣。计算技术是伴随人类实践的需求演进而逐步发展的, 按照物理实现手段的不同,可分为电子管、晶体管和集成电路三个阶段。因二战中弹道计算等需求的激增,各国均加大对计算技术的研发投入力度,科学先进计算发展研究报告(2018 年) 中国信息通信研究院 2 与军事应用需求推动计算设备的快速发展, 先是电子管因超过千倍的开关速度提升取代继电器成为计算机的核心运算部件, 而后晶体管计算机因在开关速度、 省电和使用寿命的更优表现取代电子管计算机成为上世纪六十年代后期的计算主体设备。此后,各国因二战后发展经济的需求,将原用于军事领域的计算技术应用到国民经济重要行业,使得其在银行、保险、股票等文书类工作量较大的行业中快速普及,开启计算技术由军用科研向民用领域渗透的前奏, 在公共服务领域的深入应用最终推动计算技术的快速繁荣和大量普及。 目前计算技术以冯诺依曼架构为基础, 围绕数据处理、 数据存储、数据交互三大能力要素不断演进升级。1945 年冯·诺依曼正式提出计算机体系架构,后被广泛称之为“冯诺依曼体系架构1” ,主要内容包括三方面: 一是采用二进制进行计算; 二是基于存储程序控制理念,计算机按照预先编制好的程序顺序执行完成计算过程; 三是计算设备包括运算器、控制器、存储器、输入装置和输出装置五大组成部件。从每秒可进行数千次计算的埃尼阿克(ENIAC)起,到至今每秒已达到数亿亿次运算的中国“神威太湖之光”超级计算机,计算技术在遵循冯诺依曼体系结构的前提下,围绕数据处理、数据存储和数据交互展开了快速创新迭代。数据处理方面,集成了控制器和运算器功能的中央处理器 CPU 成为计算系统的核心,并逐渐引入图形处理器 GPU、数字信号处理器 DSP、 现场可编程门阵列 FPGA 等多样化运算器单元。数据存储方面,随着汞延迟线、穿孔卡片、磁带、动态随机存取内存1首次发表于冯诺依曼与戈德斯坦、勃克斯等联名发表First Draft of a Report on the EDVAC ,即计算机史上著名的“101 页报告”中。 中国信息通信研究院 先进计算发展研究报告(2018 年) 3 DRAM、软盘、硬盘、闪存等存储介质的存储密度、读写效率不断发展的同时,整体存储架构也在快速变化,历经总线架构、交换式架构、矩阵直连架构、分布式架构、全共享交换式架构等多种,推动数据存储的高性能、高可靠和灵活扩展升级。数据交互方面,包括单计算设备内部的总线技术, 以及多计算设备间数据互通的以太网技术等均围绕高速率、高带宽、低延时等方面升级数据交换能力,提升整体计算系统的效能表现。 ( (二二) ) 对先进计算的理解对先进计算的理解 先进计算并非特指某项具体的计算技术, 而是面向未来的多种计算技术的统称。现阶段基于不同层面、不同角度、不同应用场景的计算技术创新层出不穷,各种计算技术、产品及概念不断涌现,从与技术创新相关的专业领域角度来看,先进计算技术创新将是涵盖原理、材料、 工艺、 器件、 系统、 算法、 网络架构、 应用等在内的系统工程,在不同阶段将具有不同的发展特征和发展重点。短期来看,基于硅基冯诺依曼架构的现代计算技术仍然构成先进计算的主体, 面向不同应用需求的系统优化成为技术创新重点方向,器件及芯片、系统技术和应用技术等将同步发展。长期而言,因硅基集成电路的物理极限和冯诺依曼架构的固有瓶颈,量子/类脑等非冯诺依曼架构计算技术的突破和产业化将是支撑先进计算未来持续快速升级的重要动力。 现代计算技术演进至今,已形成相对清晰的技术分层体系。主要包括基础理论、器件技术、部件技术、系统技术和应用技术等五大部分。其中,基础理论层是指奠定现代计算技术的理论基础,阿兰·图先进计算发展研究报告(2018 年) 中国信息通信研究院 4 灵提出可计算理论和计算机通用逻辑模型“图灵机” ,到目前为止依然是评判可计算性的唯一模型; 香农提出可运用布尔理论实现数学问题、逻辑问题和物理实现间的映射,是采用二进制实现计算技术的理论指导;冯·诺依曼提出计算机的构成要素及运作机制,成为实现现代计算机的核心架构。 器件技术层是指构成计算设备和计算系统所需的电子器件技术, 目前主要指与超大规模集成电路实现相关的设计、制造及封测技术。部件技术层包括构成计算设备和计算系统的芯片、 模块等, 主要可分为计算部件、 存储部件和通信部件等三大单元,计算部件指 CPU、GPU 和 FPGA 等数据处理硬件,存储部件指内存、外存等数据存储硬件, 通信部件是计算部件和存储部件间实现数据交互的硬件。 系统技术层是指面向不同应用场景需求构建多样化计算系统所需的系统架构、互联架构、存储架构等硬件技术和资源管理、任务调度等软件技术。现阶段对计算系统的分类并无统一定义,根据任务调度模式的不同可分为集中式计算和分布式计算等, 根据计算资源种类的不同可分为异构计算和可重构计算等, 根据计算所需数据存储位置的不同可分为内存计算和存算一体化等, 面向不同应用需求的计算系统技术不仅存在较大差异,且存在融合发展的趋势。应用技术层是指多类应用所需的通用功能性技术,目前主要包括数据库、图形图像处理、数字多媒体、安全防护等。 中国信息通信研究院 先进计算发展研究报告(2018 年) 5 图1 基于冯诺依曼的现代计算技术体系 量子及类脑等非冯诺依曼架构计算技术体系仍未固定, 并将因基础原理、物理材料等多方面的巨大差异而较难形成统一体系。通过颠覆冯诺依曼架构, 开拓计算技术发展的新路径始终是业界的探索方向,现阶段量子和类脑是发展的热点。整体而言,非冯诺依曼架构将与冯诺依曼架构存在巨大差异, 现阶段围绕量子和类脑两大热点的探索实现也非常多样化,在基础理论、物理实现、核心硬件、算法软件等诸多环节均未形成统一定论, 非冯诺依曼计算技术整体发展仍处于较为初期的阶段,在可预见的很长时间内,其仍将基于与现代计算体系融合发展的理念进行推进。 综上所述,先进计算涉及面广、技术要素庞杂,2018 年本研究报告将重点围绕未来 3-5 年先进计算领域的核心技术展开分析, 探讨技术创新的总体态势和发展重点,并对量子计算、类脑计算等目前业界较为关注的颠覆性技术进行研判。 先进计算发展研究报告(2018 年) 中国信息通信研究院 6 二、二、 现阶段现阶段先进计算先进计算总体总体发展发展态势态势 ( (一一) ) 供需不匹配是供需不匹配是目前目前计算技术计算技术产业产业面临的主要问题面临的主要问题 1.固有计算技术升级模式遭遇天花板 二十一世纪以来,计算技术升级速度逐渐放缓,起因于芯片主频提升、多核数目堆叠、工艺尺寸微缩等固有升级路径因遭遇瓶颈而渐次失效,主要体现在以下四方面: 一是晶体管尺寸因不断逼近物理极限而减缓微缩。 半个多世纪以来,晶体管尺寸微缩带动的性能提升、成本降低是推动集成电路制造工艺持续演进和计算技术指数级增长的重要驱动力。自工艺进入 10纳米节点以后,晶体管性能随尺寸微缩提升幅度趋缓,主要表现在:晶体管集成度提升减缓, 7 纳米节点单位晶体管面积缩小了 20%-30%,小于上一代的 37%;功耗优化减缓,7 纳米节点功耗降低约 10-25%,小于上一代的 30%;金属线宽的缩小导致阻抗上升,RC 延迟不利于芯片性能提高。此外,纳米节点制造工艺对光刻精度的要求快速提升,现阶段极紫外光刻(EUV)工艺仍不成熟。 二是因芯片过热而不可无限提升主频。 依赖主频提升处理器单核性能是相对简单且高效的实现方法,但随着工艺尺寸稳步缩小,单位面积的晶体管数量翻倍增加,热累积效应愈加明显,处理器的功耗正以正比于主频的三次方量级高速增长。当处理器主频超过 4GHz 后,高频率下电子高迁移速率以及栅漏电现象导致产热量增加, 使温度上升造成的性能损失超过主频对性能的提升, 同时衍生重大的散热问题。受限于封装和降温成本的考虑,芯片主频的升级自 2005 年后即逐步中国信息通信研究院 先进计算发展研究报告(2018 年) 7 放缓,现大多控制在 4GHz 以内。 三是多核因并行算法局限而停止扩充。 处理器自遭遇主频升级瓶颈后,开始转向多核架构,并通过增加并行计算能力以实现处理器性能的提升。经过十余年的发展,算法和软件的并行化依然不甚成熟,现有并行处理程序的编写、调试、优化能力仍然较弱,且大部分应用程序并不能自动分割任务交由多核处理, 带来极大的软件重构和优化的工作量,致使处理器性能提升与核数不成正比,多核硬件的能力未得到充分发挥,实际应用水平远远低于理论能力。 四是冯诺依曼架构瓶颈日益凸显。冯诺依曼型计算机以“存储程序”为基础原理,程序执行时处理器在程序计数器的指引下顺序读取指令和数据,顺序执行形成计算结果。冯氏计算架构的特性决定了数据处理和数据读取二者速度需匹配方能保证计算的实时性和整体运行效率。随着摩尔定律的快速发展,处理器执行速度已远快于各级数据读取的速度,现阶段一级/二级缓存数据读取延迟 2-4 纳秒、内存延迟 70 纳秒、硬盘延迟 4 毫秒、外围存储介质延迟在秒级以上,数据读取与数据计算间的速度差异已成为制约计算效能升级的重要因素, 冯诺依曼架构的瓶颈效应随着处理器计算速度的不断提升而更加凸显。多年来,高速内存、分支预测算法、哈佛架构等技术创新在一定程度上缓解了数据读取限流问题,但仍未实现本质改变。 先进计算发展研究报告(2018 年) 中国信息通信研究院 8 数据来源:维基百科 图2 CPU 芯片计算能力发展历程(1970 年-2020 年) 2.应用创新对计算需求的增速远超摩尔定律 数据总量激增, 应用计算需求进入 “新摩尔定律” 时代。 近年来,互联网、移动互联网、云计算、大数据、物联网、人工智能、5G 移动通信等 ICT 领域重大技术发展,加速推进社会迈入万物互联、万物感知、万物智能时代,逐步集聚和盘活海量数据资源。数据规模的增速远超摩尔定律,据 IDC 的数字宇宙报告,全球信息数据总量中接近90%产生于近几年,据预测到 2020 年数据总量将达到 44ZB,平均个人拥有超过 5.2TB 数据规模。图灵奖获得者 JimGray 更是提出“新摩尔定律” , 即每 18 个月全球新增信息量是计算机有史以来全部信息量的总和。 数据结构趋于多元化, 由传统文本等结构化数据扩展至图像、音频等不规则、非结构化数据,其中近三分之一的数据将具有大数据中国信息通信研究院 先进计算发展研究报告(2018 年) 9 开发价值,由此将带来极大的计算能力需求。 以人工智能为代表的算力依赖型应用极大加快计算资源消耗。 除数据洪流催生计算资源和性能提升的普遍诉求外, 以人工智能为典型代表的强算力消耗型应用创新更是极大提升了对计算能力的需求。 区别于传统机器学习算法, 以深度学习为代表的人工智能算法本质是基于概率统计理论,通过大量计算资源对大规模数据样本的处理,实现远超传统机器学习算法的识别精度, 这种暴力计算模式正逐步流行并成为现阶段统治人工智能计算的主流范式。据统计自 2012 年以来,人工智能训练任务使用的计算能力每 3.5 个月提升一倍, 目前增长已超过 30 万倍。大量计算资源的利用给算法、模型和应用的创新带来显著成果,如在 2012 年,谷歌与斯坦福大学组成的联合研究组利用16000 台计算机处理数百万段 YouTube 视频,实现识别猫的功能。随着深度学习网络模型日益复杂、数据样本持续扩大,其对计算能力的需求和消耗与日俱增, 人工智能计算体系已从早期的 CPU 芯片过渡到以并行处理性能取胜的 GPU 芯片, 再到现阶段的大规模人工智能芯片集群, 但与人工智能应用创新所带来计算需求增速相比差距依然较大。 图3 传统机器学习算法与深度学习算法对计算需求的对比 ( (二二) ) 短期短期内内需求驱动创新将需求驱动创新将主导主导计算技术产业计算技术产业的的升级升级 先进计算发展研究报告(2018 年) 中国信息通信研究院 10 1.发展动能转换:应用取代基础软硬件成为创新新动能 应用创新所带来的多样化需求成为计算发展的核心动能。 计算的发展历程就是计算供给能力与应用创新需求之间的彼此驱动和迭代升级,二者的关系正由“先有能力,再谈需求”向“根据需求,实现能力”转变,创新应用在被动等待计算技术升级的基础上不断提升能动性, 逐渐演变成为驱动计算发展的核心动能。 大型机、 小型机时代,由计算软件、计算硬件构成的计算设备/系统与应用基于一体化的模式发展,面向不同应用需求的软件和硬件均为专有体系,不仅昂贵且技术升级缓慢。PC 时代,以 IBM 代表的软硬一体化模式被英特尔和微软所打破,二者在软硬耦合的前提下,遵循“摩尔定律”和“安迪-比尔定律”滚动迭代,即计算芯片和存储器每 18-24 个月实现硬件性能的翻倍, 以 windows 操作系统为代表的计算软件随之升级功能支撑应用创新。云计算及移动互联网时代,终端层面的智能手机和智能硬件在延续 PC 发展规律的同时进一步加快升级步伐,云端层面则通过虚拟化等软件技术实现大量计算硬件资源的汇聚以支撑搜索等应用的海量计算需求。目前,人工智能、自动驾驶、VR/AR 等创新应用爆发带来了计算需求的激增,现有计算硬件能力基本不能满足需求,差距普遍在十倍以上甚至百倍, 传统计算升级模式已无法跟进应用快速创新的需求,计算进入应用直接定义的时代。 应用对计算的影响正在由系统软件向计算芯片不断深化。 应用对计算的影响主要包括两方面:一是不直接影响计算硬件,通过计算软件实现对硬件资源的按需管理、灵活扩展,进而实现对上层应用创新中国信息通信研究院 先进计算发展研究报告(2018 年) 11 的支撑。 此类模式的典型代表即为软件定义网络、 软件定义数据中心、软件定义存储等一系列软件定义概念, 其核心理念是通过虚拟化技术实现服务器、存储等计算资源的池化,通过对计算资源的统一化管理实现应用计算需求的按需分配。 二是应用直接影响包括硬件和软件在内的整体化计算系统。目前人工智能、自动驾驶、VR/AR 等新兴应用对计算软硬件技术尤其是计算芯片创新的影响力日益凸显, 以人工智能为例, 本轮人工智能爆发是以深度学习为代表的算法突破为根本要素, 算法本质是通过构建多隐层模型和处理海量数据提升识别准确率。深度学习算法区别于传统机器学习算法,以卷积、矩阵乘加等运算为主,海量数据搬运对芯片的并行计算能力、内存容量和 I/O 总线带宽等性能指标要求较高, 擅长串行逻辑运算的 CPU 等传统通用计算芯片难以满足这种专用且高并行的计算需求, 专用于深度学习计算加速的专用集成电路(ASIC)芯片快速崛起,据不完全统计目前我国从事人工智能 ASIC 芯片研发的企业就已超过 60 家。 2.发展模式变换:以融合专用加速的系统优化为主 计算技术创新由通用软硬件到面向应用的专用加速。从近 20 多年来计算技术学术研究重点变化中可以看出计算技术创新重点方向已然发生变化。一是基础架构和基础工艺的技术创新日益趋缓。上世纪九十年代到本世纪初,是包括指令集架构 ISA、分支预测、超标量处理器及矢量处理单元等在内的处理器架构相关技术的活跃创新期,之后逐步趋于成熟、创新节奏放缓。以计算机体系结构国际研讨会ISCA 发表论文为例,与处理器架构相关的论文 1992 年有 2 篇、2004先进计算发展研究报告(2018 年) 中国信息通信研究院 12 年有 20 篇,后逐年递减至 2016 年的 1 篇。二是存储架构和互联架构因多核及分布式的需求愈发重要,自本世纪起步以来贯穿至今。在处理器架构技术创新趋缓的同时, 因冯诺依曼体系所带来的 I/O 瓶颈优化及多核、分布式体系的升级需求,存储架构和互联架构的创新自本世纪初日益得到关注, 同期 ISCA 所发布的技术成果均达到近 20 年高峰,后期更是成为业界科研关注的重点方向,并成立专门的国际研讨会进行技术创新成果的发布。 三是部分通用及特定专用的加速架构逐渐兴起,包括高性能计算、智能终端计算以及人工智能计算等新兴应用领域计算需求的激增, 尤其深度学习的爆发是近年快速增长的核心驱动力,推动 GPU 加速计算及专用 ASIC 加速计算等相关技术创新异军突起,成为计算技术创新的主导方向。 数据来源:技术驱动架构创新:过去,现在和未来(UCSB,谢源) 图4 计算机体系结构国际研讨会 ISCA 论文分类数量统计 (1992-2016) 处理、 存储和互联等三大部件技术和计算系统技术均围绕专用加速开启密集创新。 目前面向实际应用场景需求的计算技术升级均为冯诺依曼体系内的技术创新,主要体现在三方面:一是数据处理方面,正逐渐由以实现逻辑控制和通用计算的 CPU 处理器构成计算平台, 演中国信息通信研究院 先进计算发展研究报告(2018 年) 13 变为 CPU 与 GPU、FPGA、DSP、各类深度学习加速 ASIC 等具备专用计算能力的硬件相结合, 构成可覆盖多源数据多样处理需求的混合加速硬件平台。二是数据存储方面,现有缓存、内存及硬盘等各级存储介质通过设计技术和工艺技术的升级不断提升存储密度和存取速度, 与此同时高速非易失性内存 NVM(Non Volatile Memory)等新兴存储介质技术也在不断发展, 并凭借接近系统内存的读写性能以及与硬盘类似的非易失性特点实现对现有多级存储架构的重构。 三是数据交互方面,主要围绕高速和共享两大方向升级,在包括 PCIe5、Nvlink、NVSwith 等总线技术以及 25G 以太网技术等板级和系统级互联技术不断高速化升级之外, 多种互联技术均强调优化计算单元间的共享数据访问, 尤其是 CPU、 GPU、 ASIC 等多样处理单元间的内存一致性访问,以加快计算单元与存储单元件间的数据交互、 缓解冯诺依曼 I/O 瓶颈限制。在上述三大计算要素并行创新的基础上,面向不同应用场景的差异化计算需求, 通过计算系统技术的协同创新以实现整体系统在计算性能、功耗、延迟等方面的平衡高效也成为后续升级的重中之重。 三、三、 现阶段现阶段先进计算先进计算创新创新重点重点 ( (一一) ) 器件技术:器件技术:多多路径路径推动推动摩尔定律摩尔定律持续持续演进演进 摩尔定律仍在延续,2018 年制造工艺全面升级。 台积电、 三星、英特尔三大巨头持续推动先进工艺研发及规模应用。 一是目前已全面进入 10/7 纳米工艺节点。台积电 2018 年 4 月量产 7 纳米工艺,相比上一代 10 纳米工艺,芯片功耗降低 40%,性能提升 15%,核心面积缩小 37%,目前华为麒麟 980、苹果 A12 均采用该工艺实现量产。英特先进计算发展研究报告(2018 年) 中国信息通信研究院 14 尔最新 10 纳米工艺的晶体管密度可达到 100.8M/mm2,仍然是先进工艺的最有力竞争者,计划 2019 年投入量产。二是 EUV 等新技术迈入应用阶段。台积电于 2018 年 10 月完成了首次 7 纳米 EUV 流片,相比初代 7 纳米工艺性能提升 15%以上。三星也已完成 7 纳米 EUV 工艺的研发,并同时宣布了技术发展路线图,将 3 纳米节点提上研发日程。 尺寸微缩逼近物理极限,升级难度日益加大。2018 年先进工艺阵营再次减员, 全球第四大代工厂格罗方德宣布放弃 7 纳米及以下节点技术研发,将资源集中在现有的 14/12 纳米制程产品;同期台湾联电也宣布停止 12 纳米以下工艺的研发。目前,全球仍有 7 纳米及以下节点研发计划的仅剩台积电、三星、英特尔三家企业。作为集成电路行业标杆的英特尔也已废止了两年一循环的“制程-架构”产品研发周期, 自 10 纳米后开始采取 “制程-架构-优化” 三年三步走策略。 晶体管结构创新加速,推进芯片制造工艺能力升级。晶体管技术创新从未停止,从 90 纳米到 10 纳米先后经历了引入应力、加入高栅介质、采用鳍式场效应晶体管 FinFET 结构以及改变栅极接触位置等创新材料/技术的应用。目前已有多家厂商开始针对 5 纳米及以下节点工艺制程的晶体管结构进行研发,IBM 和三星分别针对 5 纳米和3 纳米工艺提出了 Nanosheet 和 MBCFET 结构,二者的优势在于通过构建多沟道环栅结构, 使晶体管的电流驱动能力以及栅极对载流子的控制能力得以提升,预计将于 2024 年代替 FinFET 结构成为主流。此外,更为多样化的晶体管结构创新仍在不断探索中,采用-族化合物半导体作为晶体管沟道材料,可提升电子迁移率,使晶体管获得中国信息通信研究院 先进计算发展研究报告(2018 年) 15 更大的电流驱动能力;新型隧穿晶体管(TFET)利用载流子隧穿原理实现超陡亚阈摆幅,达到降低晶体管功耗,提升能效比的效果;垂直纳米线结构可进一步减小单个晶体管所占面积,大幅提升集成度,推动制造工艺迈向更小节点。 三维堆叠提升集成密度,等效延续摩尔定律。目前三维结构在存储领域已经有所应用,三维存储结构 3D NAND 通过增加存储叠层而非缩小单个存储单元的尺寸实现了存储密度的增长, 解决了传统二维半导体存储芯片中存储单元不断缩小导致的成本上升以及相邻存储单元之间的串扰问题, 成为未来实现存储芯片容量可持续增长的关键技术。2018 年,三星、东芝、美光、海力士等存储器厂商先后发布 96层 3D NAND 存储器产品,存储密度达到 4Gb/mm2以上,与 16nm 工艺条件下二维 NAND 存储器相比,存储密度提高 4 倍以上。据最新国际半导体技术路线图(ITRS2.0)预测,未来三维叠层结构还将在多功能复合芯片等领域发挥关键作用,复合芯片将聚合传感器、新兴存储器和硅基电路, 在一颗芯片上实现信息采集、 存储、 计算和输出等功能。 系统级设计和多质多维封装同步深化, 加速芯片多功能集成创新。通过面向更多功能需求的设计及封装技术, 以进一步提高芯片集成度、降低整体功耗、推动多功能异构的发展。芯片设计方面,采用片上系统 (SoC) 设计方式实现各关键功能部件的片上集成, 达到降低功耗、减小电路面积、提高系统各部件之间通信速度的效果,目前片上系统设计技术已非常成熟,是移动互联网、物联网等领域芯片设计的主流思路。先进封装技术方面,通过将多个功能芯片通过封装技术以达到先进计算发展研究报告(2018 年) 中国信息通信研究院 16 提高芯片集成度的效果,可分为系统封装(SiP) 、3D 堆叠封装以及一体化 3D 封装,其中:SiP 封装可将各种工艺下、不同种类的芯片进行集成,该技术开发周期短、成本低;3D 堆叠封装将多个芯片按垂直堆叠的方式进行封装,并利用垂直通孔(TSV)技术实现层间连接,相比系统封装可进一步提高芯片的集成度,但目前较为成熟的工艺仅能通过金丝球焊以及焊接球的方式实现两层电路之间的连接, 对于三层以上电路的封装,工艺尚未成熟;一体化 3D 封装是采用更为密集的垂直互连方式将位于各层的晶体管按照设计规则相连组成功能电路,以最大限度利用垂直维度,达到节省芯片面积的目的,该方法对集成电路制造工艺要求较高,目前仍处于实验室阶段,进入商用尚需时日。 ( (二二) ) 部件技术:部件技术:三大三大计算单元计算单元加速协同创新加速协同创新 从上世纪五十年代的第一台冯氏结构计算机 ENIAC 到今天, 计算设备和计算系统在外观形态、部署方式、应用特性等方面虽发生了翻天覆地的变化,但体系结构依然遵从冯诺依曼架构,计算设备的主要组成部件以及彼此之间的交互机制也相对稳定。除键盘、鼠标等输入设备以及显示器、打印机等输入设备外,与数据处理相关的运算器和控制器、与数据存储相关的各类存储模块、以及数据在上述两大单元间实现交互的通信类接口和模块是构成计算设备和计算系统的主要功能模块,也是构成计算技术体系的三大重点单元。 中国信息通信研究院 先进计算发展研究报告(2018 年) 17 图5 冯诺依曼架构图 1.数据处理单元 CPU、GPU、FPGA 是目前通用计算领域的三大主流计算芯片。CPU芯片兼顾控制和计算,是构成笔记本、智能终端及服务器计算硬件主体。CPU 芯片架构中“缓存-控制-计算”三者兼顾,其中 70%晶体管作为缓存和控制单元,控制单元用于实现分支预测、流水线等复杂逻辑等,大量缓存单元降低数据读取时间以降低延时;30%晶体管作为计算单元,可在 1-3 个时钟周期内完成双精度浮点乘加等运算操作。GPU 芯片适合通用并行处理,应用领域由早期图像处理逐步拓展至通用加速。GPU 芯片内置大量计算单元和高速缓存,逻辑控制单元相对简单。 控制单元负责将串行计算任务拆分成多个相对简单的并行任务,缓存单元配合进行数据高速转发, 最终由大量的计算单元完成分拆任务的计算并返回最终结果。 因而 GPU 架构适合逻辑相对简单的大批量高密度同构计算任务,但因密集执行计算会带来大量功耗和发热。FPGA 芯片具备可重构特性,可根据客户需求灵活定制计算架构,更适合于需求量偏少的航空航天、车载、工业等细分行业。FPGA 芯片具备可编程的数字基本门电路,可依据应用灵活配置底层架构,由于无需指令和软件控制,直接采取晶体管电路实现应用算法,相比于先进计算发展研究报告(2018 年) 中国信息通信研究院 18 CPU、GPU 芯片响应更快,更适合于流式计算密集型任务。但 FPGA 芯片编程要使用专门的硬件描述语言,技术门槛相对较高,大规模应用也不具备成本优势。 三大计算芯片技术创新依然活跃。 一方面持续挖掘传统架构技术潜力。CPU 不断优化现有架构技术能力,采用乱序执行、超标量流水线、多级缓存等技术提升整体性能表现;GPU 持续探索高效的图形处理单元、流处理单元和访存存取体系等,并优化编程框架降低 GPU 编程和应用程序移植难度;FPGA 不断强化应用功能的丰富完善,升级芯片内部组件以适应广泛的加速场景,并发展基于 C/C+、OpenCL 等软件工具开发生态,降低开发者门槛。另一方面均通过引入专用计算能力迎合人工智能等新兴领域的计算需求。当前,受摩尔定律发展趋缓以及功耗墙限制等影响, 单纯依赖升级制造工艺、 增加处理器核数、提高时钟频率等传统升级路线带来的性能提升幅度有限, 业界开始转变技术发展思路,借助专用计算单元提升专用领域的适用性。CPU 围绕深度学习计算需求增加专用计算指令, 如 ARM 公司最新 Cortex-A76芯片通过优化缩减深度学习常见的乘法累加运算周期等, 实现边缘侧人工智能性能相较于上一代产品提升接近 4 倍;GPU 持续优化针对人工智能计算的专用逻辑运算单元, 英伟达图灵架构 GPU 芯片内置全新张量计算核心,利用深度学习算法消除低分辨率渲染问题;FPGA 提升面向各类工作负载需求的异构计算能力, 以实现边缘智能等更多场景的规模应用。 AI ASIC 现已成为专用计算加速芯片创新的典型代表。专用集成中国信息通信研究院 先进计算发展研究报告(2018 年) 19 电路(ASIC)意指针对特定领域、特定算法需求设计的电路,与通用芯片相比面积小、性能高、功耗低,大规模量产后具备成本优势,可广泛应用在市场需求量大的专用领域。 目前为满足人工智能应用计算需求的 AI ASIC 是创新的焦点所在, 升级重点围绕指令集、 计算架构、访存体系、交互通信等四大方面。因以 CPU 为代表的传统通用芯片在基础能力上无法满足深度学习等人工智能复杂神经网络算法、 海量数据高吞吐量、高密度线性代数任务的处理需求,ASIC 芯片通过软硬融合的极致性能以及大规模量产低成本等优势, 正成为业内创新重点,围绕深度学习指令集、高并行计算架构、高能效访存架构、高速低延时互联等持续升级。指令集方面,主要针对深度学习算法中高频、高耗时的矩阵、向量等逻辑运算进行优化,并简化与算法无关的分支跳转、缓存控制等逻辑控制指令。计算架构方面,多选择众核等高并行架构进行设计, 并集成矩阵乘加等专用运算单元增强针对深度学习算法共性计算需求的支撑能力。如谷歌将张量处理单元(TPU)引入脉动阵列架构,实现数据高效复用功能,提升并行处理能力;集成超过6 万个计算核心单元组成专用矩阵乘加模块,提升深度学习算法计算效率。存储方面,应用高带宽内存等新型技术提升内存带宽,结合片上内存、数据复用、模型压缩等手段降低内存存取频次。如寒武纪公司早期学术论文中即提出可采用大量的片上存储设计来降低片外存储访问需求和数据访问功耗, 这一设计方案目前也被谷歌等众多企业广泛采用。互联方面,配置新型 PCIe 5、CCIX 等高速易扩展的异构互联总线, 通过带宽加速缓解海量数据频繁读取所导致的高延时问题。 先进计算发展研究报告(2018 年) 中国信息通信研究院 20 结合场景需求和算法特征定向优化,AI ASIC 芯片差异化创新加速。由于人工智能的不同应用场景间差异性较大,难以通过一款通用人工智能芯片适合所有领域, 随着各应用场景定位和需求的逐步明确,AI ASIC 呈现多技术路线分化态势。深度学习计算主要分为训练和推理两个阶段。其中,深度学习模型训练以高性能、高精度、通用化的计算能力为主,芯片需堆叠大量高精度浮点运算单元、高带宽内存和专用计算单元等提升训练效率, 但受限于高能耗目前多集中在云端部署实施。推理阶段则因应用场景的不同而各具差异,云端推理芯片多应用低位宽定点运算单元、片上内存等实现高通量、低延时、通用化的推理能力;端侧推理芯片则需要深度耦合特定场景和神经网络算法,利用低位宽低精度运算、 模型压缩等技术实现低时延或低功耗等差异化场景需求。以谷歌 TPU 系列芯片为例,面向云端训练的 Cloud TPU芯片采用高精度的 32 位浮点和标量运算器,封装 16GB 高带宽内存,可实现每秒 180 万次的峰值浮点操作能力; 面向云端推理的 TPU 芯片采用相对高精度的 16 位定点运算器,集成 24MB 的片上内存,可实现每秒92万亿次的峰值定点运算性能;

    注意事项

    本文(先进计算发展研究报告(2018年).pdf)为本站会员(恋****泡)主动上传,得力文库 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知得力文库 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于得利文库 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

    © 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

    黑龙江省互联网违法和不良信息举报
    举报电话:0468-3380021 邮箱:hgswwxb@163.com  

    收起
    展开