人工智能芯片研究报告.pdf
《人工智能芯片研究报告.pdf》由会员分享,可在线阅读,更多相关《人工智能芯片研究报告.pdf(44页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、 2018 人工智能芯片 研究报告 AMiner 研究报告第十四期 清华-中国工程院知识智能联合实验室 2018 年 10 月 清华大学计算机系中国工程科技知识中心 2018 年 10 月 知识智能联合研究中心Z Contents 目录 一概述篇 1.1 AI 芯片的分类 . 2 1.2 AI 芯片发展历程 . 4 1.3 我国 AI 芯片发展情况 . 6 2.1 传统的 CPU 及其局限性 . 8 2.2 并行加速计算的 GPU . 9 2.3 半定制化的 FPGA . 10 2.4 全定制化的 ASIC. 12 2.5 类脑芯片 . 13 2.6 AI 芯片技术特点比较 . 14 二技术篇
2、 三产业篇 3 产业篇 .16 四人物篇 4.1 学者分布及迁徙 . 24 4.2 代表性研究学者 . 25 五应用趋势篇 5 应用领域篇 . 31 六趋势篇 6 趋势篇 . 36 图 1 人工智能与深度学习 . 2 图 2 AI 芯片发展历程. 5 图 3 传统 CPU 内部结构图(仅 ALU 为主要计算模块) . 8 图 4 CPU 及 GPU 结构对比图(引用自 NVIDIA CUDA 文档) . 9 图 5 GPU 芯片的发展阶段 .10 图 6 FPGA 在人工智能领域的应用 .11 图 7 Cambricon-1A(引用自官网).16 图 8 集成了 NPU 的神经网络处理器(引用
3、自官网) .17 图 9 地平线公布的 BPU 发展战略图(引用自官网) .17 图 10 亚里士多德架构(引用自官网) .18 图 11 CI1006 芯片(引用自官网) .19 图 12 华为麒麟 970 神经网络处理器 NPU .19 图 13 人工智能芯片领域研究学者全球分布 .24 图 14 人工智能芯片领域研究学者全球分布 .24 图 15 各国人才逆顺差 .25 图 16 AI 芯片应用领域 .31 图 17 华为 Mate10 成像效果对比图 .31 图 18 苹果的 Face ID .32 图 19 分解卷积可降低消耗 .36 图 20 逐层动态定点方法 .37 图 21 五
4、级流水线结构 .37 表 1 人工智能专用芯片(包括类脑芯片)研发情况一览 .12 图表目录 摘要 2010 年以来,由于大数据产业的发展,数据量呈现爆炸性增长态势,而传统的计算架构又无法支撑深度学习的大规模并行计算需求,于是研究界对 AI 芯片进行了新一轮的技术研发与应用研究。AI 芯片是人工智能时代的技术核心之一,决定了平台的基础架构和发展生态。本报告在此背景下,对人工智能芯片的发展现状进行了简单梳理,包括以下内容: 人工智能芯片人工智能芯片概念。概念。首先对人工智能芯片相关概念、技术路线以及各自特点进行介绍,接着对国外、国内 AI芯片的发展历程及现状进行梳理。 AI 芯片的技术特点及局限
5、性芯片的技术特点及局限性。对 AI芯片的几个技术流派进行介绍。 AI 芯片厂商芯片厂商介绍。介绍。对 AI芯片领域的国内外代表性厂商进行介绍。 AI 芯片领域专家介绍。芯片领域专家介绍。通过 AMiner 大数据平台对 AMiner 的人工智能芯片人才库进行数据挖掘,统计分析领域内学者分布及迁徙。同时,介绍了目前 AI 芯片领域的国内外代表性研究学者。 AI芯片芯片应用应用领域领域介绍。介绍。AI芯片已经渗透到日常生活的方方面面,本报告主要对智能手机、ADAS、CV、VR、语音交互设备、机器人等方向的应用进行介绍。 AI 芯片的发展芯片的发展趋势介绍趋势介绍。人工智能的发展历经波折,如今得益于
6、大数据的供给、深度学习算法的革新以及硬件技术的提升,AI 芯片以不可阻挡的势态飞速发展。AI 芯片的算力提高、功耗降低及更合理的算法实现必然是将来的发展趋势。 1 concept 概述篇 2 1 概述概述篇篇 人工智能(Artificial Intelligence,AI)芯片的定义:从广义上讲只要能够运行人工智能算法的芯片都叫作 AI 芯片。但是通常意义上的 AI 芯片指的是针对人工智能算法做了特殊加速设计的芯片,现阶段,这些人工智能算法一般以深度学习算法为主,也可以包括其它机器学习算法。人工智能与深度学习的关系如图 1所示。 图 1 人工智能与深度学习 深度学习算法,通常是基于接收到的连续
7、数值,通过学习处理,并输出连续数值的过程,实质上并不能完全模仿生物大脑的运作机制。基于这一现实,研究界还提出了 SNN(Spiking Neural Network,脉冲神经网络)模型。作为第三代神经网络模型,SNN 更贴近生物神经网络除了神经元和突触模型更贴近生物神经元与突触之外,SNN 还将时域信息引入了计算模型。目前基于 SNN 的 AI 芯片主要以 IBM 的 TrueNorth、Intel 的 Loihi 以及国内的清华大学天机芯为代表。 1.1 AI 芯片的分类芯片的分类 (1)AI 芯片芯片按按技术架构分类技术架构分类 GPU(Graphics Processing Unit,图
8、形处理单元) :在传统的冯诺依曼结构中,CPU 每执行一条指令都需要从存储器中读取数据,根据指令对数据进行相应的操作。从这个特点可以看出,CPU 的主要职责并不只是数据运算,还需要执行存储读取、指令分析、分支跳转等命令。深度学习算法通常需要进行海量的数据处理,用 CPU执行算法时,CPU将花费大量的时间在数据/指令的读取分析上,而CPU的频率、内存的带宽等条件又不可能无限制提高,因此限制了处理器的性能。而 GPU 的控制相对简单,大部分的晶体管可以组成各类专用电路、多条流水线,使得 GPU 的计算速度远高于 CPU;同时 GPU 拥有了更加强大的浮点运算能力,可以缓解深度学习算法的训练难题,释
9、放人工智能的潜能。 3 但 GPU无法单独工作,必须由 CPU进行控制调用才能工作,而且功耗比较高。 半定制化的 FPGA:FPGA(Field Programmable GateArray)全称“现场可编程门阵列”,其基本原理是在FPGA芯片内集成大量的基本门电路以及存储器,用户可以通过更新FPGA配置文件来定义这些门电路以及存储器之间的连线。 与 GPU 不同,FPGA 同时拥有硬件流水线并行和数据并行处理能力,适用于以硬件流水线方式处理一条数据,且整数运算性能更高,因此常用于深度学习算法中的推断阶段。不过 FPGA 通过硬件的配置实现软件算法,因此在实现复杂算法方面有一定的难度。将FPG
10、A 和 CPU 对比可以发现两个特点,一是 FPGA 没有内存和控制所带来的存储和读取部分,速度更快,二是 FPGA 没有读取指令操作,所以功耗更低。劣势是价格比较高、编程复杂、整体运算能力不是很高。目前国内的 AI 芯片公司如深鉴科技就提供基于 FPGA 的解决方案。 全定制化 ASIC:ASICc(Application-Specific Integrated Circuit)专用集成电路,是专用定制芯片,即为实现特定要求而定制的芯片。定制的特性有助于提高 ASIC 的性能功耗比,缺点是电路设计需要定制,相对开发周期长,功能难以扩展。但在功耗、可靠性、集成度等方面都有优势,尤其在要求高性能
11、、低功耗的移动应用端体现明显。谷歌的 TPU、寒武纪的 GPU,地平线的 BPU都属于 ASIC芯片。谷歌的 TPU比 CPU和 GPU的方案快 30至 80 倍,与 CPU和 GPU 相比,TPU把控制电路进行了简化,因此减少了芯片的面积,降低了功耗。 神经拟态芯片:神经拟态计算是模拟生物神经网络的计算机制。神经拟态计算从结构层面去逼近大脑,其研究工作还可进一步分为两个层次,一是神经网络层面,与之相应的是神经拟态架构和处理器,如 IBM 的 TrueNorth 芯片,这种芯片把定制化的数字处理内核当作神经元,把内存作为突触。其逻辑结构与传统冯诺依曼结构不同:它的内存、CPU 和通信部件完全集
12、成在一起,因此信息的处理在本地进行,克服了传统计算机内存与 CPU 之间的速度瓶颈问题。同时神经元之间可以方便快捷地相互沟通,只要接收到其他神经元发过来的脉冲(动作电位),这些神经元就会同时做动作。二是神经元与神经突触层面,与之相应的是元器件层面的创新。如 IBM 苏黎世研究中心宣布制造出世界上首个人造纳米尺度的随机相变神经元,可实现高速无监督学习。 (2)AI 芯片芯片按按功能分类功能分类 根据机器学习算法步骤,可分为训练(training)和推断(inference)两个环节: 训练环节通常需要通过大量的数据输入,训练出一个复杂的深度神经网络模型。训练过程由于涉及海量的训练数据和复杂的深度
13、神经网络结构,运算量巨大,需要庞大的计算规模,对于处理器的计算能力、精度、可扩展性等性能要求很高。目前市场上通常使用英伟达的 GPU集群来完成,Google的 TPU2.0/3.0也支持训练环节的深度网络加速。 4 推断环节是指利用训练好的模型,使用新的数据去“推断”出各种结论。这个环节的计算量相对训练环节少很多,但仍然会涉及到大量的矩阵运算。在推断环节中,除了使用CPU或 GPU进行运算外,FPGA以及 ASIC均能发挥重大作用。 (3)AI 芯片芯片按按应用场景分类应用场景分类 主要分为用于服务器端(云端)和用于移动端(终端)两大类。 服务器端:在深度学习的训练阶段,由于数据量及运算量巨大
14、,单一处理器几乎不可能独立完成一个模型的训练过程,因此,负责 AI 算法的芯片采用的是高性能计算的技术路线,一方面要支持尽可能多的网络结构以保证算法的正确率和泛化能力;另一方面必须支持浮点数运算;而且为了能够提升性能必须支持阵列式结构(即可以把多块芯片组成一个计算阵列以加速运算) 。在推断阶段,由于训练出来的深度神经网络模型仍非常复杂,推断过程仍然属于计算密集型和存储密集型,可以选择部署在服务器端。 移动端(手机、智能家居、无人车等) :移动端 AI 芯片在设计思路上与服务器端 AI 芯片有着本质的区别。首先,必须保证很高的计算能效;其次,在高级辅助驾驶 ADAS 等设备对实时性要求很高的场合
15、,推断过程必须在设备本身完成,因此要求移动端设备具备足够的推断能力。而某些场合还会有低功耗、低延迟、低成本的要求,从而导致移动端的 AI芯片多种多样。 1.2 AI 芯片发展历程芯片发展历程 从图灵的论文计算机器与智能和图灵测试,到最初级的神经元模拟单元感知机,再到现在多达上百层的深度神经网络,人类对人工智能的探索从来就没有停止过。上世纪八十年代,多层神经网络和反向传播算法的出现给人工智能行业点燃了新的火花。反向传播的主要创新在于能将信息输出和目标输出之间的误差通过多层网络往前一级迭代反馈,将最终的输出收敛到某一个目标范围之内。1989 年贝尔实验室成功利用反向传播算法,在多层神经网络开发了一
16、个手写邮编识别器。1998 年 Yann LeCun 和 Yoshua Bengio发表了手写识别神经网络和反向传播优化相关的论文Gradient-based learning applied to document recognition ,开创了卷积神经网络的时代。 此后,人工智能陷入了长时间的发展沉寂阶段,直到1997年IBM的深蓝战胜国际象棋大师和2011年IBM的沃森智能系统在Jeopardy节目中胜出,人工智能才又一次为人们所关注。2016年 Alpha Go击败韩国围棋九段职业选手,则标志着人工智能的又一波高潮。从基础算法、底层硬件、工具框架到实际应用场景,现阶段的人工智能领域已
17、经全面开花。 作为人工智能核心的底层硬件 AI 芯片,也同样经历了多次的起伏和波折,总体看来,AI芯片的发展前后经历了四次大的变化,其发展历程如图 2所示。 5 图 2 AI芯片发展历程 (1)2007 年以前,AI 芯片产业一直没有发展成为成熟的产业;同时由于当时算法、数据量等因素,这个阶段 AI 芯片并没有特别强烈的市场需求,通用的 CPU 芯片即可满足应用需要。 (2)随着高清视频、VR、AR游戏等行业的发展,GPU产品取得快速的突破;同时人们发现 GPU 的并行计算特性恰好适应人工智能算法及大数据并行计算的需求,如 GPU 比之前传统的 CPU在深度学习算法的运算上可以提高几十倍的效率
18、,因此开始尝试使用 GPU进行人工智能计算。 (3)进入 2010 年后,云计算广泛推广,人工智能的研究人员可以通过云计算借助大量 CPU 和 GPU 进行混合运算,进一步推进了 AI 芯片的深入应用,从而催生了各类 AI 芯片的研发与应用。 (4)人工智能对于计算能力的要求不断快速地提升,进入 2015 年后,GPU 性能功耗比不高的特点使其在工作适用场合受到多种限制,业界开始研发针对人工智能的专用芯片,以期通过更好的硬件和芯片架构,在计算效率、能耗比等性能上得到进一步提升。 1.3 我国我国 AI芯片发展芯片发展情况情况 目前,我国的人工智能芯片行业发展尚处于起步阶段。长期以来,中国在 C
19、PU、GPU、DSP 处理器设计上一直处于追赶地位,绝大部分芯片设计企业依靠国外的 IP 核设计芯片,在自主创新上受到了极大的限制。然而,人工智能的兴起,无疑为中国在处理器领域实现6 弯道超车提供了绝佳的机遇。人工智能领域的应用目前还处于面向行业应用阶段,生态上尚未形成垄断,国产处理器厂商与国外竞争对手在人工智能这一全新赛场上处在同一起跑线上,因此,基于新兴技术和应用市场,中国在建立人工智能生态圈方面将大有可为。 由于我国特殊的环境和市场,国内 AI 芯片的发展目前呈现出百花齐放、百家争鸣的态势,AI 芯片的应用领域也遍布股票交易、金融、商品推荐、安防、早教机器人以及无人驾驶等众多领域,催生了
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 芯片 研究 报告
限制150内