人工智能芯片研究报告.pdf

资源ID：790928 资源大小：2.29MB 全文页数：44页
资源格式： PDF 下载积分：20金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要20金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

人工智能芯片研究报告.pdf

2018 人工智能芯片研究报告 AMiner 研究报告第十四期清华-中国工程院知识智能联合实验室 2018 年 10 月清华大学计算机系中国工程科技知识中心 2018 年 10 月知识智能联合研究中心Z Contents 目录一·概述篇 1.1 AI 芯片的分类 . 2 1.2 AI 芯片发展历程 . 4 1.3 我国 AI 芯片发展情况 . 6 2.1 传统的 CPU 及其局限性 . 8 2.2 并行加速计算的 GPU . 9 2.3 半定制化的 FPGA . 10 2.4 全定制化的 ASIC. 12 2.5 类脑芯片 . 13 2.6 AI 芯片技术特点比较 . 14 二·技术篇三·产业篇 3 产业篇 .16 四·人物篇 4.1 学者分布及迁徙 . 24 4.2 代表性研究学者 . 25 五·应用趋势篇 5 应用领域篇 . 31 六·趋势篇 6 趋势篇 . 36 图 1 人工智能与深度学习 . 2 图 2 AI 芯片发展历程. 5 图 3 传统 CPU 内部结构图（仅 ALU 为主要计算模块） . 8 图 4 CPU 及 GPU 结构对比图（引用自 NVIDIA CUDA 文档） . 9 图 5 GPU 芯片的发展阶段 .10 图 6 FPGA 在人工智能领域的应用 .11 图 7 Cambricon-1A（引用自官网）.16 图 8 集成了 NPU 的神经网络处理器（引用自官网） .17 图 9 地平线公布的 BPU 发展战略图（引用自官网） .17 图 10 亚里士多德架构（引用自官网） .18 图 11 CI1006 芯片（引用自官网） .19 图 12 华为麒麟 970 神经网络处理器 NPU .19 图 13 人工智能芯片领域研究学者全球分布 .24 图 14 人工智能芯片领域研究学者全球分布 .24 图 15 各国人才逆顺差 .25 图 16 AI 芯片应用领域 .31 图 17 华为 Mate10 成像效果对比图 .31 图 18 苹果的 Face ID .32 图 19 分解卷积可降低消耗 .36 图 20 逐层动态定点方法 .37 图 21 五级流水线结构 .37 表 1 人工智能专用芯片（包括类脑芯片）研发情况一览 .12 图表目录摘要 2010 年以来，由于大数据产业的发展，数据量呈现爆炸性增长态势，而传统的计算架构又无法支撑深度学习的大规模并行计算需求，于是研究界对 AI 芯片进行了新一轮的技术研发与应用研究。AI 芯片是人工智能时代的技术核心之一，决定了平台的基础架构和发展生态。本报告在此背景下，对人工智能芯片的发展现状进行了简单梳理，包括以下内容：人工智能芯片人工智能芯片概念。概念。首先对人工智能芯片相关概念、技术路线以及各自特点进行介绍，接着对国外、国内 AI芯片的发展历程及现状进行梳理。 AI 芯片的技术特点及局限性芯片的技术特点及局限性。对 AI芯片的几个技术流派进行介绍。 AI 芯片厂商芯片厂商介绍。介绍。对 AI芯片领域的国内外代表性厂商进行介绍。 AI 芯片领域专家介绍。芯片领域专家介绍。通过 AMiner 大数据平台对 AMiner 的人工智能芯片人才库进行数据挖掘，统计分析领域内学者分布及迁徙。同时，介绍了目前 AI 芯片领域的国内外代表性研究学者。 AI芯片芯片应用应用领域领域介绍。介绍。AI芯片已经渗透到日常生活的方方面面，本报告主要对智能手机、ADAS、CV、VR、语音交互设备、机器人等方向的应用进行介绍。 AI 芯片的发展芯片的发展趋势介绍趋势介绍。人工智能的发展历经波折，如今得益于大数据的供给、深度学习算法的革新以及硬件技术的提升，AI 芯片以不可阻挡的势态飞速发展。AI 芯片的算力提高、功耗降低及更合理的算法实现必然是将来的发展趋势。 1 concept 概述篇 2 1 概述概述篇篇人工智能（Artificial Intelligence，AI）芯片的定义：从广义上讲只要能够运行人工智能算法的芯片都叫作 AI 芯片。但是通常意义上的 AI 芯片指的是针对人工智能算法做了特殊加速设计的芯片，现阶段，这些人工智能算法一般以深度学习算法为主，也可以包括其它机器学习算法。人工智能与深度学习的关系如图 1所示。图 1 人工智能与深度学习深度学习算法，通常是基于接收到的连续数值，通过学习处理，并输出连续数值的过程，实质上并不能完全模仿生物大脑的运作机制。基于这一现实，研究界还提出了 SNN（Spiking Neural Network，脉冲神经网络）模型。作为第三代神经网络模型，SNN 更贴近生物神经网络除了神经元和突触模型更贴近生物神经元与突触之外，SNN 还将时域信息引入了计算模型。目前基于 SNN 的 AI 芯片主要以 IBM 的 TrueNorth、Intel 的 Loihi 以及国内的清华大学天机芯为代表。 1.1 AI 芯片的分类芯片的分类（1）AI 芯片芯片按按技术架构分类技术架构分类 GPU（Graphics Processing Unit，图形处理单元）：在传统的冯·诺依曼结构中，CPU 每执行一条指令都需要从存储器中读取数据，根据指令对数据进行相应的操作。从这个特点可以看出，CPU 的主要职责并不只是数据运算，还需要执行存储读取、指令分析、分支跳转等命令。深度学习算法通常需要进行海量的数据处理，用 CPU执行算法时，CPU将花费大量的时间在数据/指令的读取分析上，而CPU的频率、内存的带宽等条件又不可能无限制提高，因此限制了处理器的性能。而 GPU 的控制相对简单，大部分的晶体管可以组成各类专用电路、多条流水线，使得 GPU 的计算速度远高于 CPU；同时 GPU 拥有了更加强大的浮点运算能力，可以缓解深度学习算法的训练难题，释放人工智能的潜能。 3 但 GPU无法单独工作，必须由 CPU进行控制调用才能工作，而且功耗比较高。半定制化的 FPGA：FPGA（Field Programmable GateArray)全称“现场可编程门阵列”，其基本原理是在FPGA芯片内集成大量的基本门电路以及存储器，用户可以通过更新FPGA配置文件来定义这些门电路以及存储器之间的连线。与 GPU 不同，FPGA 同时拥有硬件流水线并行和数据并行处理能力，适用于以硬件流水线方式处理一条数据，且整数运算性能更高，因此常用于深度学习算法中的推断阶段。不过 FPGA 通过硬件的配置实现软件算法，因此在实现复杂算法方面有一定的难度。将FPGA 和 CPU 对比可以发现两个特点，一是 FPGA 没有内存和控制所带来的存储和读取部分，速度更快，二是 FPGA 没有读取指令操作，所以功耗更低。劣势是价格比较高、编程复杂、整体运算能力不是很高。目前国内的 AI 芯片公司如深鉴科技就提供基于 FPGA 的解决方案。全定制化 ASIC：ASICc（Application-Specific Integrated Circuit）专用集成电路，是专用定制芯片，即为实现特定要求而定制的芯片。定制的特性有助于提高 ASIC 的性能功耗比，缺点是电路设计需要定制，相对开发周期长，功能难以扩展。但在功耗、可靠性、集成度等方面都有优势，尤其在要求高性能、低功耗的移动应用端体现明显。谷歌的 TPU、寒武纪的 GPU，地平线的 BPU都属于 ASIC芯片。谷歌的 TPU比 CPU和 GPU的方案快 30至 80 倍，与 CPU和 GPU 相比，TPU把控制电路进行了简化，因此减少了芯片的面积，降低了功耗。神经拟态芯片：神经拟态计算是模拟生物神经网络的计算机制。神经拟态计算从结构层面去逼近大脑，其研究工作还可进一步分为两个层次，一是神经网络层面，与之相应的是神经拟态架构和处理器，如 IBM 的 TrueNorth 芯片，这种芯片把定制化的数字处理内核当作神经元，把内存作为突触。其逻辑结构与传统冯·诺依曼结构不同：它的内存、CPU 和通信部件完全集成在一起，因此信息的处理在本地进行，克服了传统计算机内存与 CPU 之间的速度瓶颈问题。同时神经元之间可以方便快捷地相互沟通，只要接收到其他神经元发过来的脉冲(动作电位)，这些神经元就会同时做动作。二是神经元与神经突触层面，与之相应的是元器件层面的创新。如 IBM 苏黎世研究中心宣布制造出世界上首个人造纳米尺度的随机相变神经元，可实现高速无监督学习。（2）AI 芯片芯片按按功能分类功能分类根据机器学习算法步骤，可分为训练（training）和推断（inference）两个环节：训练环节通常需要通过大量的数据输入，训练出一个复杂的深度神经网络模型。训练过程由于涉及海量的训练数据和复杂的深度神经网络结构，运算量巨大，需要庞大的计算规模，对于处理器的计算能力、精度、可扩展性等性能要求很高。目前市场上通常使用英伟达的 GPU集群来完成，Google的 TPU2.0/3.0也支持训练环节的深度网络加速。 4 推断环节是指利用训练好的模型，使用新的数据去“推断”出各种结论。这个环节的计算量相对训练环节少很多，但仍然会涉及到大量的矩阵运算。在推断环节中，除了使用CPU或 GPU进行运算外，FPGA以及 ASIC均能发挥重大作用。（3）AI 芯片芯片按按应用场景分类应用场景分类主要分为用于服务器端（云端）和用于移动端（终端）两大类。服务器端：在深度学习的训练阶段，由于数据量及运算量巨大，单一处理器几乎不可能独立完成一个模型的训练过程，因此，负责 AI 算法的芯片采用的是高性能计算的技术路线，一方面要支持尽可能多的网络结构以保证算法的正确率和泛化能力；另一方面必须支持浮点数运算；而且为了能够提升性能必须支持阵列式结构（即可以把多块芯片组成一个计算阵列以加速运算）。在推断阶段，由于训练出来的深度神经网络模型仍非常复杂，推断过程仍然属于计算密集型和存储密集型，可以选择部署在服务器端。移动端（手机、智能家居、无人车等）：移动端 AI 芯片在设计思路上与服务器端 AI 芯片有着本质的区别。首先，必须保证很高的计算能效；其次，在高级辅助驾驶 ADAS 等设备对实时性要求很高的场合，推断过程必须在设备本身完成，因此要求移动端设备具备足够的推断能力。而某些场合还会有低功耗、低延迟、低成本的要求，从而导致移动端的 AI芯片多种多样。 1.2 AI 芯片发展历程芯片发展历程从图灵的论文计算机器与智能和图灵测试，到最初级的神经元模拟单元感知机，再到现在多达上百层的深度神经网络，人类对人工智能的探索从来就没有停止过。上世纪八十年代，多层神经网络和反向传播算法的出现给人工智能行业点燃了新的火花。反向传播的主要创新在于能将信息输出和目标输出之间的误差通过多层网络往前一级迭代反馈，将最终的输出收敛到某一个目标范围之内。1989 年贝尔实验室成功利用反向传播算法，在多层神经网络开发了一个手写邮编识别器。1998 年 Yann LeCun 和 Yoshua Bengio发表了手写识别神经网络和反向传播优化相关的论文Gradient-based learning applied to document recognition ，开创了卷积神经网络的时代。此后，人工智能陷入了长时间的发展沉寂阶段，直到1997年IBM的深蓝战胜国际象棋大师和2011年IBM的沃森智能系统在Jeopardy节目中胜出，人工智能才又一次为人们所关注。2016年 Alpha Go击败韩国围棋九段职业选手，则标志着人工智能的又一波高潮。从基础算法、底层硬件、工具框架到实际应用场景，现阶段的人工智能领域已经全面开花。作为人工智能核心的底层硬件 AI 芯片，也同样经历了多次的起伏和波折，总体看来，AI芯片的发展前后经历了四次大的变化，其发展历程如图 2所示。 5 图 2 AI芯片发展历程（1）2007 年以前，AI 芯片产业一直没有发展成为成熟的产业；同时由于当时算法、数据量等因素，这个阶段 AI 芯片并没有特别强烈的市场需求，通用的 CPU 芯片即可满足应用需要。（2）随着高清视频、VR、AR游戏等行业的发展，GPU产品取得快速的突破；同时人们发现 GPU 的并行计算特性恰好适应人工智能算法及大数据并行计算的需求，如 GPU 比之前传统的 CPU在深度学习算法的运算上可以提高几十倍的效率，因此开始尝试使用 GPU进行人工智能计算。（3）进入 2010 年后，云计算广泛推广，人工智能的研究人员可以通过云计算借助大量 CPU 和 GPU 进行混合运算，进一步推进了 AI 芯片的深入应用，从而催生了各类 AI 芯片的研发与应用。（4）人工智能对于计算能力的要求不断快速地提升，进入 2015 年后，GPU 性能功耗比不高的特点使其在工作适用场合受到多种限制，业界开始研发针对人工智能的专用芯片，以期通过更好的硬件和芯片架构，在计算效率、能耗比等性能上得到进一步提升。 1.3 我国我国 AI芯片发展芯片发展情况情况目前，我国的人工智能芯片行业发展尚处于起步阶段。长期以来，中国在 CPU、GPU、DSP 处理器设计上一直处于追赶地位，绝大部分芯片设计企业依靠国外的 IP 核设计芯片，在自主创新上受到了极大的限制。然而，人工智能的兴起，无疑为中国在处理器领域实现6 弯道超车提供了绝佳的机遇。人工智能领域的应用目前还处于面向行业应用阶段，生态上尚未形成垄断，国产处理器厂商与国外竞争对手在人工智能这一全新赛场上处在同一起跑线上，因此，基于新兴技术和应用市场，中国在建立人工智能生态圈方面将大有可为。由于我国特殊的环境和市场，国内 AI 芯片的发展目前呈现出百花齐放、百家争鸣的态势，AI 芯片的应用领域也遍布股票交易、金融、商品推荐、安防、早教机器人以及无人驾驶等众多领域，催生了大量的人工智能芯片创业公司，如地平线、深鉴科技、中科寒武纪等。尽管如此，国内公司却并未如国外大公司一样形成市场规模，反而出现各自为政的散裂发展现状。除了新兴创业公司，国内研究机构如北京大学、清华大学、中国科学院等在AI芯片领域都有深入研究；而其他公司如百度和比特大陆等，2017年也有一些成果发布。可以预见，未来谁先在人工智能领域掌握了生态系统，谁就掌握住了这个产业的主动权。 7 technology 技术篇 8 2 技术篇技术篇从概念篇的介绍中我们可以发现，人工智能芯片目前有两种发展路径：一种是延续传统计算架构，加速硬件计算能力，主要以 3 种类型的芯片为代表，即 GPU、FPGA、ASIC，但CPU依旧发挥着不可替代的作用；另一种是颠覆经典的冯·诺依曼计算架构，采用类脑神经结构来提升计算能力，以 IBM TrueNorth 芯片为代表。 2.1 传统的传统的 CPU及其局限性及其局限性计算机工业从 1960 年代早期开始使用 CPU 这个术语。迄今为止，CPU 从形态、设计到实现都已发生了巨大的变化，但是其基本工作原理却一直没有大的改变。通常 CPU 由控制器和运算器这两个主要部件组成。传统的 CPU 内部结构图如图 3 所示，从图中我们可以看到：实质上仅单独的 ALU模块（逻辑运算单元）是用来完成数据计算的，其他各个模块的存在都是为了保证指令能够一条接一条的有序执行。这种通用性结构对于传统的编程计算模式非常适合，同时可以通过提升 CPU 主频（提升单位时间内执行指令的条数）来提升计算速度。但对于深度学习中的并不需要太多的程序指令、却需要海量数据运算的计算需求，这种结构就显得有些力不从心。尤其是在功耗限制下，无法通过无限制的提升 CPU 和内存的工作频率来加快指令执行速度，这种情况导致 CPU 系统的发展遇到不可逾越的瓶颈。图 3 传统 CPU内部结构图（仅 ALU为主要计算模块） 9 2.2 并行加速计算并行加速计算的的 GPU GPU作为最早从事并行加速计算的处理器，相比 CPU速度快，同时比其他加速器芯片编程灵活简单。传统的 CPU 之所以不适合人工智能算法的执行，主要原因在于其计算指令遵循串行执行的方式，没能发挥出芯片的全部潜力。与之不同的是，GPU 具有高并行结构，在处理图形数据和复杂算法方面拥有比 CPU 更高的效率。对比 GPU 和 CPU 在结构上的差异，CPU大部分面积为控制器和寄存器，而 GPU拥有更多的 ALU(ARITHMETIC LOGIC UNIT，逻辑运算单元)用于数据处理，这样的结构适合对密集型数据进行并行处理，CPU 与 GPU 的结构对比如图 4所示。程序在 GPU系统上的运行速度相较于单核 CPU往往提升几十倍乃至上千倍。随着英伟达、AMD 等公司不断推进其对 GPU 大规模并行架构的支持，面向通用计算的 GPU(即 GPGPU，GENERAL PURPOSE GPU，通用计算图形处理器)已成为加速可并行应用程序的重要手段。图 4 CPU及 GPU结构对比图（引用自 NVIDIA CUDA 文档） GPU的发展历程可分为 3个阶段，发展历程示意图如图 5所示：第一代 GPU(1999 年以前 ) ，部分功能从 CPU 分离，实现硬件加速，以GE(GEOMETRY ENGINE)为代表，只能起到 3D图像处理的加速作用，不具有软件编程特性。第二代 GPU(1999-2005 年)，实现进一步的硬件加速和有限的编程性。1999 年，英伟达发布了“专为执行复杂的数学和几何计算的”GeForce256 图像处理芯片，将更多的晶体管用作执行单元，而不是像 CPU 那样用作复杂的控制单元和缓存，将 T&L(TRANSFORM AND LIGHTING)等功能从 CPU分离出来，实现了快速变换，这成为 GPU真正出现的标志。之后几年，GPU技术快速发展，运算速度迅速超过 CPU。2001年英伟达和 ATI分别推出的GEFORCE3 和 RADEON 8500，图形硬件的流水线被定义为流处理器，出现了顶点级可编程性，同时像素级也具有有限的编程性，但 GPU的整体编程性仍然比较有限。第三代 GPU(2006年以后)，GPU实现方便的编程环境创建，可以直接编写程序。2006年英伟达与ATI分别推出了CUDA(Compute United Device Architecture，计算统一设备架构)编程环境和 CTM(CLOSE TO THE METAL)编程环境，使得 GPU打破图形语言的局限成为10 真正的并行数据处理超级加速器。 2008 年，苹果公司提出一个通用的并行计算编程平台 OPENCL（OPEN COMPUTING LANGUAGE，开放运算语言），与 CUDA 绑定在英伟达的显卡上不同，OPENCL 和具体的计算设备无关。图 5 GPU芯片的发展阶段目前，GPU 已经发展到较为成熟的阶段。谷歌、FACEBOOK、微软、TWITTER 和百度等公司都在使用 GPU 分析图片、视频和音频文件，以改进搜索和图像标签等应用功能。此外，很多汽车生产商也在使用 GPU 芯片发展无人驾驶。不仅如此，GPU 也被应用于VR/AR相关的产业。但是 GPU也有一定的局限性。深度学习算法分为训练和推断两部分，GPU平台在算法训练上非常高效。但在推断中对于单项输入进行处理的时候，并行计算的优势不能完全发挥出来。 2.3 半定制化半定制化的的 FPGA FPGA是在 PAL、GAL、CPLD等可编程器件基础上进一步发展的产物。用户可以通过烧入 FPGA 配置文件来定义这些门电路以及存储器之间的连线。这种烧入不是一次性的，比如用户可以把 FPGA 配置成一个微控制器 MCU，使用完毕后可以编辑配置文件把同一个FPGA 配置成一个音频编解码器。因此，它既解决了定制电路灵活性的不足，又克服了原11 有可编程器件门电路数有限的缺点。 FPGA 可同时进行数据并行和任务并行计算，在处理特定应用时有更加明显的效率提升。对于某个特定运算，通用 CPU 可能需要多个时钟周期；而 FPGA 可以通过编程重组电路，直接生成专用电路，仅消耗少量甚至一次时钟周期就可完成运算。此外，由于FPGA的灵活性，很多使用通用处理器或ASIC难以实现的底层硬件控制操作技术，利用 FPGA 可以很方便的实现。这个特性为算法的功能实现和优化留出了更大空间。同时 FPGA 一次性成本(光刻掩模制作成本)远低于 ASIC，在芯片需求还未成规模、深度学习算法暂未稳定，需要不断迭代改进的情况下，利用 FPGA 芯片具备可重构的特性来实现半定制的人工智能芯片是最佳选择之一。功耗方面，从体系结构而言，FPGA 也具有天生的优势。传统的冯氏结构中，执行单元（如 CPU 核）执行任意指令，都需要有指令存储器、译码器、各种指令的运算器及分支跳转处理逻辑参与运行，而 FPGA 每个逻辑单元的功能在重编程（即烧入）时就已经确定，不需要指令，无需共享内存，从而可以极大的降低单位执行的功耗，提高整体的能耗比。由于 FPGA 具备灵活快速的特点，因此在众多领域都有替代 ASIC 的趋势。FPGA 在人工智能领域的应用如图 6所示。图 6 FPGA在人工智能领域的应用 12 2.4 全定制化全定制化的的 ASIC 目前以深度学习为代表的人工智能计算需求，主要采用 GPU、FPGA 等已有的适合并行计算的通用芯片来实现加速。在产业应用没有大规模兴起之时，使用这类已有的通用芯片可以避免专门研发定制芯片（ASIC）的高投入和高风险。但是，由于这类通用芯片设计初衷并非专门针对深度学习，因而天然存在性能、功耗等方面的局限性。随着人工智能应用规模的扩大，这类问题日益突显。 GPU 作为图像处理器，设计初衷是为了应对图像处理中的大规模并行计算。因此，在应用于深度学习算法时，有三个方面的局限性：第一，应用过程中无法充分发挥并行计算优势。深度学习包含训练和推断两个计算环节，GPU 在深度学习算法训练上非常高效，但对于单一输入进行推断的场合，并行度的优势不能完全发挥。第二，无法灵活配置硬件结构。GPU 采用 SIMT 计算模式，硬件结构相对固定。目前深度学习算法还未完全稳定，若深度学习算法发生大的变化，GPU 无法像 FPGA 一样可以灵活的配制硬件结构。第三，运行深度学习算法能效低于 FPGA。尽管 FPGA 倍受看好，甚至新一代百度大脑也是基于 FPGA 平台研发，但其毕竟不是专门为了适用深度学习算法而研发，实际应用中也存在诸多局限：第一，基本单元的计算能力有限。为了实现可重构特性，FPGA 内部有大量极细粒度的基本单元，但是每个单元的计算能力(主要依靠 LUT 查找表)都远远低于 CPU和 GPU中的 ALU模块；第二、计算资源占比相对较低。为实现可重构特性，FPGA 内部大量资源被用于可配置的片上路由与连线，；第三，速度和功耗相对专用定制芯片(ASIC)仍然存在不小差距；第四，FPGA 价格较为昂贵，在规模放量的情况下单块 FPGA的成本要远高于专用定制芯片。因此，随着人工智能算法和应用技术的日益发展，以及人工智能专用芯片ASIC产业环境的逐渐成熟，全定制化人工智能ASIC也逐步体现出自身的优势，从事此类芯片研发与应用的国内外比较有代表性的公司如表 1所示，后续产业篇会做相应的详细介绍。表 1 人工智能专用芯片（包括类脑芯片）研发情况一览国家国家名称名称简介简介国外国外英伟达 Tesla P100 首个专为深度学习加速计算而设计的图形处理芯片架构谷歌 TPU 面向机器学习张量处理的加速芯片 IBM TrueNorth芯片 TrueNorth以分布式、并行的方式来存储处理信息，支持 SNN 高通 Zeroth芯片按照人类神经网络传输信息的方式而设计，支持 SNN 英特尔神经形态芯片支持片上学习的 SNN芯片 Audience 神经形态芯片可以模拟人耳抑制噪音，应用于智能手机国内国内中星微中国首个嵌入式神经网络芯片 NPU 寒武纪全球首个提出深度学习处理器芯片指令集地平线机器人专注于人工智能本地化机器学习芯片深鉴科技利用 FPGA平台打造人工智能芯片 DPU 灵汐科技类脑处理芯片，支持 DNN/SNN混合模式 13 ASIC 芯片非常适合人工智能的应用场景。首先，ASIC 的性能提升非常明显。例如英伟达首款专门为深度学习从零开始设计的芯片 Tesla P100 数据处理速度是其 2014 年推出GPU 系列的 12 倍。谷歌为机器学习定制的芯片 TPU 将硬件性能提升至相当于当前芯片按摩尔定律发展 7 年后的水平。正如 CPU 改变了当年庞大的计算机一样，人工智能 ASIC 芯片也将大幅改变如今 AI硬件设备的面貌。如大名鼎鼎的 AlphaGo使用了约 170个图形处理器（GPU）和 1200 个中央处理器（CPU），这些设备需要占用一个机房，还要配备大功率的空调，以及多名专家进行系统维护。而如果全部使用专用芯片，极大可能只需要一个普通收纳盒大小的空间，，且功耗也会大幅降低。第二，下游需求促进人工智能芯片专用化。从服务器，计算机到无人驾驶汽车、无人机再到智能家居的各类家电，至少数十倍于智能手机体量的设备需要引入感知交互能力和人工智能计算能力。而出于对实时性的要求以及训练数据隐私等考虑，这些应用不可能完全依赖云端，必须要有本地的软硬件基础平台支撑，这将带来海量的人工智能芯片需求。目前人工智能专用芯片的发展方向包括：主要基于 FPGA 的半定制、针对深度学习算法的全定制和类脑计算芯片 3个方向。在芯片需求还未形成规模、深度学习算法暂未稳定，AI 芯片本身需要不断迭代改进的情况下，利用具备可重构特性的 FPGA 芯片来实现半定制的人工智能芯片是最佳选择之一。这类芯片中的杰出代表是国内初创公司深鉴科技，该公司设计了“深度学习处理单元”（Deep Processing Unit，DPU）的芯片，希望以 ASIC 级别的功耗达到优于 GPU 的性能，其第一批产品就是基于 FPGA 平台开发研制出来的。这种半定制芯片虽然依托于 FPGA 平台，但是抽象出了指令集与编译器，可以快速开发、快速迭代，与专用的 FPGA 加速器产品相比，也具有非常明显的优势。深度学习算法稳定后，AI 芯片可采用 ASIC 设计方法进行全定制，使性能、功耗和面积等指标面向深度学习算法做到最优。 2.5 类脑类脑芯片芯片类脑芯片不采用经典的冯·诺依曼架构，而是基于神经形态架构设计，以IBM Truenorth 为代表。IBM 研究人员将存储单元作为突触、计算单元作为神经元、传输单元作为轴突搭建了神经芯片的原型。目前，Truenorth 用三星 28nm 功耗工艺技术，由 54 亿个晶体管组成的芯片构成的片上网络有 4096 个神经突触核心，实时作业功耗仅为 70mW。由于神经突触要求权重可变且要有记忆功能，IBM 采用与 CMOS 工艺兼容的相变非挥发存储器（PCM）的技术实验性的实现了新型突触，加快了商业化进程。在国内，清华大学类脑计算中心于 2015 年 11 月成功的研制了国内首款超大规模的神经形态类脑计算天机芯片。该芯片同时支持脉冲神经网络和人工神经网络（深度神经网络），14 可进行大规模神经元网络的模拟。中心还开发了面向类脑芯片的工具链，降低应用的开发难度并提升效率。第二代 28nm天机芯片也已问世，在性能功耗比上要优于 Truenorth。当前，类脑 AI 芯片的设计目的不再仅仅局限于加速深度学习算法，而是在芯片基本结构甚至器件层面上改变设计，希望能够开发出新的类脑计算机体系结构，比如采用忆阻器和 ReRAM 等新器件来提高

注意事项

本文（人工智能芯片研究报告.pdf）为本站会员（恋****泡）主动上传，得力文库 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知得力文库 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。