大数据白皮书(2016年).pdf
《大数据白皮书(2016年).pdf》由会员分享,可在线阅读,更多相关《大数据白皮书(2016年).pdf(65页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、 大大 数数 据据 白白 皮皮 书 书 (2016年)年) 中国信息通信研究院 2016年12月 中国信息通信研究院 2016年12月 版权声明 版权声明 本白皮书版权属于中国信息通信研究院(工业和信息化部电信研究院),并受法律保护。转载、摘编或利用其它方式使用本白皮书文字或者观点的,应注明“来源:中国信息通信研究院(工业和信息化部电信研究院)”。违反上述声明者,本院将追究其相关法律责任。本白皮书版权属于中国信息通信研究院(工业和信息化部电信研究院),并受法律保护。转载、摘编或利用其它方式使用本白皮书文字或者观点的,应注明“来源:中国信息通信研究院(工业和信息化部电信研究院)”。违反上述声明者
2、,本院将追究其相关法律责任。 前 言前 言 大数据是国家基础性战略资源,是 21 世纪的“钻石矿”。党中央、国务院高度重视大数据在经济社会发展中的作用,提出“实施国家大数据战略”,出台促进大数据发展行动纲要,全面推进大数据发展,加快建设“数据强国”。 “十三五”时期是我国全面建成小康社会的决胜阶段,是新旧产业和发展动能转换接续的关键时期,全球新一代信息技术产业正处于加速变革期,国内市场应用需求处于爆发期,我国大数据产业发展面临重要的发展机遇。 本白皮书是继大数据白皮书(2014)之后我院第二次发布大数据白皮书。本白皮书首先回顾和阐述了大数据的内涵及产业界定, 并以大数据产业几个关键要素为核心,
3、 重点从大数据技术发展、数据资源开放共享、大数据在重点行业的应用、大数据相关政策法规等四个方面分析了最新进展,力求反映我国大数据产业发展状况的概貌。最后结合我国大数据发展最新状况及问题,提出了进一步促进大数据发展的相关策略建议。 目 录目 录 一、大数据产业发展概述 . 1 (一)大数据再认识 . 1 (二)大数据产业界定 . 2 (三)大数据关键问题 . 5 二、大数据技术发展趋势 . 6 (一)社交网络和物联网技术拓展了数据采集技术渠道 . 6 (二)分布式存储和计算技术夯实了大数据处理的技术基础 . 9 (三)深度神经网络等新兴技术开辟大数据分析技术的新时代 . 11 三、大数据资源开放
4、与共享 . 15 (一)数据资源总量评估 . 15 (二)政府数据共享 . 16 (三)政府数据开放 . 19 (四)数据交易流通 . 20 四、重点行业大数据应用 . 27 (一)大数据应用整体情况 . 28 (二)各领域应用进展情况 . 28 (三)大数据应用发展趋势 . 39 五、大数据政策法规 . 40 (一)政府数据开放与信息公开 . 40 (二)个人数据保护 . 43 (三)跨境数据流动 . 46 (四)数据权属问题 . 48 六、结论与建议 . 50 (一)避免盲目跟风,大数据热潮还需冷思考 . 51 (二)推动开放共享,倒逼信息化建设升级 . 53 (三)强调供需对接,拉动技术
5、产业跨越发展 . 55 (四)完善法律制度,切实保障数据安全 . 56 (五)突出地方特色,形成差异化的区域产业布局 . 58 中国信息通信研究院 大数据白皮书(2016 年) 1 一、大数据产业发展概述 (一)大数据再认识 (一)大数据再认识 大数据是新资源、新技术和新理念的混合体。从资源视角来看,大数据是新资源,体现了一种全新的资源观。1990 年以来,在摩尔定律的推动下,计算存储和传输数据的能力在以指数速度增长,每GB 存储器的价格每年下降 40%。2000 年以来,以 Hadoop 为代表的分布式存储和计算技术迅猛发展, 极大的提升了互联网企业数据管理能力,互联网企业对“数据废气”(D
6、ata Exhaust)的挖掘利用大获成功,引发全社会开始重新审视“数据”的价值,开始把数据当作一种独特的战略资源对待。大数据的所谓 3V 特征(体量大、结构多样、产生处理速度快)主要是从这个角度描述的。 从技术视角看,大数据代表了新一代数据管理与分析技术。传统的数据管理与分析技术以结构化数据为管理对象、 在小数据集上进行分析、以集中式架构为主,成本高昂。与“贵族化”的数据分析技术相比,源于互联网的,面向多源异构数据、在超大规模数据集(PB量级)上进行分析、以分布式架构为主的新一代数据管理技术,与开源软件潮流叠加,在大幅提高处理效率的同时(数据分析从 T+1 到T+0 甚至实时),成百倍的降低
7、了数据应用成本。 从理念的视角看,大数据打开了一种全新的思维角度。大数据的应用,赋予了“实事求是”新的内涵,其一是“数据驱动”,即经营管理决策可以自下而上地由数据来驱动,甚至像量化股票交易、实时竞价广告等场景中那样,可以由机器根据数据直接决策;其二是“数大数据白皮书(2016 年) 中国信息通信研究院 2 据闭环”,观察互联网行业大数据案例,它们往往能够构造起包括数据采集、建模分析、效果评估到反馈修正各个环节在内的完整“数据闭环”,从而能够不断地自我升级,螺旋上升。目前很多“大数据应用”,要么数据量不够大,要么并非必须使用新一代技术,但体现了数据驱动和数据闭环的思维,改进了生产管理效率,这是大
8、数据思维理念应用的体现。 (二)大数据产业界定 (二)大数据产业界定 大数据本身既能形成新兴产业,也能推动其他产业发展。当前,国内外缺乏对大数据产业的公认界定。我们认为,大数据产业可以从狭义和广义两个层次界定。 从狭义看,当前全球围绕大数据采集、存储、管理和挖掘,正在逐渐形成了一个“小生态”,即大数据核心产业。大数据核心产业为全社会大数据应用提供数据资源、产品工具和应用服务,支撑各个领域的大数据应用,是大数据在各个领域应用的基石。应该注意到,狭义大数据产业仍然围绕信息的采集加工构建, 属于信息产业的一部分。 中国信息通信研究院 大数据白皮书(2016 年) 3 图 1 大数据核心产业构成 数据
9、资源部分负责原始数据的供给和交换, 根据数据来源的不同,可以细分为数据资源提供者和数据交易平台两种角色。 数据基础能力部分负责与数据生产加工相关的基础设施和技术要素供应,根据数据加工和价值提升的生产流程,数据基础能力部分主要包括数据存储、数据处理和数据库(数据管理)等多个角色。 数据分析/可视化部分负责数据隐含价值的挖掘、数据关联分析和可视化展现等,既包括传统意义上的 BI、可视化和通用数据分析工具,也包括面向非结构化数据提供的语音、图像等媒体识别服务。 数据应用部分根据数据分析和加工的结果,面向电商、金融、交通、气象、安全等细分行业提供精准营销、信用评估、出行引导、信息防护等企业或公众服务。
10、 根据 IDC、Wikibon 等咨询机构预测,2016 年,全球的大数据核心产业规模约为 300 亿美元。 大数据白皮书(2016 年) 中国信息通信研究院 4 数据来源:Wikibon,2016 年 3 月,单位:亿美元 图 2 全球大数据产业规模(2011-2026) 目前大数据产业的统计口径尚未建立。 对于我国大数据产业的规模,各个研究机构均采取间接方法估算。中国信息通信研究院结合对大数据相关企业的调研测算,2015 年我国大数据核心产业的市场规模达到 115.9 亿元,增速达 38%,预计 2016 年将达到 168 亿元,2017-2018 年还将维持 40%左右的高速增长。 数据
11、来源:中国信息通信研究院,2016 年 8 月,单位:亿人民币 图 3 中国大数据产业规模估计 0.100.200.300.400.500.600.700.800.900.1,000.84.0 115.9 168 0.020.040.060.080.0100.0120.0140.0160.0180.0201420152016E产值(亿元)产值(亿元)中国信息通信研究院 大数据白皮书(2016 年) 5 从广义看,大数据具有通用技术的属性,能够提升运作效率,提高决策水平,从而形成由数据驱动经济发展的“大生态”,即广义大数据产业。广义大数据产业包含了大数据在各个领域的应用,已经超出了信息产业的范畴
12、。据华沙经济研究所测算,欧盟 27 国因大数据的引进,至 2020 年将获得 1.9%的额外 GDP 增长。美国麦肯锡预计,到 2020 年美国大数据应用带来的增加值将占 2020 年 GDP 的 2%-4%。中国信息通信研究院预计, 到2020年大数据将带动中国GDP 2.8-4.2%。 (三)大数据关键问题 (三)大数据关键问题 我国大数据产业发展已具备一定基础,但要实现从“数据大国”向“数据强国”转变,还面临诸多挑战。 一是对数据资源及其价值的认识不足。 全社会尚未形成对大数据客观、科学的认识,对数据资源及其在人类生产、生活和社会管理方面的价值利用认识不足,存在盲目追逐硬件设施投资、轻视
13、数据资源积累和价值挖掘利用等现象。 二是技术创新与支撑能力不够。 大数据需要从底层芯片到基础软件再到应用分析软件等信息产业全产业链的支撑, 无论是新型计算平台、分布式计算架构,还是大数据处理、分析和呈现方面与国外均存在较大差距,对开源技术和相关生态系统的影响力仍然较弱,总体上难以满足各行各业大数据应用需求。 三是数据资源建设和应用水平不高。 用户普遍不重视数据资源的建设,即使有数据意识的机构也大多只重视数据的简单存储,很少针对后续应用需求进行加工整理。数据资源普遍存在质量差,标准规范大数据白皮书(2016 年) 中国信息通信研究院 6 缺乏,管理能力弱等现象。跨部门、跨行业的数据共享仍不顺畅,
14、有价值的公共信息资源和商业数据开放程度低。 数据价值难以被有效挖掘利用,大数据应用整体上处于起步阶段,潜力远未释放。 四是信息安全和数据管理体系尚未建立。数据所有权、隐私权等相关法律法规和信息安全、开放共享等标准规范缺乏,技术安全防范和管理能力不够,尚未建立起兼顾安全与发展的数据开放、管理和信息安全保障体系。 五是人才队伍建设亟需加强。综合掌握数学、统计学、计算机等相关学科及应用领域知识的综合性数据科学人才缺乏, 远不能满足发展需要,尤其是缺乏既熟悉行业业务需求,又掌握大数据技术与管理的综合型人才。 二、大数据技术发展趋势 (一)社交网络和物联网技术拓展了数据采集技术渠道 (一)社交网络和物联
15、网技术拓展了数据采集技术渠道 经过行业信息化建设,医疗、交通、金融等领域已经积累了许多内部数据,构成大数据资源的“存量”;而移动互联网和物联网的发展, 大大丰富了大数据的采集渠道, 来自外部社交网络、 可穿戴设备、车联网、 物联网及政府公开信息平台的数据将成为大数据增量数据资源的主体。 当前,移动互联网的深度普及,为大数据应用提供了丰富的数据源。根据中国互联网络信息中心(CNNIC)第 38 次中国互联网络发展状况统计报告,截至 2016 年 6 月,我国网民规模达 7.1 亿,互中国信息通信研究院 大数据白皮书(2016 年) 7 联网普及率达到 51.7%,超过全球平均水平 3.1 个百分
16、点。其中,我国手机网民规模达 6.65 亿。网民中使用手机上网的人群占比提升至92.5%。线下企业通过与互联网企业的合作,或者利用开放的应用编程接口(API,Application Programming Interface)或网络爬虫1,可以采集到丰富的网络数据,可以作为内容数据的有效补充。 另外,快速发展的物联网,也将成为越来越重要的大数据资源提供者。相对于现有互联网数据杂乱无章和价值密度低的特点,通过可穿戴、车联网等多种数据采集终端,定向采集的数据资源更具利用价值。例如,智能化的可穿戴设备经过几年的发展,智能手环、腕带、手表等可穿戴正在走向成熟,智能钥匙扣、自行车、筷子等设备层出不穷,国
17、外 Intel、Google、Facebook,国内百度、京东、小米等有所布局。根据 IDC 公司预计,到 2016 年底,全球可穿戴设备的出货量将达到 1.019 亿台,较 2015 年增长 29.0%。到 2020 年之前,可穿戴设备市场的年复合增长率将为 20.3%,而 2020 年将达到 2.136 亿台2。可穿戴设备可以 724 小时不间断地收集个人健康数据,在医疗保健领域有广阔的应用前景,一旦技术成熟,设备测量精度达到医用要求,电池续航能力也有显著增强,就很可能会进入大规模应用阶段, 从而成为重要的大数据来源。 再如, 车联网已经进入快速成长期。据 StrategyAnalytic
18、s 公司预计,2016 年前装车联网市场渗透率将达到 19%,在未来 5 年内迎来发展黄金期,2020 年将达到 49%3。 不过,值得注意的是,即便外部数据越来越丰富,但可获取性还1注释:网络爬虫(Web crawler),是一种按照一定的规则自动抓取互联网网页信息的计算机程序。 2http:/ 3http:/ 大数据白皮书(2016 年) 中国信息通信研究院 8 不够高,一方面受目前技术水平所限,车联网、可穿戴设备等数据采集精度、数据清洗技术和数据质量还达不到实用要求;另一方面,由于体制机制原因,导致行业和区域上的条块分割,数据割据和孤岛普遍存在,跨企业跨行业数据资源的融合仍然面临诸多障碍
19、。根据中国信息通信研究院 2015 年对国内 800 多家企业的调研来看,有 50%以上的企业把内部业务平台数据、 客户数据和管理平台数据作为大数据应用最主要的数据来源。企业内部数据仍是大数据主要来源,但对外部数据的需求日益强烈。当前,有 32%的企业通过外部购买所获得的数据; 只有18%的企业使用政府开放数据。 如何促进大数据资源建设,提高数据质量,推动跨界融合流通,是推动大数据应用进一步发展的关键问题之一。 数据来源:中国信息通信研究院,2015 年 5 月 图 4 企业大数据来源情况(企业数量,n=809) 总体来看,各行业都在致力于在用好存量资源的基础之上,积极拓展新兴数据收集的技术渠
20、道,开发增量资源。社交媒体、物联网等大大丰富了数据采集的潜在渠道,理论上,数据获取将变得越来越容中国信息通信研究院 大数据白皮书(2016 年) 9 易。 (二)分布式存储和计算技术夯实了大数据处理的技术基础 (二)分布式存储和计算技术夯实了大数据处理的技术基础 大数据存储和计算技术是整个大数据系统的基础。在存储方面,2000 年左右谷歌等提出的文件系统(GFS)、以及随后的 Hadoop 的分布式文件系统 HDFS(Hadoop Distributed File System)奠定了大数据存储技术的基础。与传统系统相比,GFS/HDFS 将计算和存储节点在物理上结合在一起,从而避免在数据密集
21、计算中易形成的 I/O吞吐量的制约, 同时这类分布式存储系统的文件系统也采用了分布式架构,能达到较高的并发访问能力。存储架构的变化如图 5 所示。 数据来源:中国信息通信研究院,2014 年 图 5 大数据存储架构的变化 在计算方面,谷歌在 2004 年公开的 MapReduce 分布式并行计算技术,是新型分布式计算技术的代表。一个 MapReduce 系统由廉价的通用服务器构成, 通过添加服务器节点可线性扩展系统的总处理能力(Scale Out),在成本和可扩展性上都有巨大的优势。谷歌的MapReduce 是其内部网页索引、广告等核心系统的基础。之后出现的Apache Hadoop MapR
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 白皮书 2016
限制150内