大数据白皮书(2019年).pdf
《大数据白皮书(2019年).pdf》由会员分享,可在线阅读,更多相关《大数据白皮书(2019年).pdf(50页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、 大大 数数 据据 白白 皮皮 书书 (2012019 9年)年) 中国信息通信中国信息通信研究院研究院 2012019 9年年1212月月版权声明版权声明 本白皮书本白皮书版权属于版权属于中国信息通信研究院中国信息通信研究院,并受法律保,并受法律保护护。转载、摘编或利用其它方式使用转载、摘编或利用其它方式使用本白皮书文字或者观本白皮书文字或者观点的,应点的,应注明注明“来源:来源:中国信息通信研究院中国信息通信研究院”。违反上述。违反上述声明者,本声明者,本院院将追究其相关法律责任。将追究其相关法律责任。 前前 言言 当前,全球大数据正进入加速发展时期,技术产业与应用创新不断迈向新高度。大数
2、据通过数字化丰富要素供给,通过网络化扩大组织边界,通过智能化提升产出效能,不仅是推进网络强国建设的重要领域,更是新时代加快实体经济质量变革、效率变革、动力变革的战略依托。 本白皮书是继大数据白皮书(2014 年)、大数据白皮书(2016 年)、大数据白皮书(2018 年)之后中国信通院第四次发布大数据白皮书。本白皮书在前三版的基础上,聚焦一年多来大数据各领域的进展和趋势,梳理主要问题并进行展望。在技术方面,重点探讨了近两年最新的大数据技术及其融合发展趋势; 在产业方面,重点讨论了我国大数据产品的发展情况;在数据资产管理方面,介绍了行业数据资产管理、数据资产管理工具的最新发展情况,并着重探讨了数
3、据资产化的关键问题;在安全方面,从多种角度分析了大数据面临的安全问题和技术工具。 希望本白皮书的分析可以对政府和行业提供参考。 目目 录录 一、国际大数据发展概述. 1 (一)大数据战略持续拓展 . 1 (二)大数据底层技术逐步成熟 . 2 (三)大数据产业规模平稳增长 . 3 (四)大数据企业加速整合 . 5 (五)数据合规要求日益严格 . 6 二、融合成为大数据技术发展的重要特征. 8 (一)算力融合:多样性算力提升整体效率 . 8 (二)流批融合:平衡计算性价比的最优解 . 9 (三)TA 融合:混合事务/分析支撑即时决策 . 10 (四)模块融合:一站式数据能力复用平台 . 11 (五
4、)云数融合:云化趋势降低技术使用门槛 . 11 (六)数智融合:数据与智能多方位深度整合 . 12 三、大数据产业蓬勃发展. 14 (一)大数据产业发展政策环境日益完善 . 14 (二)各地大数据主管机构陆续成立 . 17 (三)大数据技术产品水平持续提升 . 20 (四)大数据行业应用不断深化 . 22 四、数据资产化步伐稳步推进. 25 (一)数据:从资源到资产 . 25 (二)数据资产管理理论体系仍在发展 . 26 (三)各行业积极实践数据资产管理 . 27 (四)数据资产管理工具百花齐放 . 29 (五)数据资产化面临诸多挑战 . 31 五、数据安全合规要求不断提升. 35 (一)数据
5、相关法律监管日趋严格规范 . 35 (二)数据安全技术助力大数据合规要求落地 . 36 (三)数据安全标准规范体系不断完善 . 39 六、大数据发展展望. 41 图图 表表 目目 录录 图 1 全球每年产生数据量估算图. 1 图 2 2016-2020 年全球大数据市场收入规模预测 . 4 图 3 2016-2020 年全球大数据细分市场收入规模预测 . 5 图 4 国家大数据战略的布局历程. 14 表 1 全国 31 省级行政单位代表性大数据产业政策. 16 表 2 省级大数据主管机构. 18 表 3 数据管理框架对比. 26 表 4 数据价值的影响因素. 32 表 5 我国大数据相关立法.
6、 35 表 6 2019 年数据安全相关立法进程 . 36 表 7 主要隐私数据保护技术对比. 38 大数据白皮书(2019 年) 1 一、国际大数据发展概述 近年来,全球大数据的发展仍处于活跃阶段。根据国际权威机构Statista 的统计和预测,全球数据量在 2019 年有望达到 41ZB1。 数据来源:IDC、Seagate、Statista estimates 图 1 全球每年产生数据量估算图 2019 年以来,全球大数据技术、产业、应用等多方面的发展呈现了新的趋势,也正在进入新的阶段。本章将对国外大数据战略、技术、产业等领域的最新进展进行简要叙述。 (一)(一)大数据战略持续拓展大数据
7、战略持续拓展 相对于几年前,2019 年国外大数据发展在政策方面略显平淡,只有美国的联邦数据战略第一年度行动计划(Federal Data Strategy Year-1 Action Plan)草案比较受到关注。 2019 年 6 月 5 日,美国发布了联邦数据战略第一年度行动计划草案,这个草案包含了每个机构开展工作的具体可交付成果,以1 ZB,即十万亿亿字节,相当于 240GB 大数据白皮书(2019 年) 2 及由多个机构共同协作推动的政府行动, 旨在编纂联邦机构如何利用计划、统计和任务支持数据作为战略资产来发展经济、提高联邦政府的效率、促进监督和提高透明度2。 相对于三年前颁布的联邦大
8、数据研发战略计划,美国对于数据的重视程度继续提升,并出现了聚焦点从“技术”到“资产”的转变,其中更是着重提到了金融数据和地理信息数据的标准统一问题。 此外,配套文件中“共享行动:政府范围内的数据服务”成为亮点,针对数据跨机构协同与共享,从执行机构到时间节点都进行了战略部署。 早些时候,欧洲议会通过了一项决议,敦促欧盟及其成员国创造一个“繁荣的数据驱动经济”。该决议预计,到 2020 年,欧盟国内生产总值将因更好的数据使用而增加 1.9%。但遗憾的是,据统计目前只有 1.7%的公司充分利用了先进的数字技术。 拓宽和深入大数据技术应用是各国数据战略的共识之处。 据了解,美国 2020 年人口普查有
9、望采用差分隐私等大数据隐私保护技术来提高对个人信息的保护。英国政府统计部门正在探索利用交通数据,通过大数据分析及时跟踪英国经济走势,提供预警服务,帮助政府进行精准决策。 (二二)大数据)大数据底层技术底层技术逐步逐步成熟成熟 近年来,大数据底层技术发展呈现出逐步成熟的态势。在大数据发展的初期,技术方案主要聚焦于解决数据“大”的问题,Apache Hadoop 定义了最基础的分布式批处理架构,打破了传统数据库一体2 可参考 https:/ 大数据白皮书(2019 年) 3 化的模式,将计算与存储分离,聚焦于解决海量数据的低成本存储与规模化处理。Hadoop 凭借其友好的技术生态和扩展性优势,一度
10、对传统大规模并行处理(massively parallel processor, MPP)数据库的市场造成影响。但当前 MPP 在扩展性方面不断突破(2019 年中国信通院大数据产品能力评测中MPP大规模测试集群规模已突破512节点) ,使得 MPP 在海量数据处理领域又重新获得了一席之位。 MapReduce 暴露的处理效率问题以及 Hadoop 体系庞大复杂的运维操作,推动计算框架不断进行着升级演进。随后出现的 Apache Spark 已逐步成为计算框架的事实标准。 在解决了数据“大”的问题后,数据分析时效性的需求愈发突出, Apache Flink、 Kafka Streams、 Sp
11、ark Structured Streaming等近年来备受关注的产品为流处理的基础框架打下了基础。 在此基础上,大数据技术产品不断分层细化,在开源社区形成了丰富的技术栈,覆盖存储、计算、分析、集成、管理、运维等各个方面。据统计,目前大数据相关开源项目已达上百个。 (三三)大数据)大数据产业规模产业规模平稳增长平稳增长 国际权威机构 Statista 在 2019 年 8 月发布的报告显示,预计到2020 年,全球大数据市场的收入规模将达到 560 亿美元,较 2018 年的预期水平增长约 33.33%,较 2016 年的市场收入规模翻一倍。随着市场整体的日渐成熟和新兴技术的不断融合发展, 未
12、来大数据市场将呈现稳步发展的态势,增速维持在 14%左右。在 2018-2020 年的预测期内,大数据市场整体的收入规模将保持每年约 70 亿美元的增长,大数据白皮书(2019 年) 4 复合年均增长率约为 15.33%。 数据来源:Wikibon、SiliconANGLE 图 2 2016-2020 年全球大数据市场收入规模预测 从细分市场来看,大数据硬件、软件和服务的市场规模均保持较稳定的增长,预计到 2020 年,三大细分市场的收入规模将分别达到150 亿美元(硬件)、200 亿美元(软件)、210 亿美元(服务)。具体来看,2016-2017 年,软件市场规模增速达到了 37.50%,
13、在数值上超过了传统的硬件市场。随着机器学习、高级分析算法等技术的成熟与融合,更多的数据应用和场景正在落地,大数据软件市场将继续高速增长。 预计在 2018-2020 年间, 每年约有 30 亿美元的增长规模,复合年均增长率约为 19.52%。大数据相关服务的规模始终最高,预计在 2018-2020 年间的复合年均增长率约为 14.56%。相比之下,硬件市场增速最低,但仍能保持约 11.80%的复合年均增长率。从整体占比来看,软件规模占比将逐渐增加,服务相关收益将保持平稳发展的趋势,软件与服务之间的差距将不断缩小,而硬件规模在整体的占比则逐渐减小。 大数据白皮书(2019 年) 5 数据来源:W
14、ikibon、SiliconANGLE 图 3 2016-2020 年全球大数据细分市场收入规模预测 (四四)大数据企业)大数据企业加速加速整合整合 近两年来,国际具有影响力的大数据公司也遭遇了一些变化。 2018 年 10 月,美国大数据技术巨头 Cloudera3和 Hortonworks4宣布合并。在 Hadoop 领域,两家公司的合并意味着“强强联手”,而在更加广义的大数据领域,则更像是“抱团取暖”。但毫无疑问,这至少可以帮助两家企业结束近十年的竞争, 并且依靠垄断地位早日摆脱长期亏损的窘状。而从第三方的角度来看,这无疑会影响整个 Hadoop的生态。开源大数据目前已经成为互联网企业的
15、基础设施,两家公司合并,意味着 Hadoop 的标准将更加统一,长期来看新公司的盈利能力也将大幅提升,并将更多的资源用于新技术的投入。从体量和级别上来看,新公司将基本代表 Hadoop 社区,其他同类型企业将很难与3 Cloudera 成立于 2008 年,发行了 Hadoop 集成版本 CDH。CDH 产品包括企业版和开源版,在企业版中,包含闭源管理组件 Cloudera Manager。 4 Hortonworks 是从雅虎 Hadoop 团队剥离成立的创业公司,不同于 Cloudera,Hortonworks 的软件是完全开源的,通过技术支持来盈利。 大数据白皮书(2019 年) 6 之
16、竞争。 2019 年 8 月,惠普(HPE)收购著名大数据技术公司 MapR 的业务资产, 包括 MapR 的技术、 知识产权以及多个领域的业务资源等。MapR 创立于 2009 年,属于 Hadoop 全球软件发行版供应商之一。专家普遍认为, 企业组织越来越多以云服务形式使用数据计算和分析产品是使得 MapR 需求减少的重要原因之一。用户需求正从采购以Hadoop 为代表的平台型产品,转向结合云化、智能计算后的服务型产品。这也意味着,全球企业级 IT 厂商的战争已经进入到了一个新阶段,即满足用户从平台产品到云化服务,再到智能解决方案的整体需求。 (五五)数据合规要求日益严格)数据合规要求日益
17、严格 近两年来,各国在数据合规性方面的重视程度越来越高,但数据合规的进程仍任重道远。2019 年 5 月 25 日,旨在保护欧盟公民的个人数据、对企业的数据处理提出了严格要求的通用数据保护条例(GDPR) 实施满一周年, 数据保护相关的案例与公开事件数量攀升,同时也引起了诸多争议。 牛津大学的一项研究发现,GDPR 实施满一年后,未经用户同意而设置的新闻网站上的 Cookies 数量下降了 225。欧盟 EDPB 的报告显示,GDPR 实施一年以来,欧盟当局收到了约 145000 份数据安全相关的投诉和问题举报;共判处 5500 万欧元行政罚款。苹果、微软、Twitter、WhatsApp、I
18、nstagram 等企业也都遭到调查或处罚。 5 可参考 https:/ 大数据白皮书(2019 年) 7 GDPR 的正式实施之后,带来了全球隐私保护立法的热潮,并成功提升了社会各领域对于数据保护的重视。例如,2020 年 1 月起,美国加州的消费者隐私法案 (CCPA) 也将正式生效6。 与 GDPR 类似,CCPA 将对所有和美国加州居民有业务的数据商业行为进行监管。CCPA 在适用监管的标准上比 GDPR 更宽松,但是一旦满足被监管的标准,违法企业受到的惩罚更大。2019 年 8 月份,IAPP/OneTrust对部分美国企业进行了 CCPA 准备度调查,结果显示,74的受访者认为他们
19、的企业应该遵守 CCPA,但只有大约 2的受访者认为他们的企业已经完全做好了应对 CCPA 的准备。除加州 CCPA 外,更多的法案正在美国纽约州等多个州陆续生效。 6 可参考 https:/ 大数据白皮书(2019 年) 8 二、融合成为大数据技术发展的重要特征 当前,大数据体系的底层技术框架已基本成熟。大数据技术正逐步成为支撑型的基础设施,其发展方向也开始向提升效率转变,逐步向个性化的上层应用聚焦,技术的融合趋势愈发明显。本章将针对当前大数据技术的几大融合趋势进行探讨。 (一一)算力融合:多样性算力提升整体效率)算力融合:多样性算力提升整体效率 随着大数据应用的逐步深入,场景愈发丰富,数据
20、平台开始承载人工智能、物联网、视频转码、复杂分析、高性能计算等多样性的任务负载。同时,数据复杂度不断提升,以高维矩阵运算为代表的新型计算范式具有粒度更细、并行更强、高内存占用、高带宽需求、低延迟高实时性等特点,以 CPU 为底层硬件的传统大数据技术无法有效满足新业务需求,出现性能瓶颈。 当前,以 CPU 为调度核心,协同 GPU、FPGA、ASIC 及各类用于 AI 加速“xPU”的异构算力平台成为行业热点解决方案,以 GPU为代表的计算加速单元能够极大提升新业务计算效率。今年 9 月,腾讯云发布了两款异构计算产品,包括搭载 Xilinx 数据中心加速卡Alveo U200 的 FPGA 实例
21、 FX4,以及采用 NVIDIA T4 的 GPU 实例GN7。华为公司计划在今年年底推出 Fusion Insight B160 数据智能模型发布一体化解决方案,内置 Kunpeng920+Atlas300C 芯片,为 AI模型发布提供强劲算力。 不同硬件体系融合存在开发工具相互独立、 编程语言及接口体系不同、软硬件协同缺失等工程问题。为此,产业界试图从统一软件开大数据白皮书(2019 年) 9 发平台和开发工具的层面来实现对不同硬件底层的兼容,例如 Intel公司正在设计支持跨多架构 (包括 CPU、 GPU、 FPGA 和其他加速器)开发的编程模型 oneAPI,它提供一套统一的编程语言
22、和开发工具集,来实现对多样性算力的调用,从根本上简化开发模式,针对异构计算形成一套全新的开放标准。 (二二)流批融合:平衡计算性价比的最优解)流批融合:平衡计算性价比的最优解 流处理能够有效处理即时变化的信息, 从而反映出信息热点的实时动态变化。而离线批处理则更能够体现历史数据的累加反馈。考虑到对于实时计算需求和计算资源之间的平衡, 业界很早就有了 lambda架构的理论来支撑批处理和流处理共同存在的计算场景。 随着技术架构的演进,流批融合计算正在成为趋势,并不断在向更实时更高效的计算推进,以支撑更丰富的大数据处理需求。 流计算的产生来源于对数据加工时效性的严苛要求。 数据的价值随时间流逝而降
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 白皮书 2019
限制150内