2022年H3C大数据产品技术白皮书.pdf
《2022年H3C大数据产品技术白皮书.pdf》由会员分享,可在线阅读,更多相关《2022年H3C大数据产品技术白皮书.pdf(15页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、H3C大数据产品技术白皮书杭州华三通信技术有限公司2020年 4 月精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 1 页,共 15 页 - - - - - - - - - - 目录1 H3C大数据产品介绍. 错误 ! 未定义书签。产品简介 . 错误 !未定义书签。产品架构 . 错误 !未定义书签。数据处理 . 错误 ! 未定义书签。数据分层 . 错误 ! 未定义书签。产品技术特点 . . 错误 !未定义书签。先进的混合计算架构 . 错误 ! 未定义书签。高性价比的分布式集群 . 错误 ! 未定义书签。云
2、化 ETL . 错误 ! 未定义书签。数据分层和分级存储 . 错误 ! 未定义书签。数据分析挖掘 . 错误 ! 未定义书签。数据服务接口 . 错误 ! 未定义书签。可视化运维管理 . 错误 ! 未定义书签。产品功能简介 . . 错误 !未定义书签。管理平面功能: . 错误 ! 未定义书签。业务平面功能: . 错误 ! 未定义书签。2 DataEngine HDP 核心技术. 错误 ! 未定义书签。3 DataEngine MPP Cluster核心技术. 错误 ! 未定义书签。MPP + Shared Nothing架构 . 错误 !未定义书签。核心组件 . 错误 !未定义书签。高可用 . 错
3、误 !未定义书签。精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 2 页,共 15 页 - - - - - - - - - - 高性能扩展能力. . 错误 !未定义书签。高性能数据加载. . 错误 !未定义书签。OLAP 函数 . 错误 !未定义书签。行列混合存储 . . 错误 !未定义书签。精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 3 页,共 15 页 - - - - - - - - - - 1 H3C大数据
4、产品介绍1.1产品简介H3C大数据平台采用开源社区Apache 和 MPP 分布式数据库混合计算框架为用户提供一套完整的大数据平台解决方案,具备高性能、高可用、高扩展特性,可以为超大规模数据管理提供高性价比的通用计算存储能力。H3C 大数据平台提供数据采集转换、计算存储、分析挖掘、共享交换以及可视化等全系列功能,并广泛地用于支撑各类数据仓库系统、BI 系统和决策支持系统帮助用户构建海量数据处理系统,发现数据的内在价值。1.2产品架构H3C大数据平台包含4 个部分:第一部分是运维管理,包括:安装部署、配置管理、主机管理、用户管理、服务管理、监控告警和安全管理等。第二部分是数据ETL, 即获取、转
5、换、加载,包括:关系数据库连接Sqoop、日志采集Flume、ETL工具 Kettle。第三部分是数据计算。MPP采用分析型分布式数据库,存储高价值密度的结构化数据;Hadoop 存储非结构化/ 半结构化数据和低价值密度结构化数据。计算结果都存到数据仓库,数据仓库中的数据可直接用于分析和展示。数据仓库是面向主题的、集成的、稳定的且随时间不断变化的数据集合,用精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 4 页,共 15 页 - - - - - - - - - - 以支持经营管理中的决策制定过程。第四部分
6、数据服务,包括:机器学习、数据挖掘、数据检索、数据可视化、即席分析、SQL和 API,为应用层提供服务和中间件调用。1.2.1数据处理对于大数据管理平台,应该建立一套标准化、规范化的数据处理流程,例如:如何采集内部和外部数据、结构化和非结构化数据;如何清洗采集来的脏数据和无效数据;如何对不同来源的数据进行打通;如何对非结构化的数据进行结构化加工;如何在结构化数据的基础上进行商业建模和数据挖掘等等。大数据管理层在一条数据总线上构建了一条完整的大数据处理流水线。这条流水线从数据的采集、清洗到加工处理,把原始杂乱无章的数据加工成结构化的数据组件,供上层的大数据应用来拼装调用,让企业拥有创造数据资产的
7、能力。1.2.2数据分层ODS层:数据来源于各生产系统,通过ETL 工具对接口文件数据进行编码替换和数据清洗转换,不做关联操作。未来也可用于准实时数据查询。轻度汇总层:主题域内部基于明细层数据,进行多维度的、用户级的汇精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 5 页,共 15 页 - - - - - - - - - - 总明细数据层:主题域内部进行拆分、关联。是对ODS操作型数据按照主题域划分规则进行的拆分及合并。信息子层:报表数据、多维数据、指标库等数据来源于汇总层。汇总层:主题域之间进行关联、汇
8、总计算。汇总数据服务于信息子层,目的是为了节约信息子层数据计算成本和计算时间。应用层:应用系统的私有数据,应用的业务数据。精细化营销做为大数据平台的一个上层应用,由大数据平台提供数据支撑。1.3产品技术特点先进的混合计算架构?采用 Hadoop和MPP 融合技术架构, 对半结构化和非结构化数据支持并行计算和低成本存储,提供低时延、高并发的查询和分析功能;对结构化数据采用MPP 分布式列存储,支持分布式计算、智能索引等功能,实现高性能结构化数据分析处理。集成MapReduce 、Spark 、Storm、Tez等多种计算框架,利用 YARN 资源管理做统一管理,可在同一份数据集上运行多种计算。离
9、线计算、内存计算和流式计算并存,能满足高吞吐、大数据量和低时延实时处理等多方面的数据计算要求。精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 6 页,共 15 页 - - - - - - - - - - 高性价比的分布式集群?基于 x86服务器本地的计算与存储资源,计算集群可以动态调整,从数台到数千台之间弹性扩展,按需构建应用,减少总体成本;同时,在设计时充分考虑了硬件设备的不可靠因素,在软件层面提供计算和存储的高可靠保证,具备较强的容错性。云化 ETL?将不同业务系统中分散、零乱、标准不统一的各种源数据
10、中的数据进行汇聚。支持从 DBMS 、互联网、物联网、企业生产系统等各种数据源中提取数据。各类数据经过抽取、清洗和转化后,实现多对多地加载到包含但不限于大数据集群和各类关系型数据库中。该过程由一个统一的操作接口封装,经过无代码的可视化配置后,可实现自动化地、分布式地执行整个ETL作业流程。数据分层和分级存储?把数据按照不同阶段分为ODS(Operational Data Store)数据、轻度汇总数据、信息子层数据和应用数据,分别存储在Hadoop平台、 MPP 分布式数据库和数据仓库,满足不同阶段的计算需求;按照在线数据、历史数据等来管理数据生命周期,满足在线数据的高性能存储的需求;将核心模
11、型数据通过改造融入到数据仓库的核心模型中,减少数据冗余,提升数据质量;将数据仓库中的历史数据迁移到低成本分布式数据库,减轻数据仓库的计算与存储压力并支撑深度数据分析。精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 7 页,共 15 页 - - - - - - - - - - 数据分析挖掘?支持 R语言,集成机器学习算法库Mahout和Spark MLlib,包含聚类分析、分类算法、频度关联分析和推荐系统在内的常用机器学习算法。满足批处理统计分析、在线数据检索、R语言数据挖掘、实时流处理、全文搜索等全方位需
12、求。可帮助企业建立高速可扩展的数据仓库和数据集市,结合多种报表工具提供交互式数据分析、即时报表和BI可视化展示能力。数据服务接口?提供交互式 SQL 和可编程 API,提取数据存储计算平台的数据处理结果,屏蔽 底 层 细 节 , 为 上 层 应 用 提 供 数 据 服 务 。 主 要 包 括 SQL接 口 、MapReduce/Spark/Storm 计算接口等多种可编程API、全文实时搜索接口、业务定向接口、关联查询接口,满足数据查询、可视化BI 展示、数据交换、数据分析、目录服务、综合查询等业务应用的需要。可视化运维管理?提供 Web 图形化界面实现运集群的管理和监控,集群的节点、主机和服
13、务的运行状态都能在界面上显示,操作友好,功能丰富。提供集群快速安装部署、机架展示、用户权限管理、主机与服务管理、监控及告警通知等多方面支持,在可管理性方面优势显著。服务分类服务名称服务功能说明系统服务YARN一种全新的通用的Hadoop资源管理器, 为集群在利用率和资源统一精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 8 页,共 15 页 - - - - - - - - - - 管理等方面带来了巨大便利。可使MapReduce 、Spark 、Storm 等共存。ZooKeeper分布式应用程序协调服务
14、,保证集群的一致性。提供的功能包括:配置维护、名字服务、分布式同步、组服务等。Slider将已存在服务部署在YARN 集群上,而不用修改已存在服务。Oozie提供 Hadoop作业工作流管理功能,可管理MR 、Hive 、Pig 、Sqoop和 HDFS 等任务。Kafka一种低时延高吞吐量的分布式发布/订阅消息系统, 同时满足在线和离线处理海量消息数据派发。Kerberos一个基于共享密钥对称加密的安全网络认证系统,可防止对集群的恶意使用和篡改,保障Hadoop集群的安全可靠。计算服务MapReduce批处理框架,将一个大任务分成多个独立的小任务,最后汇总各个小任务的结果。用户只需关注上层应
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022 H3C 数据 产品 技术 白皮书
限制150内