技术交底书模板201904.docx
《技术交底书模板201904.docx》由会员分享,可在线阅读,更多相关《技术交底书模板201904.docx(3页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、技术交底书面向HBase的嵌入式弹性分布式数据集描述方法主题(专利)名称技术联系人姓名及其电话、email一、术语解释集群:一组物理主机的集合。HBase:面向列的分布式数据库。Spark: 一种通用的并行计算框架。弹性分布式数据集(RDD, Resilient Distributed Datasets): 一种分布式的内存抽象方 法,允许在大型集群上执行基于内存的计算。二、背景介绍要点:原来的技术方案是怎么样的?存在什么样的问题?(如有电路/功能框图/流程图,则更 容易让人理解)目前Spark中弹性分布式数据集的数据初始化方式主要有两种:直接从集合中获取数据, 并存入RDD中;读取本地或者分
2、布式文件系统(HDFS、S3等)的文本文件、sequence文件等。 对于HBase中的数据,主耍是通过HBase客户端拉取数据,进行转化处理后,保存到RDD中,分 发到多个切片中,再通过RDD的算子进行分布式计算。这样数据需要反复走网络,造成10冗 余,增加耗时。本发明实现了面向HBase的嵌入式分布式弹性数据集,结合HBase数据表的数据 分区性质与弹性分布式数据集的划分特点,直接将前者数据映射到后者中,紧密融合两者的区 域划分、数据分布特点,使得各节点的切片只处理本节点中对应数据区域的内存数据,提高分 布式处理速度。三、本发明方案介绍要点:请给出方案的具体描述,给出具体的结构总图,并对每
3、个部分进行标注,请给出你的发 明爆炸图,请对爆炸图中每一个标注进行结构、功能说明,请给出关键创新点的说明图并说明创新的地方,对细节放大说明图并进行文字说明。并写明各部件的连接关系和工作原理。(所 有结构图均为黑白线条图)(目标是让一个刚入行的人都能看懂你的发明)本方案实现一种面向HBase的嵌入式弹性分布式数据集描述方法。该方法自定义弹性数据 集TableRDD,根据HBase的数据分区规则与用户输入的目标数据范围划分TableRDD,将HBase 数据表的数据区域映射到弹性数据集的分区,指定分区数据的处理节点。实现在使用Spark分 布式计算HBase表数据时Spark的工作节点中的任务所处
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 技术 交底 模板 201904
限制150内