海量处理与数据分析NoSQL数据库.ppt
《海量处理与数据分析NoSQL数据库.ppt》由会员分享,可在线阅读,更多相关《海量处理与数据分析NoSQL数据库.ppt(32页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、一种支持实时复杂查询和分一种支持实时复杂查询和分析的析的NoSQLNoSQL系统系统题题 纲纲n系统需求与现有方案系统需求与现有方案n技术方案技术方案n应用案例应用案例系统需求概述系统需求概述n数据及系统特点数据及系统特点n结构化:每条记录包含结构化:每条记录包含1010个字段左右,每条记录的大小大约是几个字段左右,每条记录的大小大约是几百字节百字节n数据量巨大:达到千亿级以上,达到数据量巨大:达到千亿级以上,达到PBPB级级n加载速度快:达到百万条加载速度快:达到百万条/s/s的规模的规模n系统规模:可以扩展到上千个节点系统规模:可以扩展到上千个节点n对数据的访问需求对数据的访问需求n提供提
2、供SQLSQL访问接口访问接口n支持大规模结果集:达到千万条规模支持大规模结果集:达到千万条规模n支持按多列的实时查询(秒级)支持按多列的实时查询(秒级)n支持多列之间的逻辑比较关系,例如支持多列之间的逻辑比较关系,例如ANDAND、OROR、NOTNOT等等n支持多列之间的的算术比较关系,例如支持多列之间的的算术比较关系,例如=、等等n支持统计、聚合、分组、排序等操作(秒级)支持统计、聚合、分组、排序等操作(秒级)nORDER BY ASC(DESC)ORDER BY ASC(DESC),GROUP BY,TOP,LIMITGROUP BY,TOP,LIMITnSUMSUM,COUNTCOU
3、NT,AVGAVG,MAXMAX,MINMINn数据不更新,但需要对数据批量删除数据不更新,但需要对数据批量删除系统需求概述系统需求概述共享磁盘Oracle RACDBSAN/共享磁盘DBDBDB网络SAN/FC完全共享SMP服务器DB磁盘现有方案现有方案(1)(1)关系数据库关系数据库单机数据库结构Oracle RACn关系型数据库都主要关系型数据库都主要关注了关注了CACA,即一致,即一致性和可用性性和可用性n性能、可扩展性上都性能、可扩展性上都比较差比较差n无法满足可扩展性和无法满足可扩展性和性能的要求性能的要求完全不共享DBDBDBDB网络磁盘磁盘磁盘磁盘Master现有方案现有方案(
4、2)(2)关系数据库集群关系数据库集群Parallel DBMSn数据分片数据分片(sharding)(sharding)或者功能分或者功能分区区n将数据按照不同的策略进行划将数据按照不同的策略进行划分:功能、字段值范围、分:功能、字段值范围、HASHHASH等等n优点:能够有效的解决可扩展优点:能够有效的解决可扩展性的问题性的问题n 缺点:缺点:shardshard的扩容比较复杂的扩容比较复杂;联合多个;联合多个shardshard的表数据查询复的表数据查询复杂。杂。nNoSQLNoSQL(非关系型)(非关系型)nNoSQL No SQLNoSQL No SQL,而是,而是No Relati
5、onshipNo Relationship,Not Only Not Only SQLSQLn系统特点系统特点n可以处理超大规模的数据,可支持到千亿规模可以处理超大规模的数据,可支持到千亿规模nSharing-NotingSharing-Noting架构,可扩展性强架构,可扩展性强n数据加载速度快,并可随节点个数线性增长数据加载速度快,并可随节点个数线性增长现有方案现有方案(3)-NoSQL(3)-NoSQL方案方案n根据特定应用场景的需要设计开发了很多根据特定应用场景的需要设计开发了很多NoSQLNoSQL系统系统n分布式分布式KVKV型:例如:型:例如:DynamoDynamo,PNUTS
6、PNUTS、FlareFlarenCFCF型:型:例如:例如:BigtableBigtable,CassandraCassandra和和HbaseHbase。n文档型:例如:文档型:例如:MongoDB,coutchDBMongoDB,coutchDB现有方案现有方案(3)-NoSQL(3)-NoSQL方案方案现有方案现有方案(3)-NoSQL(3)-NoSQL方案方案n现有现有No-SQLNo-SQL数据管理系统检索能力数据管理系统检索能力差差nK/VK/V型:仅支持基于型:仅支持基于KeyKey的查询,无法做多关键字查询以的查询,无法做多关键字查询以及根据及根据ValueValue的复杂查
7、询的复杂查询nColumn-BasedColumn-Based型:扩展了型:扩展了KVKV数据模型的表述能力,但是数据模型的表述能力,但是仅支持关键字查询,时间区间查询,不支持针对属性的仅支持关键字查询,时间区间查询,不支持针对属性的复杂查询以及统计、分析等操作复杂查询以及统计、分析等操作 现有方案现有方案(4)Hadoop+MR+HIVE(4)Hadoop+MR+HIVEHbaseHbase、PigPig、HiveHive:提供结构化数据的存:提供结构化数据的存储、查询、分析技术储、查询、分析技术MapReduceMapReduce:提供可靠的分布计算方法:提供可靠的分布计算方法HDFSHD
8、FS:提供统一视图的分布式存储环境:提供统一视图的分布式存储环境n面向非实时的分析型应用面向非实时的分析型应用n速度慢,无法满足实时性的要求速度慢,无法满足实时性的要求现有方案分析现有方案分析PDBMS、No-SQL数据库、数据库、Hadoop局限性分析!局限性分析!Hadoop+MR+HiveRDBMS当节点规模扩大时,由当节点规模扩大时,由于关系模式的约束,子于关系模式的约束,子表表 维护、数据错误等维护、数据错误等原因导致关系数据库的原因导致关系数据库的性能急剧下降!性能急剧下降!MapReduce无索引的无索引的检索方式与检索方式与“pull”模模式的中间数据处理流式的中间数据处理流程
9、导致检索效率低下!程导致检索效率低下!No-SQL仅支持基于仅支持基于Row_Key的查询,不支持多列的查询,不支持多列查询,统计分析等复查询,统计分析等复杂查询;针对大返回杂查询;针对大返回结果集的查询效率低!结果集的查询效率低!现有方案分析现有方案分析系统系统分类分类典型系统典型系统特点概述特点概述关系型数据库关系型数据库DBMS-X,Verita,GreenPlum,AsterData具备检索复杂性,但是不具有扩展性 HadoopHIVE,PIG,HadoopDB etc具备扩展性,但是检索效率低No-SQLLocal Host-Key ValueTC(KC),BDB不具备扩展性Hash
10、-based Key ValueDynamo,Pnuts,voldemort,falre具备扩展性,但是不支持区间查询Column-familyHbase,Hypertable,Cassandra,Memcachedb,levelDB etc具备扩展性,但是不支持多列查询Document based DBMongoDB,coutchDB加载、检索效率低检索模式有序表数据规模低高简单复杂关系数据库关系数据库KV数据库目标领域目标领域No-SQLn改善传统数据库的可扩展性差,并发性差的问题改善传统数据库的可扩展性差,并发性差的问题n解决解决NoSQLNoSQL数据的检索能力差的问题,增加多列查询、
11、统计排序等数据的检索能力差的问题,增加多列查询、统计排序等功能功能系统设计目标系统设计目标系统规模:万亿条系统规模:万亿条最终一致性最终一致性支持更丰富的支持更丰富的SQLSQL查询查询题题 纲纲n系统需求与现有方案系统需求与现有方案n技术方案技术方案n应用案例应用案例系统物理架构系统物理架构负责对集群中各负责对集群中各节点进行管理和节点进行管理和协调功能协调功能负责对全局信息、节负责对全局信息、节点状态信息的管理点状态信息的管理负责数据索引建立、负责数据索引建立、数据存储、数据检索数据存储、数据检索分析等计算功能以及分析等计算功能以及数据数据I/OI/O功能。功能。索引结构索引结构n分布式分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 海量 处理 数据 分析 NoSQL 数据库
限制150内