大数据分析——RDBMS与MapReduce的竞争与共生.pdf
《大数据分析——RDBMS与MapReduce的竞争与共生.pdf》由会员分享,可在线阅读,更多相关《大数据分析——RDBMS与MapReduce的竞争与共生.pdf(14页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、软件学报I S S N1 0 0 0 9 8 2 5,C O D E NR U X U E WJ o u r n a lo f S o f t w a r e,2 0 1 2,2 3(1):3 2-4 5【d o i:l O 3 7 2 4 S E J 1 0 0 1 2 0 1 2 0 4 0 9 1】0 中国科学院软件研究所版权所有大数据分析l m B M S 与M a p R e d u c e 的竞争与共生宰覃雄派1 斗,王会举L 2,杜小勇L 2,王珊1 21(教育部数据工程与知识工程重点实验室(中国人民大学),北京1 0 0 8 7 2)2(中国人民大学信息学院,北京1 0 0 8
2、 7 2)B i gD a t aA n a l y s i s-C o m p e t i t i o na n dS y m b i o s i so fR D B M Sa n dM a p R e d u c eQ I NX i o n g P a i l 2+,W A N GH u i-J u l 2,D UX i a o Y o n 9 1 2,W A N GS h a h l 2E-m a i l:j o s i s c a s a c c nh t t p:w w w j o s o r g C I lT e l,F a x:+8 6 1 0 6 2 5 6 2 5 6 31(
3、M O EK e yL a b o r a t o r yo f D a t aE n g i n e e r i n ga n dK n o w l e d g eE n g i n e e r i n g(R e n m mU n i v e r s i t yo f C h i n a),B e i j i n g1 0 0 8 7 2,C h i n a)2(S c h o o lo f I n f o r m a t i o n。R a n m i nU n i v e r s i t yo f C h i n a,s e i j i n g1 0 0 8 7 2。C h i n a
4、)+C o r r e s p o n d i n ga u t h o r:E-m a i l:q x p l 9 9 s i n a c o i nQ i nX P,W a n gI t J,D uX Y,W a n gS B i gd a t aa n a l y s i s C o m p e t i t l o na n ds y m b i o s i so fR D B M Sa n dM a p R e d u e e J o u r n a lo f S o f t w a r e,2 0 1 2,2 3(1):3 2-4 5 h t t p:w w w j o s o r
5、g c n 1 0 0 0-9 8 2 5 4 0 9 1 h t mA b s t r a c t:I nm a n ya r e a ss u c ha ss c i e n c e,s i m u l a t i o n,I n t e r n e t,a n de-c o m m e r c e,t h ev o l u m eo fd a t at ob ea n a l y z e dg r o w sr a p i d l y P a r a l l e lt e c h n i q u e sw h i c hc o u l db ee x p a n d e dc o s t
6、-e f f e c t i v e l ys h o u l db ei n v e n t e dt od e a lw i t ht h eb i gd a t a R e l a t i o n a ld a t am a n a g e m e n tt e c h n i q u eh a sg o n et h r o u g hah i s t o r yo fn e a r l y4 0y e a r s N o wi te n c o u n t e r st h et o u g ho b s t a c l eo fs c a l a b i l i t y,w h i
7、 c hr e l a t i o n a lt e c h n i q u e sC a nn o th a n d l el a r g ed a t ae a s i l y I nt h em e a nt i m e,n o n er e l a t i o n a lt e c h n i q u e s,s u c ha sM a p R e d u c ea sat y p i c a lr e p r e s e n t a t i o n,e m e r g ea san e wf o r c e,a n de x p a n dt h e i ra p p l i c a
8、 t i o nf r o mW e bs e a r c ht ot e r r i t o r i e st h a tu s e dt ob eo c c u p i e db yr e l a t i o n a ld a t a b a s es y s t e m s T h e yc o n f r o n tr e l a t i o n a lt e c h n i q u ew i t hh i g ha v a i l a b i l i t y,h i g hs c a l a b i l i t ya n dm a s s i v ep a r a l l e lp
9、r o c e s s i n gc a p a b i l i t y R e l a t i o n a lt e c h n i q u ec o m m u n i t y,a f t e rl o s i n gt h eb i gd e a lo fW 曲s e a r c h b e g i n st ol e a r nf r o mM a p R e d u c e M a p R e d u c ea l s ob o r r o w sv a l u a b l ei d e a sf r o mr e l a t i o n a lt e c h n i q u ec
10、o m m u n i t yt oi m p r o v ep e r f o r m a n c e R e l a t i o n a lt e c h n i q u ea n dM a p R e d u c ec o m p e t ew i t he a c ho t h e r,a n dl e a r nf r o me a c ho t h e r;n e wd a t aa n a l y s i sp l a t f o r ma n dn e wd a t aa n a l y s i se c o s y s t e ma r ee m e r g i n g F
11、i n a l l yt h et w oc a m p so ft e c h n i q u e sw i l lf i n dt h e i rr i g h tp l a c e si nt h en e we c o-s y s t e mo fb i gd a t aa n a l y s i s K e yw o r d s:b i gd a t a;d e 印a n a l y s i s;r e l a t i o n a ld a t am a n a g e m e n tt e c h n i q u e;M a p R e d u c e摘要:在科学研究、计算机仿真、
12、互联网应用、电子商务等诸多应用领域,数据量正在以极快的速度增长,为了分析和利用这些庞大的数据资源,必须依赖有效的数据分析技术传统的关系数据管理技术(并行数据库)经过了将近4 0 年的定辰在扩展性方面遇到了巨大的障碍,无法胜任大数据分析的任务;而以M a p R e d u c e 为代表的非关系数据管理和分析技术异军突起,以其良好的扩展性,客错性和大规模并行处理的优势,从互联网信息搜索领域开始,进而在数据分析的诸多领域和关系数据管理技术展开了竞争关系数据管理技术阵营在丧失搜索这个阵地之后,开始基金项目:国家自然科学基金(6 1 0 7 0 0 5 4,6 0 8 7 3 0 1 7,6 1 1
13、 7 0 0 1 3);核高基重大科技专项(2 0 1 0 Z X 0 1 0 4 2-0 0 1-0 0 2,2 0 1 0 Z X0 1 0 4 2-0 0 2-0 0 2-0 3);中央高校基本科研业务费专项资金(I O X N I O l 8)收稿时间:2 0 1 l-0 4-0 4;定稿时间:2 0 1 1-0 7 2 1;j o s 在线出版时间:2 0 1 1-0 9-0 9C N K I 网络优先出版:2 0 1 1-0 9-0 91 3:5 4,h t t p:w w w c n k i n e t A c m s d e t a i F l l 2 5 6 0 T P 2
14、0 1 1 0 9 0 9 1 3 5 4 0 0 2 h t m l万方数据覃雄派等:大数据分析一一I m B M s 与M a p R e d u c e 的竞争与共生3 3考虑自身的局限性,不断借鉴M a p R e d u c e 的优秀思想改造自身,而以M a p R e d u c e 为代表的非关系数据管理技术阵营,从关系数据管理技术所积累的宝贵财富中挖掘可以借鉴的技术和方法,不断解决其性能问题面向大数据的深度分析需求,新的架构模式正在涌现关系数据管理技术和非关系数据管理技术在不断的竞争中互相取长补短,在新的大数据分析生态系统内找到自己的位置关键词:大数据;深度分析;关系数据管理
15、技术;M a p R e d u c e中图法分类号:T P 3 1 1文献标识码:A1 大数据时代的来临1 1 数据量的增长在科学研究(天文学、生物学、高能物理等)【l】、计算机仿真、互联网应用、电子商务等领域,数据量呈现快速增长的趋势比如:在科学研究方面,大型强子对撞机每年积累的新数据量为1 5 P B 左右(h t t p:w w w c o n f s l a c s t a n f o r d e d u x l d b 0 7 x l d bl h c p d f);在电子商务领域,沃尔玛公司(W a l M a r t)每天通过60 0 0 多个商店。向全球客户销售超过2 6 7
16、 亿(2 6 7 M i l l i o n)件商品(D a t a I n t e n s i v eS u p e r c o m p u t i n g:T h eC a s ef o rD I S C C M UT e c hR e p o r t2 0 0 7),为了对这些数据进行分析,H P 公司为沃尔玛公司建造了大型数据仓库系统,数据规模达到4 P B,并且仍在不断扩大除了上述典型例子,我们还可以列举出大规模数据的几个主要来源:(1)传感器数据(s e n s o rd a t a):分布在不同地理位置上的传感器,对所处环境进行感知,不断生成数据即便对这些数据进行过滤,仅保留部分
17、有效数据,长时间累积的数据量也是非常惊人的;(2)网站点击流数据(c l i c ks t r e a md a t a):为了进行有效的市场营销和推广,用户在网上的每个点击及其时间都被记录下来;利用这些数据,服务提供商可以对用户存取模式进行仔细的分析,从而提供更加具有针对性的服务;(3)移动设备数据(m o b i l ed e v i c ed a t a):通过移动电子设备包括移动电话和P D A、导航设备等,我们可以获得设备和人员的位置、移动、用户行为等信息,对这些信息进行及时的分析,可以帮助我们进行有效的决策,比如交通监控和疏导系统;(4)射频I D 数据(R F I Dd a t
18、a):R F I D 可以嵌入到产品中,实现物体的跟踪一旦R F I D 得到广泛的应用。将是大量数据的主要来源之一随着数据生成的自动化以及数据生成速度的加快,需要处理的数据量急剧膨胀1 2 数据分析的新趋势:超越常规报表的深度分析需求的增长为了从数据中发现知识并加以利用,指导人们的决策,必须对数据进行深入的分析,而不是仅仅生成简单的报表这些复杂的分析必须依赖于复杂的分析模型,很难用S Q L 来进行表达,统称为深度分析(d e e pa n a l y s i s)如图l 所示,人们不仅需要通过数据了解现在发生了什么,更需要利用数据对将要发生什么进行预测,以便在行动上做出一些主动的准备 2
19、1 比如通过预测客户的流失预先采取行动,对客户进行挽留这里,典型的O L A P 数据分析操作(对数据进行聚集、汇总、切片和旋转等)已经不够用,还需要路径分析、时间序列分析、图分析、W h a t i f 分析以及由于硬件软件限制而未曾尝试过的复杂统计分析模型【2 J 等,典型的例子包括时间序列分析和图分析等:(1)时间序列分析(t i m es e r i e sa n a l y s i s):商业组织积累了大量的交易历史信息,企业的各级管理人员希望从这些数据中分析出一些模式,以便从中发现商业机会,通过趋势分析,甚至预先发现一些正在涌现出来的机会比如在金融服务行业,分析人员可以开发针对性的
20、分析软件,对时间序列数据进行分析,寻找有利可图的交易模式(p r o f i t a b l et r a d i n gp a t t e r n),经过进一步验证之后,操作人员可以使用这些交易模式进行实际的交易,获得利润;(2)大规模图分析和网络分析(1 a r g e s c a l eg r a p ha n dn e t w o r ka n a l y s i s):社会网络(s o c i a ln e t w o r k)虚拟环境本质上是对实体连接性的描述在社会网络中,每个独立的实体表示为图中的一个节点,实体之间的联系表示为一条边通过社会网络分析,可以从中发现一些有用的知识,比
21、如发现某种类型的实体(有一种类型的实体把各个小组连接在一起,称为网络中的关键实体)这些信息可以用于产品直销、组织和个体行为分析、潜在安全威胁分析等领域随着社会网络规模的增长,从几何角度看,图的节点和边都不断增长使万方数据J o u r n a lo fS o f t w a r e 软件学报V 0 1 2 3,N o 1,J a n u a r y2 0 1 2用传统的方法处理大规模的图数据显得力不从心,急需有效的手段对这类数据进行分析一种处理大数据的方法是使用采样技术,通过采样,可以把数据规模变小,以便利用现有的技术手段(关系数据库系统)进行数据管理和分析然而在某些应用领域,采样将导致信息的
22、丢失,比如D N A 分析等在明细数据上进行分析,意味着需要分析的数据量将急剧膨胀和增长综上所述,数据分析的两大趋势和挑战是:(1)数据量的膨胀;(2)数据深度分析需求的增长(B e y o n dR e p o r t i n g:R e q u i r e m e n t sf o rL a r g e-S c a l eA n a l y t i c s T D W IR e s e a r c hW h i t e p a p e r2 0 0 8)如图2 所示此外,数据类型不断多样化,包括各种非结构化、半结构化数据,对这些类型多样的数据进行管理和分析也是数据处理技术所面临的挑战将来过
23、去圆圆圆圆事实解释F i g 1D i m e n s i o n so fd a t aa n a l y s i s 2】图1 数据分析的维度口1檀趟礤州塔求邕小数据库上大小大F i g 2T r e n d so fd a t aa n a l y s i s 1】图2 数据分析的趋势2 以M a p R e d u c e 为代表的非关系数据管理技术的兴起关系数据库技术经过了将近4 0 年的发展,成为-N 成熟的、同时仍在不断演进的主流数据管理和分析技术关系数据管理技术的主流应用包括O L T P 应用、O L A P 应用以及数据仓库等S Q L 语言作为存取关系数据库系统的语言得到
24、了标准化,经过不断扩充,其功能和表达能力不断增强但是。关系数据管理技术在大数据时代丧失了互联网搜索这个机会,其主要原因是关系数据管理系统(并行数据库)的扩展性遇到了前所未有的障碍,不能胜任大数据分析的要求关系数据管理模型追求的是高度的一致性和正确性面向超大数据的分析需求,纵向扩展(s c a l eu p)系统,即通过增加或者更换C P U、内存、硬盘以扩展单个节点的能力。终将遇到瓶颈;横向扩展(s c a l eo u t)系统,即通过增加计算节点连接成集群,并且改写软件,使之在集群上并行执行,才是经济的解决办法使用大规模集群实现大数据的管理和分析,需要应对的挑战很多,其中,系统的可用性摆到
25、了重要的位置p】根据C A P(c o n s i s t e n c y,a v a i l a b i l i t y,t o l e r a n c et on e t w o r kp a r t i t i o n s)理论(T o w a r d sR o b u s tD i s t r i b u t e dS y s t e m s P O D C 2 0 0 4K e y n o t e)(对该理论尚存争议),在分布式系统中,一致性、可用性、容错性三者不可兼得,追求其中两个目标必将损害另外一个目标并行数据库系统追求高度的一致性和容错性(通过分布式事务、分布式锁等机制),无法
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 RDBMS MapReduce 竞争 共生
限制150内