GFS与MapReduce实现研究及其应用.ppt
《GFS与MapReduce实现研究及其应用.ppt》由会员分享,可在线阅读,更多相关《GFS与MapReduce实现研究及其应用.ppt(39页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、1,GFS与MapReduce的实现研究及其应用,杨志丰导师:李晓明 教授2008-06-05,2,大纲,引言TFS分布式文件系统MapReduce分布式并行计算框架总结,引用次数来自Google Scholar,3,本文工作的出发点,The Google File SystemACM SOSP 2003被引用357MapReduce: Simplified Data Processing on Large ClustersUSENIX OSDI 2004被引用224,4,动机,开源实现Hadoop, KFS支持天网组内工作的需要大量数据:网页(以InfoMall网页库格式存储),搜索引擎日志
2、,URL数据,CDAL元数据,NLP语料库、词典;网页索引数据,Web链接图;CWT100G, CWT200G, 中文网页分类评测测试集, 其他机构的数据(如TREC相关数据:terabyte track)研究课题搜索引擎平台海量数据处理的基础设施改进系统设计,5,大纲,引言TFS分布式文件系统MapReduce分布式并行计算框架总结,6,系统结构,一个master,若干个chunkserver,若干个client存储大文件(GB-TB)一个文件由若干个定长块(chunk,64MB)块是普通linux文件,有若干个复本(replica),7,GFS中的记录追加写操作,记录追加写原子性(atom
3、ic)多写者并发Lease机制保证一致性结果数据成功:至少成功的在一个偏移处写入了一次;块末尾可能产生填充失败:产生不一致和不完整的数据,Client,Master,SecondaryReplica A,PrimaryReplica,SecondaryReplica B,8,TFS中的记录追加写操作,记录追加写原子性多写者并发无需lease机制变长块写缓存与新块申请结果成功:数据被完整的写入一次,且各个复本一致失败:数据没有被写入,Client,Replica C,Replica A,Replica B,Master,9,实验设置,一台master,九台chunkserverDell2850:
4、2 Intel Xeon, 2GB内存,7200rpm SCSI硬盘6块组成一个软件RAID-0客户端2GB内存,其余同上网络所有机器通过1Gbps全双工以太网卡与一个1Gbps交换机连接,10,记录追加写的效率,一台客户机上启动不同个客户线程,网络上限125M峰值95MB/s,达理论上限的75%(GFS为50%)另一个实验中,多客户机多进程并发追加,总速率可达380MB/s,11,读操作的效率,峰值90MB/s,理论上限的72%(GFS为75%),12,TFS Shell,13,14,大纲,引言TFS分布式文件系统MapReduce分布式并行计算框架总结,15,例子:词频统计,中国人民,美国
5、人民,中国人民银行,美国银行,中国,1人民,1,美国,1人民,1,中国,1人民,1银行,1,美国,1银行,1,中国,1中国,1银行,1银行,1,美国,1美国,1人民,1人民,1人民,1,中国,2银行,2,美国,2人民,3,map,shuffle,reduce,16,MapReduce运行流程,17,系统结构,18,系统的优化,忽略失败任务连接输出结果为一个文件Google实现中R具有双层含义:Reduce任务数;输出文件个数TFS提供的concatFiles接口串行版MapReduce系统实时监控,19,20,大纲,引言TFS分布式文件系统MapReduce分布式并行计算框架总结,21,本文贡
6、献,提出了一个与GFS不同的设计方案,使得记录追加写的效率大大提升设计和实现了一个稳定的分布式文件系统TFS,并已用于实际的研究工作设计和实现了MapReduce分布式并行计算系统,并评测了它的性能在我们的MapReduce系统基础上实现了各种搜索引擎系统常见的应用总结了在分布式系统的设计和实现的实践中得到的一些宝贵的经验,22,未来工作,继续完善系统,提高系统性能,并根据用户反馈增加必要的新特性构建一个海量数据处理的基础设施是我们研究小组的一个长期的目标,下一步是bigtable系统为进一步简化程序员工作,在MapReduce的基础上设计和实现并行STL算法库总结和研究MapReduce,M
7、apReduceMerge,Dryad等模型的表达能力,探索新的模型,23,谢谢!,24,致谢,感谢我的导师李晓明教授三年来对我的教诲和研究工作论文工作的宝贵指导。李老师严谨的治学态度和高瞻远瞩的洞察力是我终身学习的楷模。感谢闫宏飞老师大三时把我带入网络实验室这个大家庭,在实验室学习期间给予我工作学习的指导和对我各方面的能力的锻炼,以及对我本科毕业设计和毕业论文的关心和指导。感谢彭波老师研究生期间对我研究工作的指导和各方面的关心和帮助。彭老师谦虚温和的态度总是让人如沐春风,清晰严谨的思路始终是我学习的榜样。感谢北京大学网络实验室这个温暖的大家庭,从大三进入实验室实习起,我在这里度过了5年的岁月
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- gfs mapreduce 实现 研究 钻研 及其 应用 利用 运用
限制150内