Hadoop生态系统基本介绍ppt课件.pptx
《Hadoop生态系统基本介绍ppt课件.pptx》由会员分享,可在线阅读,更多相关《Hadoop生态系统基本介绍ppt课件.pptx(60页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、为深入学习习近平新时代中国特色社会主义思想和党的十九大精神,贯彻全国教育大会精神,充分发挥中小学图书室育人功能Hadoop发展展历程及各程及各组件介件介绍为深入学习习近平新时代中国特色社会主义思想和党的十九大精神,贯彻全国教育大会精神,充分发挥中小学图书室育人功能第一章第一章 课程程简介介为深入学习习近平新时代中国特色社会主义思想和党的十九大精神,贯彻全国教育大会精神,充分发挥中小学图书室育人功能课程介绍Hadoop发展历程Hadoop各组件介绍为深入学习习近平新时代中国特色社会主义思想和党的十九大精神,贯彻全国教育大会精神,充分发挥中小学图书室育人功能第二章第二章Hadoop发展历程为深入学
2、习习近平新时代中国特色社会主义思想和党的十九大精神,贯彻全国教育大会精神,充分发挥中小学图书室育人功能WhyHadoop?Hadoop简史Hadoop核心组件Hadoop生态系统总结Hadoop解决的问题为深入学习习近平新时代中国特色社会主义思想和党的十九大精神,贯彻全国教育大会精神,充分发挥中小学图书室育人功能我们处在一个海量数据的时代我们正产生着比以往任何时候都多的数据-金融交易数据-网络数据-服务器日志-分析数据-电子邮件和短信-各类多媒体数据为深入学习习近平新时代中国特色社会主义思想和党的十九大精神,贯彻全国教育大会精神,充分发挥中小学图书室育人功能我们处在一个海量数据的时代我们产生数
3、据的速度比以往任何时候都快-各类自动化数据-无处不在的互联网-用户自发生成的内容例如,-纽约证交所每天产生的交易数据多达1TB-Twitter每天处理3.4亿条信息-Facebook每天有27亿条评论为深入学习习近平新时代中国特色社会主义思想和党的十九大精神,贯彻全国教育大会精神,充分发挥中小学图书室育人功能淘宝双11当天的营业额?为深入学习习近平新时代中国特色社会主义思想和党的十九大精神,贯彻全国教育大会精神,充分发挥中小学图书室育人功能淘宝双11全记录为深入学习习近平新时代中国特色社会主义思想和党的十九大精神,贯彻全国教育大会精神,充分发挥中小学图书室育人功能数据就是价值这些数据可用于许多
4、有价值的应用-营销分析-产品推荐-需求预测-欺诈检测-更多、更多我们必须处理它以提取其价值为深入学习习近平新时代中国特色社会主义思想和党的十九大精神,贯彻全国教育大会精神,充分发挥中小学图书室育人功能数据处理的可扩展性受限我们如何处理所有这些信息有两个问题需要面对-大数据的存储HDFS-大数据的分析MapReduce为深入学习习近平新时代中国特色社会主义思想和党的十九大精神,贯彻全国教育大会精神,充分发挥中小学图书室育人功能WhyHadoop?Hadoop简史Hadoop版本Hadoop解决的问题为深入学习习近平新时代中国特色社会主义思想和党的十九大精神,贯彻全国教育大会精神,充分发挥中小学图
5、书室育人功能Hadoop的史前Hadoop最开始用来提高ApacheNutch的可扩展性-Nutch是一个开源的Web搜索引擎项目两篇谷歌论文对这项成果有重大影响-TheGoogleFileSystem(存储)-Mapreduce(处理)2002200320042005NutchcreatedGoogleFilesystempaperMapReducepaperNutchre-architecture为深入学习习近平新时代中国特色社会主义思想和党的十九大精神,贯彻全国教育大会精神,充分发挥中小学图书室育人功能早期HadoopHadoop后来从ApacheNutch被分离出来-第一次进入Luce
6、ne的一个子项目,称为hadoop-后来成为顶级Apache项目雅虎!领导早期的许多Hadoop开发-其他很多公司也接踵而至200620082008Hadoopsub-project1000-nodeYahoo!clusterTop-levelApacheproject为深入学习习近平新时代中国特色社会主义思想和党的十九大精神,贯彻全国教育大会精神,充分发挥中小学图书室育人功能Hadoop大事记2004年DougCuttingMikeCafarella实现了HDFS和MapReduce的初版2005年12月Nutch移植到新框架,Hadoop在20个节点上稳定运行2006年1月DougCutt
7、ing加入雅虎2006年2月ApacheHadoop项目正式启动,支持MapReduce和HDFS独立发展2006年2月雅虎的网格计算团队采用Hadoop2006年4月在188个节点上(每节点10GB)运行排序测试机需要47.9个小时2006年5月雅虎建立了一个300个节点的Hadoop研究集群2006年5月在500个节点上运行排序测试集需要42个小时(硬件配置比4月份更好)2006年11月 研究集群增加到600个节点为深入学习习近平新时代中国特色社会主义思想和党的十九大精神,贯彻全国教育大会精神,充分发挥中小学图书室育人功能Hadoop大事记2006年12月 排序测试记在20个节点上运行1.
8、8个小时,100个节点上运行3.3个小时,500个节点上运行5.2个小时,900个节点上运行7.8个小时2007年1月研究集群增加到900个节点2007年4月研究集群增加到两个集群1000个节点2008年4月在900个节点上运行1TB的排序测试集仅需要209秒,成为全球最快2008年10月 研究集群每天状态10TB的数据2009年3月17个集群共24000个节点2009年4月在每分钟排序中胜出,59秒内排序500GB(1400个节点上)和173分钟内排序100TB的数据(在3400个节点上)为深入学习习近平新时代中国特色社会主义思想和党的十九大精神,贯彻全国教育大会精神,充分发挥中小学图书室育
9、人功能WhyHadoop?Hadoop简史Hadoop版本Hadoop解决的问题为深入学习习近平新时代中国特色社会主义思想和党的十九大精神,贯彻全国教育大会精神,充分发挥中小学图书室育人功能Hadoop版本http:/ stock.product,SUM(orders.purchases)FROM stock INNER JOIN orders ON(stock.id=orders.stock_id)WHERE orders.quarter=Q1 GROUP BY stock.product;为深入学习习近平新时代中国特色社会主义思想和党的十九大精神,贯彻全国教育大会精神,充分发挥中小学图书室
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Hadoop 生态系统 基本 介绍 ppt 课件
限制150内