厦门大学-林子雨-大数据技术原理与应用-教材配套上机练习-MapReduce编程初级实践(2016年.doc
-
资源ID:1882224
资源大小:491KB
全文页数:9页
- 资源格式: DOC
下载积分:20金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
厦门大学-林子雨-大数据技术原理与应用-教材配套上机练习-MapReduce编程初级实践(2016年.doc
厦门大学林子雨编著大数据技术原理与应用教材配套上机练习MapReduce 编程初级实践(版本号:2016 年 1 月 24 日版本)主讲教师:林子雨 厦门大学数据库实验室二零一六年一月目录目录1作业题目.1 2作业目的.1 3作业性质.1 4作业考核方法.1 5作业提交日期与方式.1 6实验平台.1 7实验内容和要求.1 8实验报告.4 附录 1:任课教师介绍 .4 附录 2:课程教材介绍.5 附录 3:中国高校大数据课程公共服务平台介绍.6厦门大学林子雨编著大数据技术原理与应用 教材配套上机练习 MapReduce 编程初级实践主讲教师:林子雨 http:/www.cs.xmu.edu.cn/linziyu 第 1 页厦门大学林子雨编著大数据技术原理与应用教材配套上机练习MapReduce 编程初级实践上机练习说明主讲教师:林子雨主讲教师:林子雨 E-mail: ziyulinxmu.edu.cn 个人主页:http:/www.cs.xmu.edu.cn/linziyu1作业题目作业题目MapReduce 编程初级实践。2作业目的作业目的1.通过实验掌握基本的 MapReduce 编程方法; 2.掌握用 MapReduce 解决一些常见的数据处理问题,包括数据去重、数据排序和数据 挖掘等。3作业性质作业性质课后作业,必做,作为课堂平时成绩。4作业考核方法作业考核方法提交上机实验报告,任课老师根据上机实验报告评定成绩。5作业提交日期与方式作业提交日期与方式林子雨编著大数据技术原理与应用教材第七章 MapReduce 内容结束后的下一周周 六晚上 9 点之前提交。6实验平台实验平台已经配置完成的 Hadoop 伪分布式环境。7实验内容和要求实验内容和要求1.1.编程实现文件合并和去重操作编程实现文件合并和去重操作 对于两个输入文件,即文件 A 和文件 B,请编写 MapReduce 程序,对两个文件进行合 并,并剔除其中重复的内容,得到一个新的输出文件 C。下面是输入文件和输出文件的一 个样例供参考。输入文件 A 的样例如下:20150101 x20150102 y20150103 x厦门大学林子雨编著大数据技术原理与应用 教材配套上机练习 MapReduce 编程初级实践主讲教师:林子雨 http:/www.cs.xmu.edu.cn/linziyu 第 2 页20150104 y20150105 z20150106 x输入文件 B 的样例如下:20150101 y20150102 y20150103 x20150104 z20150105 y根据输入文件 A 和 B 合并得到的输出文件 C 的样例如下:20150101 x20150101 y20150102 y20150103 x20150104 y20150104 z20150105 y20150105 z20150106 x2.2. 编写程序实现对输入文件的排序编写程序实现对输入文件的排序 现在有多个输入文件,每个文件中的每行内容均为一个整数。要求读取所有文件中的 整数,进行升序排序后,输出到一个新的文件中,输出的数据格式为每行两个整数,第一 个数字为第二个整数的排序位次,第二个整数为原待排列的整数。下面是输入文件和输出 文件的一个样例供参考。 输入文件 1 的样例如下:33371240输入文件 2 的样例如下:41639厦门大学林子雨编著大数据技术原理与应用 教材配套上机练习 MapReduce 编程初级实践主讲教师:林子雨 http:/www.cs.xmu.edu.cn/linziyu 第 3 页5输入文件 3 的样例如下:14525根据输入文件 1、2 和 3 得到的输出文件如下:1 12 43 54 125 166 257 338 379 3910 4011 453.3. 对给定的表格进行信息挖掘对给定的表格进行信息挖掘 下面给出一个 child-parent 的表格,要求挖掘其中的父子辈关系,给出祖孙辈关系的 表格。输入文件内容如下:child parentSteven LucySteven JackJone LucyJone JackLucy MaryLucy FrankJack AliceJack JesseDavid AliceDavid Jesse厦门大学林子雨编著大数据技术原理与应用 教材配套上机练习 MapReduce 编程初级实践主讲教师:林子雨 http:/www.cs.xmu.edu.cn/linziyu 第 4 页Philip DavidPhilip AlmaMark DavidMark Alma输出文件内容如下:grandchild grandparentSteven AliceSteven JesseJone AliceJone JesseSteven MarySteven FrankJone MaryJone FrankPhilip AlicePhilip JesseMark AliceMark Jesse8实验报告实验报告厦门大学计算机系研究生课程大数据技术原理与应用实验报告题目:姓名日期实验环境:实验内容与完成情况:出现的问题:解决方案(列出遇到的问题和解决办法,列出没有解决的问题):附录附录 1:任课教师介绍任课教师介绍厦门大学林子雨编著大数据技术原理与应用 教材配套上机练习 MapReduce 编程初级实践主讲教师:林子雨 http:/www.cs.xmu.edu.cn/linziyu 第 5 页林子雨(1978),男,博士,厦门大学计算机科学系助理教授,主要研究领域为 数据库,实时主动数据仓库,数据挖掘. 主讲课程:大数据技术原理与应用 办公地点:厦门大学海韵园科研 2 号楼 E-mail: ziyulinxmu.edu.cn 个人主页:http:/www.cs.xmu.edu.cn/linziyu 数据库实验室网站:http:/dblab.xmu.edu.cn附录附录 2:课程教材介绍:课程教材介绍大数据技术原理与应用概念、存储、处理、分析与应用 ,由厦门大学计算机科 学系教师林子雨博士编著,是中国高校第一本系统介绍大数据知识的专业教材。本书定位 为大数据技术入门教材,为读者搭建起通向“大数据知识空间”的桥梁和纽带,以“构建 知识体系、阐明基本原理、引导初级实践、了解相关应用”为原则,为读者在大数据领域 “深耕细作”奠定基础、指明方向。 全书共有 13 章,系统地论述了大数据的基本概念、大数据处理架构 Hadoop、分布式 文件系统 HDFS、分布式数据 库 HBase、NoSQL 数据库、云数据库、分布式并行编程模 型 MapReduce、流计算、图计算、数据可视化以及大数据在互联网、生物医学和物流等各 个领域的应用。在 Hadoop、HDFS、HBase 和 MapReduce 等重要章节,安排了入门级的实 践操作,让读者更好地学习和掌握大数据关键技术。 本书可以作为高等院校计算机专业、信息管理等相关专业的大数据课程教材,也可供 相关技术人员参考、学习、培训之用。 欢迎访问大数据技术原理与应用概念、存储、处理、分析与应用教材官方网 站:http:/dblab.xmu.edu.cn/post/bigdata厦门大学林子雨编著大数据技术原理与应用 教材配套上机练习 MapReduce 编程初级实践主讲教师:林子雨 http:/www.cs.xmu.edu.cn/linziyu 第 6 页扫一扫访问教材官网附录附录 3:中国高校大数据课程公共服务平台:中国高校大数据课程公共服务平台介绍介绍中国高校大数据课程公共服务平台,由中国高校首个“数字教师”的提出者和建设者 林子雨老师发起,由厦门大学数据库实验室全力打造,由厦门大学云计算与大数据研 究中心、海峡云计算与大数据应用研究中心携手共建。这是国内第一个服务于高校大数据 课程建设的公共服务平台,旨在促进国内高校大数据课程体系建设,提高大数据课程教学 水平,降低大数据课程学习门槛,提升学生课程学习效果。平台服务对象涵盖高校、教师 和学生。平台为高校开设大数据课程提供全流程辅助,为教师开展教学工作提供一站式服 务,为学生学习大数据课程提供全方位辅导。平台重点打造“9 个 1 工程” ,即 1 本教材 (含官网) 、1 个教师服务站、1 个学生服务站、1 个公益项目、1 堂巡讲公开课、1 个示范 班级、1 门在线课程、1 个交流群(QQ 群、微信群)和 1 个保障团队。 平台主页:http:/dblab.xmu.edu.cn/post/bigdata-teaching-platform/扫一扫访问平台主页