厦门大学-林子雨-大数据技术原理与应用-教材配套上机练习-MapReduce编程初级实践(2016年.doc
《厦门大学-林子雨-大数据技术原理与应用-教材配套上机练习-MapReduce编程初级实践(2016年.doc》由会员分享,可在线阅读,更多相关《厦门大学-林子雨-大数据技术原理与应用-教材配套上机练习-MapReduce编程初级实践(2016年.doc(9页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、厦门大学林子雨编著大数据技术原理与应用教材配套上机练习MapReduce 编程初级实践(版本号:2016 年 1 月 24 日版本)主讲教师:林子雨 厦门大学数据库实验室二零一六年一月目录目录1作业题目.1 2作业目的.1 3作业性质.1 4作业考核方法.1 5作业提交日期与方式.1 6实验平台.1 7实验内容和要求.1 8实验报告.4 附录 1:任课教师介绍 .4 附录 2:课程教材介绍.5 附录 3:中国高校大数据课程公共服务平台介绍.6厦门大学林子雨编著大数据技术原理与应用 教材配套上机练习 MapReduce 编程初级实践主讲教师:林子雨 http:/ 第 1 页厦门大学林子雨编著大数
2、据技术原理与应用教材配套上机练习MapReduce 编程初级实践上机练习说明主讲教师:林子雨主讲教师:林子雨 E-mail: 个人主页:http:/ 编程初级实践。2作业目的作业目的1.通过实验掌握基本的 MapReduce 编程方法; 2.掌握用 MapReduce 解决一些常见的数据处理问题,包括数据去重、数据排序和数据 挖掘等。3作业性质作业性质课后作业,必做,作为课堂平时成绩。4作业考核方法作业考核方法提交上机实验报告,任课老师根据上机实验报告评定成绩。5作业提交日期与方式作业提交日期与方式林子雨编著大数据技术原理与应用教材第七章 MapReduce 内容结束后的下一周周 六晚上 9
3、 点之前提交。6实验平台实验平台已经配置完成的 Hadoop 伪分布式环境。7实验内容和要求实验内容和要求1.1.编程实现文件合并和去重操作编程实现文件合并和去重操作 对于两个输入文件,即文件 A 和文件 B,请编写 MapReduce 程序,对两个文件进行合 并,并剔除其中重复的内容,得到一个新的输出文件 C。下面是输入文件和输出文件的一 个样例供参考。输入文件 A 的样例如下:20150101 x20150102 y20150103 x厦门大学林子雨编著大数据技术原理与应用 教材配套上机练习 MapReduce 编程初级实践主讲教师:林子雨 http:/ 第 2 页20150104 y20
4、150105 z20150106 x输入文件 B 的样例如下:20150101 y20150102 y20150103 x20150104 z20150105 y根据输入文件 A 和 B 合并得到的输出文件 C 的样例如下:20150101 x20150101 y20150102 y20150103 x20150104 y20150104 z20150105 y20150105 z20150106 x2.2. 编写程序实现对输入文件的排序编写程序实现对输入文件的排序 现在有多个输入文件,每个文件中的每行内容均为一个整数。要求读取所有文件中的 整数,进行升序排序后,输出到一个新的文件中,输出的数
5、据格式为每行两个整数,第一 个数字为第二个整数的排序位次,第二个整数为原待排列的整数。下面是输入文件和输出 文件的一个样例供参考。 输入文件 1 的样例如下:33371240输入文件 2 的样例如下:41639厦门大学林子雨编著大数据技术原理与应用 教材配套上机练习 MapReduce 编程初级实践主讲教师:林子雨 http:/ 第 3 页5输入文件 3 的样例如下:14525根据输入文件 1、2 和 3 得到的输出文件如下:1 12 43 54 125 166 257 338 379 3910 4011 453.3. 对给定的表格进行信息挖掘对给定的表格进行信息挖掘 下面给出一个 child
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 厦门大学 林子 数据 技术 原理 应用 利用 运用 教材 配套 上机 练习 mapreduce 编程 初级 低级 实践
链接地址:https://www.deliwenku.com/p-1882224.html
限制150内