hadoop常见笔试题答案.doc
《hadoop常见笔试题答案.doc》由会员分享,可在线阅读,更多相关《hadoop常见笔试题答案.doc(7页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、如有侵权,请联系网站删除,仅供学习与交流hadoop常见笔试题答案【精品文档】第 7 页Hadoop测试题一填空题,1分(41空),2分(42空)共125分1. (每空1分) datanode 负责HDFS数据存储。2. (每空1分)HDFS中的block默认保存 3 份。3. (每空1分) ResourceManager 程序通常与 NameNode 在一个节点启动。4. (每空1分)hadoop运行的模式有: 单机模式 、 伪分布模式 、 完全分布式 。5. (每空1分)Hadoop集群搭建中常用的4个配置文件为: core-site.xml 、 hdfs-site.xml 、 mapre
2、d-site.xml 、 yarn-site.xml 。6. (每空2分)HDFS将要存储的大文件进行 分割 , 分割 后存放在既定的存储块 中,并通过预先设定的优化处理,模式对存储的数据进行预处理,从而解决了大文件储存与计算的需求。7. (每空2分)一个HDFS集群包括两大部分,即 namenode 与 datanode 。一般来说,一个集群中会有一个 namenode 和多个 datanode 共同工作。8. (每空2分) namenode 是集群的主服务器,主要是用于对HDFS中所有的文件及内容数据进行维护,并不断读取记录集群中 datanode 主机情况与工作状态,并通过读取与写入镜像
3、日志文件的方式进行存储。9. (每空2分) datanode 在HDFS集群中担任任务具体执行角色,是集群的工作节点。文件被分成若干个相同大小的数据块,分别存储在若干个 datanode 上, datanode 会定期向集群内 namenode 发送自己的运行状态与存储内容,并根据 namnode 发送的指令进行工作。10. (每空2分) namenode 负责接受客户端发送过来的信息,然后将文件存储位置信息发送给 client ,由 client 直接与 datanode 进行联系,从而进行部分文件的运算与操作。11. (每空1分) block 是HDFS的基本存储单元,默认大小是 128M
4、 。12. (每空1分)HDFS还可以对已经存储的Block进行多副本备份,将每个Block至少复制到 3 个相互独立的硬件上,这样可以快速恢复损坏的数据。 13. (每空2分)当客户端的读取操作发生错误的时候,客户端会向 namenode 报告错误,并请求 namenode 排除错误的 datanode 后,重新根据距离排序,从而获得一个新的 的读取路径。如果所有的 datanode 都报告读取失败,那么整个任务就读取失败。14. (每空2分)对于写出操作过程中出现的问题, FSDataOutputStream 并不会立即关闭。客户端向Namenode报告错误信息,并直接向提供备份的 dat
5、anode 中写入数据。备份 datanode 被升级为首选 datanode ,并在其余2个 datanode 中备份复制数据。NameNode对错误的DataNode进行标记以便后续对其进行处理。15. (每空1分)格式化HDFS系统的命令为: hdfs namenode format 。 16. (每空1分)启动hdfs的shell脚本为: start-dfs.sh 。17. (每空1分)启动yarn的shell脚本为: start-yarn.sh 。18. (每空1分)停止hdfs的shell脚本为: stop-dfs.sh 。19. (每空1分)hadoop创建多级目录(如:/a/b
6、/c)的命令为: hadoop fs mkdir p /a/b/c 。20. (每空1分)hadoop显示根目录命令为: hadoop fs lsr 。21. (每空1分)hadoop包含的四大模块分别是: Hadoop common 、 HDFS 、 Mapreduce 、 yarn 。22. (每空1分)namenode默认的WebUI访问端口号为: 50070 。23. (每空1分)ResourceManager默认的WebUI访问端口号为: 8088 。24. (每空1分)historyServer默认的WebUI访问端口号为: 19888 。25. (每空1分)修改blocksize
7、大小的属性是: dfs.blocksize ,在 hdfs-site.xml 配置文件里。26. (每空1分)HDFS中namenode的RPC端口号为: 8021 ,其作用是: 接收Client连接的RPC端口,用于获取文件系统metadata信息 。27. (每空2分)Mapper类中有 4 个函数。28. (每空1分)默认NameNode周期性从DataNode接收心跳信号的时间间隔为: 3s 。29. (每空1分)hadoop集群默认机架感知是启用的。是否正确: 错误 。30. (每空2分)Hadoop Map/Reduce Shuffle过程: inputsplit-map函数内存缓
8、冲区 Partitionsortcombinespill- map端merge -reduce端copymergereduce函数。31. (每空2分)一个NodeManager能够同时运行最大reduce任务数(默认): 2 。32. (每空2分)默认情况下,一个同时运行了namenode,secondarynamenode和ResourceManager的主节点,所使用的内存容量为 3000 M。33. (每空2分)Hadoop集群中有三种作业调度,分别为 FIFO调度 , 计算能力调度 和 公平调度 。34. (每空1分)HA产生的背景是: 为了解决单NN可能出现宕机导致集群不可用或数据
9、丢失的问题 。35. (每空1分)通过 Zookeeper 管理两个或者多个NameNode,使一个NameNode为 active 状态,并且同步每个NN的元数据,如果 active 状态的NN宕机后马上启用状态为 standby 状态的备用节点。36. (每空1分) job 是客户端需要执行的一个工作单元。37. (每空1分)Hadoop将作业分成若干个 task 来执行,其中包括: maptask 和 reducetask 。38. (每空2分)combiner是通过 Reducer 类来定义的。39. (每空2分)map任务将其输出写入到 本地磁盘 。40. (每空2分)reduce的
10、输出通常存储在 HDFS 中以实现可靠存储。41. (每空2分)HDFS会对写入的所有数据计算 校验和 ,并在读取数据时验证 校验和 。42. (每空2分)序列化用于分布式数据处理的两大领域为: 进程间通信 和 永久存储 。43. (每空2分)hadoop使用自己的序列化格式为: Writable 。二简答题,3分(17题),5分(5题)共75分1. (3分)简要描述如何安装配置apache的一个开源hadoop,只描述即可,无需列出具体步骤,列出具体步骤更好。答:1使用root账户登录2 修改IP3 修改host主机名4 配置SSH免密码登录5 关闭防火墙6 安装JDK7 解压hadoop安
11、装包8 配置hadoop的核心文件 hadoop-env.sh,core-site.xml , mapred-site.xml , hdfs-site.xml9 配置hadoop环境变量10 格式化 hadoop namenode -format11 启动节点 start-all.sh2. (3分)请列出正常的hadoop集群中hadoop都分别需要启动哪些进程,他们的作用分别都是什么,请尽量列的详细一些。答:namenode:管理集群,存储数据的原信息,并管理记录datanode中的文件信息。 secondarynamenode:它是namenode的一个快照,会根据configuratio
12、n中设置的值来 决定多少时间周期性的去cp一下namenode,记录namenode中的metadata及其它数据。Datanode:存储数据ResourceManager:ResourceManager负责集群中所有资源的统一管理和分配,它接收来自各个节点(NodeManager)的资源汇报信息,并把这些信息按照一定的策略分配给各个应用程序(实际上是ApplicationManager)NodeManager:是YARN中每个节点上的代理,它管理集群中单个计算节点 (3分)请写出以下的shell命令(1)杀死一个job(2)删除hdfs上的 /tmp/aaa目录(3)加入一个新的存储节点和删
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- hadoop 常见 笔试 答案
限制150内