书签分享收藏举报版权申诉 / 20

立即下载

当前位置：首页 > 教育专区 > 高考资料 > 2022年Hadoop道面试题及答案解析 .pdf

2022年Hadoop道面试题及答案解析 .pdf

上传人：Che****ry

文档编号：27263868

上传时间：2022-07-23

格式：PDF

页数：20

大小：365.29KB

( 4.5 )

《2022年Hadoop道面试题及答案解析 .pdf》由会员分享，可在线阅读，更多相关《2022年Hadoop道面试题及答案解析 .pdf（20页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、3.6误）3.7Hadoop支持数据的随机读写。（错） .8NameNode负责管理 metadata ，client端每次读写请求，它都会从磁盘中3.8读取或则会写入metadata 信息并反馈client 端。（错误） .8NameNode本地磁盘保存了Block 的位置信息。（个人认为正确，欢迎提出其它意见）.93.93.103.11DataNode通过长连接与NameNode保持通信。（有分歧） .9Hadoop自身具有严格的权限管理和安全措施保障集群正常运行。（错误）93.123.133.14Slave 节点要存储数据，所以它的磁盘越大越好。（错误） .9hadoop dfsadm

2、in report 命令用于检测HDFS损坏块。（错误） . 9Hadoop默认调度器策略为FIFO （正确） .9100 道常见 Hadoop面试题及答案解析目录1单选题 .51.11.21.31.41.51.61.7下面哪个程序负责HDFS数据存储。.5HDfS 中的block 默认保存几份？.5下列哪个程序通常与NameNode在一个节点启动？.5Hadoop作者.6HDFS默认 Block Size .6下列哪项通常是集群的最主要瓶颈：.6关于 SecondaryNameNode哪项是正确的？.623多选题 .72.12.22.32.42.5下列哪项可以作为集群的管理？.7配置机架感知

3、的下面哪项正确：.7Client端上传文件的时候下列哪项正确？.7下列哪个是Hadoop运行的模式：.7Cloudera 提供哪几种安装CDH 的方法？.7判断题 .83.13.23.3Ganglia不仅可以进行监控，也可以进行告警。（正确） .8Block Size是不可以修改的。（错误）.8Nagios不可以监控Hadoop集群，因为它不提供Hadoop支持。（错误）83.4如果NameNode意外终止， SecondaryNameNode会接替它使集群继续工作。（错误）.83.5Cloudera CDH是需要付费使用的。（错误）.8Hadoop是 Java开发的，所以MapReduce只

4、支持 Java语言编写。（错8名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页，共 20 页 - - - - - - - - - 3.15集群内每个节点都应该配RAID ，这样避免单磁盘损坏，影响整个节点运行。（错误） .93.16因为HDFS 有多个副本，所以NameNode是不存在单点问题的。（错误）93.173.183.19误）3.20每个map 槽就是一个线程。（错误） .9Mapreduce的 input split 就是一个block。（错误） .10NameNo

5、de的 Web UI 端口是50030 ，它通过jetty 启动的Web服务。（错10Hadoop环境变量中的HADOOP_HEAPSIZE用于设置所有Hadoop 守护线程的内存。它默认是200 GB。（错误） .10DataNode首次加入cluster 的时候，如果log中报告不兼容文件版本，那3.21需要 NameNode执行“Hadoopnamenode -format ”操作格式化磁盘。（错误） . 10问答题（一） .1044.1Hadoop集群可以运行的3 个模式？ .10单机（本地）模式中的注意点？.10伪分布模式中的注意点？.10VM 是否可以称为 Pseudo ？ .1

6、0全分布模式又有什么注意点？.10Hadoop是否遵循 UNIX 模式？ .11Hadoop安装在什么目录下？.11Namenode、Jobtracker和tasktracker的端口号是？.11Hadoop的核心配置是什么？.11那当下又该如何配置？.11RAM 的溢出因子是？.11fs.mapr.working.dir只是单一的目录？.11hdfs-site.xml的 3 个主要属性？.11如何退出输入模式？.11当你输入hadoopfsck/造成“connectionrefusedjavaexception”时，系4.24.34.44.54.64.74.84.94.104.114.124

7、.134.144.15统究竟发生了什么？.11我们使用 Ubuntu及Cloudera ，那么我们该去哪里下载Hadoop，或者是默认就与 Ubuntu一起安装？.114.164.174.184.194.204.214.224.234.24“ jps ” 命令的用处？.11如何重启 Namenode？.11Fsck 的全名？ .12如何检查 Namenode是否正常运行？.12mapred.job.tracker命令的作用？.12/etc/init.d命令的作用是？.12如何在浏览器中查找Namenode？ .12如何从 SU 转到Cloudera？ .12名师资料总结 - - -精品资料欢迎

8、下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页，共 20 页 - - - - - - - - - 4.254.264.274.284.294.304.314.324.334.344.354.364.374.384.394.404.414.424.434.444.45启动和关闭命令会用到哪些文件？.12Slaves 由什么组成？.12Masters由什么组成？ .12hadoop-env.sh是用于做什么的？.12Master文件是否提供了多个入口？.12hadoop-env.sh文件当下的位置？.12在 Had

9、oop_PID_DIR中，PID 代表了什么？.12/var/hadoop/pids用于做什么？.12hadoop-metrics.properties文件的作用是？.12Hadoop需求什么样的网络？.13全分布式环境下为什么需求password-lessSSH？ .13这会导致安全问题吗？.13SSH 工作的端口号是？.13SSH 中的注意点还包括？.13为什么 SSH本地主机需要密码？.13如果在 SSH中添加 key ，是否还需要设置密码？.13假如 Namenode中没有数据会怎么样？.13当 JobTracker宕掉时， Namenode会发生什么？.13是客户端还是Namenod

10、e决定输入的分片？.13是否可以自行搭建Hadoop集群？ .13是否可以在Windows上运行 Hadoop ？ .135问答题（二） .135.15.25.35.45.55.65.75.85.9写出以下执行命令.13简述一下 hdfs 的数据压缩算法，工作中用的是那种算法，为什么？. 14三个 datanode ，当有一个datanode 出现错误会怎样？.14hdfs 原理，以及各个模块的职责？.14哪个进程通常与namenode在一个节点启动？并做分析.16hdfs 的体系结构？.16HDFS ，replica如何定位 .17HDFS存储的机制 ? .17hdfs 的 client 端

11、，复制到第三个副本时宕机，hdfs怎么恢复保证下次写第三副本?185.105.115.125.135.145.15block 块信息是先写dataNode 还是先写nameNode?.18Hive 的 join有几种方式，怎么实现join的？ .18hive 内部表和外部表的区别？.19hive 是如何实现分区的？.19hive 支持 not in吗？ .19Hive 有哪些方式保存元数据，各有哪些优缺点。.19名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页，共 20 页 -

12、 - - - - - - - - 5.165.175.185.195.20hive 如何优化 .19hive 能像关系数据库那样，建多个库吗？.19hive 中的压缩格式RCFile 、 TextFile 、 SequenceFile各有什么区别？. 19hive 相对于Oracle来说有那些优点？.20Hive 的 sort by 和 order by 的区别 .20名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页，共 20 页 - - - - - - - - - 1单选题1

13、.1下面哪个程序负责HDFS数据存储。a)NameNodeb)Jobtrackerc)Datanoded)secondaryNameNodee)tasktracker答案C datanode1.2HDfS中的block默认保存几份？a)3 份b)2 份c)1 份d)不确定答案 A 默认 3 分1.3下列哪个程序通常与NameNode在一个节点启动？a)SecondaryNameNodeb)DataNodec)TaskTrackerd)Jobtracker答案 D，此题分析：hadoop的集群是基于master/slave模式， namenode和 jobtracker属于master ，dat

14、anode和tasktracker属于 slave ， master只有一个，而 slave有多个SecondaryNameNode内存需求和NameNode在一个数量级上，所以通常secondaryNameNode（运行在单独的物理机器上）和NameNode运行在不同的机器上。JobTracker和 TaskTrackerJobTracker对应于 NameNodeTaskTracker对应于DataNodeDataNode和 NameNode是针对数据存放来而言的JobTracker和 TaskTracker是对于 MapReduce执行而言的mapreduce中几个主要概

15、念，mapreduce整体上可以分为这么几条执行线索：obclient ，JobTracker与 TaskTracker 。1、JobClient 会在用户端通过 JobClient 类将应用已经配置参数打包成jar 文件存储到 hdfs ，并把路径提交到Jobtracker,然后由JobTracker创建每一个Task （即MapTask和名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页，共 20 页 - - - - - - - - - ReduceTask ）并将它们分发到

16、各个TaskTracker服务中去执行。2、JobTracker是一个 master服务，软件启动之后JobTracker接收 Job，负责调度Job的每一个子任务 task 运行于 TaskTracker上，并监控它们，如果发现有失败的task就重新运行它。一般情况应该把JobTracker部署在单独的机器上。3、TaskTracker是运行在多个节点上的slaver 服务。 TaskTracker主动与 JobTracker通信，接收作业，并负责直接执行每一个任务。TaskTracker都需要运行在HDFS的 DataNode上。1.4Hadoop作者a)MartinFowlerb)Ken

17、tBeckc)Dougcutting答案C Doug cutting1.5HDFS默认BlockSizea)32MBb)64MBc)128MB答案： B(因为版本更换较快，这里答案只供参考)1.6下列哪项通常是集群的最主要瓶颈：a)CPUb)网络c)磁盘IOd)内存答案： C 磁盘该题解析：首先集群的目的是为了节省成本，用廉价的pc机，取代小型机及大型机。小型机和大型机有什么特点？1.cpu处理能力强2.内存够大所以集群的瓶颈不可能是a 和 d3.网络是一种稀缺资源，但是并不是瓶颈。4.由于大数据面临海量数据，读写数据都需要io ，然后还要冗余数据，hadoop一般备3份数据，所以IO就会打折

18、扣。1.7关于SecondaryNameNode哪项是正确的？a)它是 NameNode的热备b)它对内存没有要求名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页，共 20 页 - - - - - - - - - c)它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间d)SecondaryNameNode应与 NameNode部署到一个节点。答案C2多选题2.1下列哪项可以作为集群的管理？a)Puppetb)Pdshc)ClouderaManagerd)Z

19、ookeeper答案： ABD2.2配置机架感知的下面哪项正确：a)如果一个机架出问题，不会影响数据读写b) 写入数据的时候会写到不同机架的DataNode中c)MapReduce会根据机架获取离自己比较近的网络数据答案ABC2.3Client端上传文件的时候下列哪项正确？a)数据经过NameNode传递给 DataNodeb)Client端将文件切分为Block ，依次上传c)Client只上传数据到一台DataNode，然后由 NameNode负责Block 复制工作答案 B，该题分析：Client向 NameNode发起文件写入的请求。NameNode根据文件大小和文件块配置情况，返回给

20、Client它所管理部分DataNode的信息。Client将文件划分为多个Block ，根据 DataNode的地址信息，按顺序写入到每一个DataNode块中。2.4下列哪个是Hadoop运行的模式：a)单机版b) 伪分布式c)分布式答案ABC2.5Cloudera提供哪几种安装CDH的方法？a)Clouderamanagerb)Tarballc)Yumd)Rpm答案： ABCD名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页，共 20 页 - - - - - - - -

21、- 3判断题3.1Ganglia不仅可以进行监控，也可以进行告警。（正确）分析：此题的目的是考Ganglia的了解。严格意义上来讲是正确。ganglia作为一款最常用的 Linux环境中的监控软件，它擅长的的是从节点中按照用户的需求以较低的代价采集数据。但是 ganglia在预警以及发生事件后通知用户上并不擅长。最新的ganglia已经有了部分这方面的功能。但是更擅长做警告的还有Nagios 。Nagios ，就是一款精于预警、通知的软件。通过将Ganglia和Nagios组合起来，把Ganglia 采集的数据作为 Nagios的数据源，然后利用 Nagios来发送预警通知，可以完美的实现一整

22、套监控管理的系统。3.2BlockSize是不可以修改的。（错误）分析：它是可以被修改的Hadoop的基础配置文件是hadoop-default.xml，默认建立一个 Job 的时候会建立Job 的 Config ，Config首先读入 hadoop-default.xml的配置，然后再读入 hadoop-site.xml的配置（这个文件初始的时候配置为空），hadoop-site.xml中主要配置需要覆盖的hadoop-default.xml的系统级配置。3.3Nagios不可以监控Hadoop集群，因为它不提供Hadoop支持。（错误）分析： Nagios是集群监控工具，而且是云计算三大利

23、器之一3.4如果NameNode意外终止， SecondaryNameNode会接替它使集群继续工作。（错误）分析： SecondaryNameNode是帮助恢复，而不是替代，如何恢复，可以查看3.5ClouderaCDH是需要付费使用的。（错误）分析：第一套付费产品是ClouderaEnterpris ，ClouderaEnterprise在美国加州举行的Hadoop大会(HadoopSummit)上公开，以若干私有管理、监控、运作工具加强Hadoop的功能。收费采取合约订购方式，价格随用的Hadoop叢集大小变动。3.6Hadoop是Java开发的，所以MapReduce只支持 Java

24、语言编写。（错误）分析： rhadoop是用 R 语言开发的， MapReduce是一个框架，可以理解是一种思想，可以使用其他语言开发。3.7Hadoop支持数据的随机读写。（错）分析： lucene 是支持随机读写的，而hdfs 只支持随机读。但是HBase 可以来补救。 HBase提供随机读写，来解决Hadoop不能处理的问题。HBase 自底层设计开始即聚焦于各种可伸缩性问题：表可以很“高”，有数十亿个数据行；也可以很“宽”，有数百万个列；水平分区并在上千个普通商用机节点上自动复制。表的模式是物理存储的直接反映，使系统有可能提高高效的数据结构的序列化、存储和检索。3.8NameNode负

25、责管理metadata ，client端每次读写请求，它都会从磁盘中读取或则会写入metadata信息并反馈client端。（错误）此题分析：NameNode不需要从磁盘读取metadata，所有数据都在内存中，硬盘上的只是序列化的结果，只有每次namenode启动的时候才会读取。1）文件写入Client向 NameNode发起文件写入的请求。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页，共 20 页 - - - - - - - - - NameNode根据文件大小和文件块

26、配置情况，返回给Client它所管理部分DataNode的信息。Client将文件划分为多个Block ，根据 DataNode的地址信息，按顺序写入到每一个DataNode块中。2）文件读取Client向 NameNode发起文件读取的请求。3.9NameNode本地磁盘保存了Block的位置信息。（个人认为正确，欢迎提出其它意见）分析： DataNode是文件存储的基本单元，它将Block 存储在本地文件系统中，保存了Block的 Meta-data，同时周期性地将所有存在的Block 信息发送给 NameNode。NameNode返回文件存储的DataNode的信息。Client读取文件

27、信息。3.10DataNode通过长连接与NameNode保持通信。（有分歧）这个有分歧：具体正在找这方面的有利资料。下面提供资料可参考。首先明确一下概念：（1）.长连接Client方与 Server 方先建立通讯连接，连接建立后不断开，然后再进行报文发送和接收。这种方式下由于通讯连接一直存在，此种方式常用于点对点通讯。（2）.短连接Client方与 Server每进行一次报文收发交易时才进行通讯连接，交易完毕后立即断开连接。此种方式常用于一点对多点通讯，比如多个Client连接一个Server.3.11Hadoop自身具有严格的权限管理和安全措施保障集群正常运行。（错误）hadoop只能阻止

28、好人犯错，但是不能阻止坏人干坏事3.12Slave节点要存储数据，所以它的磁盘越大越好。（错误）分析：一旦Slave节点宕机，数据恢复是一个难题3.13hadoopdfsadmin report 命令用于检测HDFS损坏块。（错误）3.14Hadoop默认调度器策略为FIFO （正确）3.15集群内每个节点都应该配RAID ，这样避免单磁盘损坏，影响整个节点运行。（错误）分析：首先明白什么是RAID ，可以参考百科磁盘阵列。这句话错误的地方在于太绝对，具体情况具体分析。题目不是重点，知识才是最重要的。因为hadoop本身就具有冗余能力，所以如果不是很严格不需要都配备RAID 。具体参考第二题

29、。3.16因为HDFS有多个副本，所以NameNode是不存在单点问题的。（错误）3.17每个map槽就是一个线程。（错误）分析：首先我们知道什么是 map槽,map槽-mapslotmapslot只是一个逻辑值( org.apache.hadoop.mapred.TaskTracker.TaskLauncher.numFreeSlots)，而不是对应着一个线程或者进程名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页，共 20 页 - - - - - - - - - 4.1Ha

30、doop集群可以运行的3 个模式？单机（本地）模式伪分布式模式全分布式模式4.2单机（本地）模式中的注意点？在单机模式（ standalone）中不会存在守护进程，所有东西都运行在一个JVM上。这里同样没有DFS，使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序，这也是最少使用的一个模式。4.3伪分布模式中的注意点？伪分布式（ Pseudo ）适用于开发和测试环境，在这个模式中，所有守护进程都在同一台机器上运行。4.4VM 是否可以称为Pseudo ？不是，两个事物，同时Pseudo只针对 Hadoop 。4.5全分布模式又有什么注意点？全分布模式通常被用于生产环境，这

31、里我们使用N 台主机组成一个Hadoop集群，Hadoop守护进程运行在每台主机之上。这里会存在Namenode运行的主机， Datanode运行的主机，以及tasktracker运行的主机。在分布式环境下，主节点和从节点会分开。3.18Mapreduce的 inputsplit就是一个block 。（错误）3.19NameNode的 Web UI 端口是50030 ，它通过jetty启动的Web服务。（错误）3.20Hadoop环境变量中的HADOOP_HEAPSIZE用于设置所有Hadoop守护线程的内存。它默认是200 GB 。（错误）hadoop为各个守护进程（namenode,se

32、condarynamenode,jobtracker,datanode,tasktracker）统一分配的内存在 hadoop-env.sh中设置，参数为 HADOOP_HEAPSIZE ，默认为 1000M 。3.21DataNode首次加入cluster的时候，如果log中报告不兼容文件版本，那需要 NameNode执行“Hadoop namenode-format ” 操作格式化磁盘。（错误）分析：首先明白介绍，什么ClusterIDClusterID添加了一个新的标识符ClusterID用于标识集群中所有的节点。当格式化一个Namenode，需要提供这个标识符或者自动生成。这个ID 可

33、以被用来格式化加入集群的其他Namenode。二次整理有的同学问题的重点不是上面分析内容：内容如下：这个报错是说明DataNode所装的 Hadoop版本和其它节点不一致，应该检查DataNode的 Hadoop版本4问答题（一）名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 10 页，共 20 页 - - - - - - - - - 4.6Hadoop是否遵循 UNIX模式？是的，在 UNIX 用例下， Hadoop还拥有 “conf ” 目录。4.7Hadoop安装在什么目录下？

34、Cloudera和Apache使用相同的目录结构， Hadoop被安装在cd/usr/lib/hadoop-0.20/。4.8Namenode、Jobtracker和 tasktracker的端口号是？Namenode，70 ；Jobtracker，30 ；Tasktracker ，60。4.9Hadoop的核心配置是什么？Hadoop的核心配置通过两个xml文件来完成： 1，hadoop-default.xml；2，hadoop-site.xml。这些文件都使用xml 格式，因此每个xml中都有一些属性，包括名称和值，但是当下这些文件都已不复存在。4.10那当下又该如

35、何配置？Hadoop现在拥有3 个配置文件： 1，core-site.xml；2，hdfs-site.xml；3，mapred-site.xml。这些文件都保存在conf/ 子目录下。4.11RAM的溢出因子是？溢出因子（ Spillfactor）是临时文件中储存文件的大小，也就是Hadoop-temp目录。4.12fs.mapr.working.dir只是单一的目录？fs.mapr.working.dir只是一个目录。4.13hdfs-site.xml的 3 个主要属性？dfs.name.dir决定的是元数据存储的路径以及DFS 的存储方式（磁盘或是远端）dfs.data.dir决定的是数据

36、存储的路径fs.checkpoint.dir用于第二Namenode4.14如何退出输入模式？退出输入的方式有：1，按 ESC；2，键入 :q（如果你没有输入任何当下）或者键入:wq（如果你已经输入当下），并且按下Enter 。4.15当你输入 hadoopfsck/造成“ connectionrefusedjavaexception”时，系统究竟发生了什么？这意味着 Namenode没有运行在你的VM之上。4.16我们使用Ubuntu及 Cloudera ，那么我们该去哪里下载Hadoop ，或者是默认就与 Ubuntu一起安装？这个属于 Hadoop的默认配置，你必须从Cloudera或者

37、 Edureka的dropbox下载，然后在你的系统上运行。当然，你也可以自己配置，但是你需要一个Linuxbox ，Ubuntu或者是 RedHat 。在 Cloudera网站或者是Edureka的 Dropbox中有安装步骤。4.17“ jps ” 命令的用处？这个命令可以检查Namenode、Datanode、TaskTracker 、JobTracker是否正常工作。4.18如何重启 Namenode？点击 stop-all.sh，再点击start-all.sh。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整

38、理 - - - - - - - 第 11 页，共 20 页 - - - - - - - - - 键入sudohdfs（ Enter ）， su-hdfs（ Enter ），/etc/init.d/ha（Enter ），及/etc/init.d/hadoop-0.20-namenodestart（Enter ）。4.19Fsck 的全名？全名是： FileSystemCheck。4.20如何检查 Namenode是否正常运行？如果要检查Namenode是否正常工作，使用命令/etc/init.d/hadoop-0.20-namenodestatus或者就是简单的jps 。4.21ma

39、pred.job.tracker命令的作用？可以让你知道哪个节点是JobTracker。4.22/etc/init.d命令的作用是？/etc/init.d说明了守护进程（服务）的位置或状态，其实是LINUX 特性，和Hadoop关系不大。4.23如何在浏览器中查找Namenode？如果你确实需要在浏览器中查找Namenode，你不再需要localhost:8021，Namenode的端口号是 50070 。4.24如何从 SU 转到 Cloudera ？从 SU 转到 Cloudera只需要键入 exit 。4.25启动和关闭命令会用到哪些文件？Slaves 及 Masters 。4.26Sl

40、aves由什么组成？Slaves 由主机的列表组成，每台1 行，用于说明数据节点。4.27Masters由什么组成？Masters同样是主机的列表组成，每台一行，用于说明第二Namenode服务器。4.28hadoop-env.sh是用于做什么的？hadoop-env.sh提供了 Hadoop中.JAVA_HOME的运行环境。4.29Master文件是否提供了多个入口？是的你可以拥有多个Master文件接口。4.30hadoop-env.sh文件当下的位置？hadoop-env.sh现在位于conf。4.31在 Hadoop_PID_DIR中，PID代表了什么？PID 代表了 “ Proces

41、sID”。4.32/var/hadoop/pids用于做什么？/var/hadoop/pids用来存储 PID 。4.33hadoop-metrics.properties文件的作用是？hadoop-metrics.properties被用做 “ Reporting”，控制 Hadoop报告，初始状态是“ nottoreport”。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 12 页，共 20 页 - - - - - - - - - 4.34Hadoop需求什么样的网络？Hado

42、op核心使用 Shell （SSH）来驱动从节点上的服务器进程，并在主节点和从节点之间使用 password-lessSSH连接。4.35全分布式环境下为什么需求password-lessSSH？这主要因为集群中通信过于频繁，JobTracker需要尽可能快的给TaskTracker发布任务。4.36这会导致安全问题吗？完全不用担心。 Hadoop集群是完全隔离的，通常情况下无法从互联网进行操作。与众不同的配置，因此我们完全不需要在意这种级别的安全漏洞，比如说通过互联网侵入等等。Hadoop为机器之间的连接提供了一个相对安全的方式。4.37SSH 工作的端口号是？SSH 工作的端口号是NO.2

43、2 ，当然可以通过它来配置，22是默认的端口号。4.38SSH 中的注意点还包括？SSH 只是个安全的shell 通信，可以把它当做NO.22上的一种协议，只需要配置一个密码就可以安全的访问。4.39为什么 SSH 本地主机需要密码？在 SSH 中使用密码主要是增加安全性，在某些情况下也根本不会设置密码通信。4.40如果在 SSH 中添加 key ，是否还需要设置密码？是的，即使在SSH 中添加了 key ，还是需要设置密码。4.41假如 Namenode中没有数据会怎么样？没有数据的Namenode就不能称之为Namenode，通常情况下， Namenode肯定会有数据。4.42当 JobT

44、racker宕掉时， Namenode会发生什么？当 JobTracker失败时，集群仍然可以正常工作，只要Namenode没问题。4.43是客户端还是Namenode决定输入的分片？这并不是客户端决定的，在配置文件中以及决定分片细则。4.44是否可以自行搭建Hadoop集群？是的，只要对Hadoop环境足够熟悉，你完全可以这么做。4.45是否可以在Windows上运行 Hadoop ？你最好不要这么做，RedHatLinux或者是 Ubuntu才是Hadoop的最佳操作系统。在Hadoop安装中， Windows通常不会被使用，因为会出现各种各样的问题。因此，Windows绝对不是 Hado

45、op的推荐系统。5问答题（二）5.1写出以下执行命令1）如何杀死一个job先 Hadoopjob -list得到jobid杀死 job ： hadoopjob -killjobid2）删除 hdfs 上的 /tmp/xxx目录 hadoopfs -rm-r /tmp/xxx名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 13 页，共 20 页 - - - - - - - - - 3）加入一个新的存储节点和删除一个计算节点，需要刷新集群状态命令加入新节点时：Hadoop-daem

46、on.shstartdatanodeHadoop-daemon.shstarttasktracker删除节点时Hadoopmaradmin-refreshnodesHadoopdfsadmin-refreshnodes5.2简述一下 hdfs的数据压缩算法，工作中用的是那种算法，为什么？1、在 HDFS 之上将数据压缩好后，再存储到HDFS2、在 HDFS内部支持数据压缩，这里又可以分为几种方法：2.1、压缩工作在DataNode上完成，这里又分两种方法：2.1.1 、数据接收完后，再压缩这个方法对HDFS 的改动最小，但效果最低，只需要在block文件 close后，调用压缩工具，将bloc

47、k文件压缩一下，然后再打开block文件时解压一下即可，几行代码就可以搞定2.1.2 、边接收数据边压缩，使用第三方提供的压缩库效率和复杂度折中方法，Hook住系统的write和 read操作，在数据写入磁盘之前，先压缩一下，但write和 read 对外的接口行为不变，比如：原始大小为100KB的数据，压缩后大小为10KB ，当写入 100KB 后，仍对调用者返回100KB ，而不是10KB2.2、压缩工作交给DFSClient做， DataNode只接收和存储这个方法效果最高，压缩分散地推给了HDFS 客户端，但DataNode需要知道什么时候一个 block块接收完成了。推荐最终实现采用

48、2.2 这个方法，该方法需要修改的HDFS代码量也不大，但效果最高。1、Datanode在什么情况下不会备份？单节点的情况下不会备份！2、datanode首次加入 cluster 的时候，如果log报告不兼容文件版本，那需要namenode3、执行格式化操作，这样处理的原因是？这个说法是错误的！添加了一个新的标识符ClusterID用于标识集群中所有的节点。当格式化一个Namenode，需要提供这个标识符或者自动生成。这个ID 可以被用来格式化加入集群的其他Namenode应该检查 hadoop的版本是不是与其他的hadoop版本一致！5.3三个datanode ，当有一个datanode出现

49、错误会怎样？Datanode以数据块作为容错单位通常一个数据块会备份到三个datanode上，如果一个datanode出错，则回去其他备份数据块的datanode上读取，并且会把这个datanode上的数据块再复制一份以达到备份的效果！5.4hdfs原理，以及各个模块的职责？Client ：切分文件；访问或通过命令行管理HDFS ；与 NameNode交互，获取文件位置信息；与 DataNode交互，读取和写入数据。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 14 页，共 20

50、页 - - - - - - - - - NameNode：Master节点，只有一个，管理HDFS的名称空间和数据块映射信息；配置副本策略；处理客户端请求。DataNode：Slave 节点，存储实际的数据；执行数据块的读写；汇报存储信息给NameNode。SecondaryNameNode：辅助 NameNode，分担其工作量；定期合并fsimage 和 fsedits ，推送给 NameNode；紧急情况下，可辅助恢复NameNode，但SecondaryNameNode并非 NameNode的热备Hdfs文件读取1.首先调用 FileSystem对象的 open 方法，其实是一个Dist

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

4.3 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 2022年Hadoop道面试题及答案解析 2022 Hadoop 试题答案解析

得力文库 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：2022年Hadoop道面试题及答案解析 .pdf
链接地址：https://www.deliwenku.com/p-27263868.html