精通Spark集群搭建与测试.docx
《精通Spark集群搭建与测试.docx》由会员分享,可在线阅读,更多相关《精通Spark集群搭建与测试.docx(49页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、精通Spark集群搭建与测试电脑配置最好i5+内存最少8G.安装 VMware Workstation 软件推荐官方下载最新版,下载地址: s:/my.vmware /cn/web/vmware/details?downloadGroup=WKST-1210-WIN&productld=524&rPld=9763 VMware WorkstationFile Edit View VM Tabs Helpd 口口2.运行VMware Workstation,新建3台虚拟机,并安装Ubuntu操作系统Ubuntu 下载土也址: :/ 我用的 ubuntu-14.04.5-desktop-amd64
2、.iso需要配置虚拟机使之能够上网,在这里我们采用网络地址转换即NAT的方式,与宿主机共 享IP上网:注1:可以先装好一台机器,然后通过VMware的克隆功能生成另外两台。注2:安装完系统后,为了能从宿主机与虚拟机互相COPY文件,也为了能使虚拟机全屏 显示,推荐安装VMwareTools,方法如下:a. tar -xzvf VMwareTools-9.6.0-1294478.tar.gzcd vmware-tools-distrib/c.sudo 7vmware-install.pld.然后一路回车即可e.由于版本不同操作可能不同,百度Ubuntu安装Tools即可3.为了简化后续操作中的权
3、限问题,我们在这里配置为root账户登录系统,方法如下:a.终端进入root用户权限模式:命令sudo-sb.命令 gedit /etc/lightdm/lightdm.confc.最后一行添加:greeter-show-manual-login=trueallow-guest=falsehadoop.tmp.dir/usr/local/hadoop/hadoop-2.6.4/tmpA base for other temporary directorieshadoop.native.IibtrueShould native hadoop libraries, if present, be u
4、sed.h.修改9皿11(55呢3(011,以下是最小配置,更详细的信息可以参考官网: :/hadoopapacheorg/docs/stable/hadoopproiectdist/hadoophdfs/hdfsdefa ult.xmlgedit hdfs-site.xml:dfs.replication2dfs.namenode.name.dir/usr/local/hadoop/hadoop-2.6.4/dfs/namedfs.datanode.data.dir/usr/local/hadoop/hadoop-2.6.4/dfs/data注:这里指定的 dfs.namenode.name
5、.dir 与 dfs.datanode.data.dir 假设不存在的话, 后续start-dfs时会报错:i.修改gedit mapre&site.xml,以下是最小配置,更详细的信息可以参考官网: : hadoop. apache. orq/docs/stable/hadoop-proiectdist/hadoop-hdfs/hdf s-default.xml注:MRv1的Hadoop没有使用yam作为资源管理器,其配置如下:gedit mapred-site.xml : (without yarn) mapred.job.trackermaster:9001 *MRv2的hadoop使用
6、yarn作为资源管理器,其配置如下:vim mapred-site.xml : (with yarn)mapreduce.framework.nameyarnj.修改yarnsite.xml,以下是最小配置,更详细的信息可以参考官网: :/hadoodapache.org/docs/stable/hadoop-yarr/hadoop-yanvcommor/yarivd efault, xmlgedit yarn-site.xml:yarn.resourcemanager.hostnamemasteryarn.nodemanager.aux-servicesmapreduce_shuffle注:
7、Yarn是Hadoop推出整个分布式(大数据)集群的资源管理器,负责资源 的管理和分配,基于Yarn我们可以在同一个大数据集群上同时运行多个计算框架,例如 Spark、MapReduce、Stormo12.启动并验证hadoop集群:a. 格式化 hdfs 文件系统:hadoop namenode -format/hdfs namenode -formatrootmaster:/usr/local/hadoop/hadoop-2.6.0/bin# hadoop namenode -format DEPRECATED: Use of this script to execute hdfs com
8、mand is deprecated. Instead use the hdfs command for it.16/03/03 14:38:15 INFO namenode.NameNode: STARTUP_MSG:STARTUP_MSG: Starting NameNodeSTARTUP_MSG:host = master/192.168.85.130STARTUP_MSG:args = -formatSTARTUP_MSG:version = 2.6.Q该命令会启动,格式化,然后关闭namenode。实际上格式化后,在namenode上会生成以下文件:rootmaster:/usr/l
9、ocal/hadoop/hadoop-2.6.0/dfs/name/current# Is fsimage_O0O00O0000000000000 seen_txidfsimage_O0OOOOOOOOO00OOO0OO.md5 VERSIONrootmaster:/usr/local/hadoop/hadoop-2.6.O/dfs/name/current#其中VERSION文件的内容如下:rootmaster:/usr/local/hadoop/hadoop-2.6.0/dfs/name# Is current rootmaster:/usr/local/hadoop/hadoop-2.6
10、.0/dfs/name# cd current/ rootmaster:/usr/local/hadoop/hadoop-2.6.0/dfs/name/current# Is fsimage_00O0000O0O0000O0000 seen_txid fstmage_O000000O00000O00000 . md5 VERSIONnamespaceID=1103891 clusterID=CID-69035837-rootmaster:/usr/local/hadoop/hadoop-2.6.0/dfs/name/current# more VERSION #Thu Mar 03 16:54
11、:31 CST 2016.029a-45a3-b0b3-ld662751eb43cTime=0storageType=NAME NO blockpoolID=BP-996551254-192.168 85.130-1456995271763layoutVersion=-60rootmaster:/usr/local/hadoop/hadoop-2.6.0/dfs/name/current# ,该命令不会在datanode的dfs.datanode.data.dir对应的目录下生成任何文件:rootgworkerl:/usr/local/hadoop/hadoop-2.6.O/dfs/data#
12、 Is rootgworkerl:/usr/local/hadoop/hadoop-2.6.6/dfs/data# |有关该命令的细节请参考官方文档: : hadoop. aDache.org/docs/stable/hadoop-Droject-dist/hadooD-hdfs/HDFSCo mmands.html#namenodeb.启动 hdfs: start-dfs.shrootmaster:/usr/local/hadoop/hadoop-2.6.0/dfs# start-dfs.sh16/03/03 16:57:43 WARN util.NativeCodeLoader: Unab
13、le to load nattve-hadoop libra ry for your platform. using butltin-java classes where applicableStarting namenodes on mastermaster: starting namenode, logging to /usr/local/hadoop/hadoop-26.0/logs/hadoop root-namenode-master.outworkerl: starting datanode, logging to /usr/local/hadoop/hadoop-2.6.0/lo
14、gs/hadoo p-root-datanode-worker1.outworker2: starting datanode, logging to /usr/local/hadoop/hadoop-2.6.0/logs/hadoo p-root-datanode-worker2.outworker3: starting datanode, logging to /usr/local/hadoop/hadoop-2.6.0/logs/hadoo p- root-datanode-worker3.outStarting secondary namenodes mastermaster: star
15、ting secondarynamenode, logging to /usr/local/hadoop/hadoop-2.6.0/10 gs/hadoop-root-secondarynamenode-master.out16/03/03 16:57:58 WARN util.NativeCodeLoader: Unable to load nattve-hadoop libra ry for your platform. using butltin-java classes where applicable rootmaster:/usr/local/hadoop/hadoop-2.6.0
16、/dfs# |使用jps验证HDFS是否启动成功:rootmaster:/usr/local/hadoop/hadoop-2e6.O/bin# jps 3600 NameNode3926 Jps3815 SecondaryNameNode_通过webui检查HDFS是否启动成功 : master:50070 r.r-lh.H v YW a master:50070/dfshealth.html#tab-overviewHadoop Overview Datanodes Snapshot Startup Progress UtilitiesOverview,maste匚900(y (active
17、/LStarted:Thu Mar 03 16:57:44 CST 2016Version:2.6.0, re3496499ecb8d220fba99dc5ed4c99c8f9e33bblCompiled:2014-ll-13T21:10Z by jenkins from (detached from e349649)Cluster ID:CID-69035837-029a-45a3-b0b3-ld662751eb43Block Pool ID:BP-996551254-192.168.85.130-1456995271763Namenode information x6 master:500
18、70/dfshealth.html#tab-overview CI Q SearchDFS Used:72 KBNon DFS Used:18.82 GBDFS Remaining:33.96 GBDFS Used%:0%DFS Remaining%:64.35%Block Pool Used:72 KBBlock Pool Used%:0%DataNodes usages% (Min/Median/Max/stdDev):0.00% / 0.00% / 0.00% / 0.00%Live NodesDead Nodes0 (Decommissioned: 0)3 (Decommissione
19、d: 0)Decommissioning NodesNumber of Under-Replicated BlocksNumber of Blocks Pending Deletion注1:实际上第一次启动hdfs后,在datanode dfs.datanode.data.dir对应的目录下会生成current目录,该目录下的BP文件与namenode上dfs.namenode.name.dir对应的目录下的current子目录的VERSION文件中的 blockpoollD字段的值一致;在该目录下也会生成VERSION文件,该VERSION文 件中的 clusterlD 和 namenode
20、 的 dfs.namenode.name.dir 对应的目录下的 current 子目录的VERSION文件中的clusterlD 一致: O root0)worker3: /usr/local/hadoop/hadoop-2.6.0/dFs/data/currentrootworker3:/usr/local/hadoop/hadoop-2.6e0/dfs/data# Iscurrent in_uselockrootworker3:/usr/local/hadoop/hadoop-2.6.0/dfs/data# cd current/rootworkefftjsr/*local/hadoop
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 精通 Spark 集群 搭建 测试
限制150内