《大数据技术导论》习题答案.docx
《《大数据技术导论》习题答案.docx》由会员分享,可在线阅读,更多相关《《大数据技术导论》习题答案.docx(10页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、参考答案习题工一单项选择题AAADB CBDDD DBADD D二、填空题1 ,整体2.数据 3. :wq 4,资产5.降低风险三、判断题FFTTF TT四、1.(1)对顾客群体细分(2)模拟实境(3)全范围搜索(4)数据存储空间出租(5)管理客户关系(6)个性化精准推荐2.整体思维 相关思维 容错思维3.推荐系统预测决策数据应用可视化分析报告人机交互数据解释1数据认知数据建模机器学习数据处理数据存储结构化半结构化非结构化数据采集SQLNoSQLNewSQL支撑平台习题2一、单项选择题BBDDC CDBBD ADADD BAA二、填空题1. namenode 2. start-all. sh
2、3.分布式文件存储系统4元数据5. editlog 6.冷备份 7. block/块 8. 39. NameNodeo6黑客利用大数据将攻击很好地隐藏起来,使传统的防护策略难以检测 出来。T7区块链是一种去中心化的分布式账本。T二、简答题1简述数据在保障网络平安方面的作用。大数据在保障网络平安方面也具有重要作用。当前,各种网络攻击频发,攻 击过程越来越复杂,网络攻击手段变得越来越隐蔽,传统的入侵检测、防御等网 络平安产品往往难以奏效,采用大数据技术来检测高级网络攻击成为一种趋势。 当前,利用大数据来加强企业信息平安能力,包括采用大数据技术来实现网络安 全威胁信息分析,采用基于大数据的深度学习方
3、法来替代传统入侵检测方法中的 攻击特征模式提取,采用大数据技术来实现网络平安态势感知,以及对多种复杂 网络攻击的检测、溯源和场景重现。可以说,大数据技术将重塑未来的网络平安 技术和产业开展趋势。2简述大数据平安面临的挑战。(1)大数据成为网络攻击的显著目标(2)大数据加大隐私泄露风险(3)大数据对现有的存储和安防措施提出挑战(4)大数据技术被应用到攻击手段中(5)大数据成为高级持续性威胁的载体3简述大数据平安技术。(1)数据加密技术(2)身份认证技术(3)访问控制技术(4)平安审计技术(5)跟踪与取证技术(6)恢复与销毁技术(7)区块链技术三、判断题FTFFF FFFFT TT4提示:luce
4、ne支持随机读写的,而hdfs只支持随机读。四、简答题L1简述Hadoop安装过程。(1)使用root账户登录(2)查看各节点IP(3)修改hosts文件,配置节点与IP映射(4)设置免密登录(5)关闭防火墙(6)安装JDK(7)解压hadoop安装包(8)配置hadoop系统环境变量,并生效(9)配置hadoop的核心文件hadoop-env. sh, core-site, xml , mapred-site. xml, hdfs-site. xml(10)验证配置是否成功:hadoop version(11) 格式化namenode: hadoop namenode -format(12)
5、查看守护进程:jps(13) 启动hadoop: . /start-all. sh2表达NameNode冷备份过程。(1)时间到达你在配置文件中配置的时间(eg:6h);edits, log已经到达的配置文件中配置的指定大小(eg:64M)。(14) SecondaryNameNode通过周期性(5min)通过getEditLog获取editLog的 大小,当其到达合并的大小时通过RollEditLog进行合并;(15) NameNode停止使用editLog文件,并生成一个新的临时文件edit, new;(16) SecondaryNameNode通过NameNode内建的Http服务器,以
6、get的方法获 取editLog与fsimage文件(get方法中携带fsimage与editLog的路径);(17) SecondaryNameNode将fsimage载入内存并逐一执行editlog中的操作;(7)执结束后,会向NameNode发送Http请求,通知NameNode合并结束, NameNode通过Http get方法获取新的fsimage. chk文件;(8) NameNode更新fsimage文件中的记录检查点执行的时间,并改名为 fsimage 文件;editLog. new文件改名为edit。【3】观察图2.n,写出你得到的结论。(1) MapReduce是分布式离线
7、计算引擎;MapReduce的输入和输出都是HDFS;(2) MapReduce由两个阶段构成:Map和Reduce;Map负责数据划分,是计算的最小单位;(3) Reduce负责统计汇总,个数比Map少;Map阶段至少有一个,Reduce阶段可以没有;(4) Map和Reduce的输入/输出都是键值对,共有四组键值对;Map和Reduce不能直接通信,需要经过suf fie;(5) suffle负责组内、组间归并排序。4观察图2.5,写出你得到的结论。(1) HDFS是分布式文件存储系统;HDFS是主从结构,主节点NameNode,从节点DataNode;(2) NameNode只有一个,在
8、内存中存储元数据;(4)元数据指文件片和存储块之间的映射;(5)DataNode有多个,存放真实的数据,存储的最小单位是块,一个块128M;(6)每个块至少备份3份,且不在同一个节点;(7)主节点有三大功能:监控心跳、负载平衡、复制策略;(8) Secondary NameNode是NameNode的冷备份节点。习题3一、单项选择题BDCDA CD二、填空题1. Extract-Transform-Load 2.快照 3.数据采集 4.数据清洗5. Map 6. kl, netcat, type, cl7.裸数据8.价值三、判断题TFFTT TF四、简答题11简述数据、信息、知识之间关系。(1
9、)分析报告源于数据,而不是知识。知识在数据转化为情报的过程中发挥 着支撑作用。在知识的作用下,数据的原有结构与功能发生了改变,并转化为有 语义的数据,即信息。对信息进行综合就得到有价值的信息。(2)知识的利用具有普遍性,贯穿整个转化过程。从数据变成信息的过程需 要知识,从信息变成分析报告的过程同样也需要知识。【2】观察图3.9,写出你得到的结论。(1) 一个agent就是一个JVM。(2)单agent由Source、Sink和Channel三大组件构成。(3) Sink负责持久化日志或者把事件推向另一个Source。(4)为了保证输送一定成功,在送到目的地之前,会先缓存数据到Channel,
10、待数据真正到达目的地后,删除自己缓存的数据。(5)Source组件是专门用于收集日志的,可以处理各种类型各种格式的日志 数据, 包括Avro、Thrift、Exec、Jms、Spooling directory Netcat Sequence Generator Syslog、HTTP、Legacy 自定义。(6)Source组件把数据收集来以后,临时存放在Channel中。3简述缺失值产生原因。缺失值的产生的原因多种多样,主要分为机械原因和人为原因。机械原因是 由于机械原因导致的数据收集或保存的失败造成的数据缺失,比方数据存储的失 败,存储器损坏,机械故障导致某段时间数据未能收集(对于定时数
11、据采集而言)。 人为原因是由于人的主观失误、历史局限或有意隐瞒造成的数据缺失,比方,在 市场调查中被访人拒绝透露相关问题的答案,或者回答的问题是无效的,数据录 入人员失误漏录了数据。有时把缺失值看作是一种特殊的特征值,此时缺失值是 有意义的。4数据透视表的作用。(1)以多种用户友好的方式查询大量数据。(2)分类汇总和聚合数值数据,按类别和子类别汇总数据,以及创立自定 义计算和公式。(3)展开和折叠数据级别以重点关注结果,以及深入查看感兴趣的区域的 汇总数据的详细信息。(4)可以通过将行移动到列或将列移动到行(也称为“透视),查看源 数据的不同汇总。(5)通过对最有用、最有趣的一组数据执行筛选、
12、排序、分组和条件格式 设置,可以重点关注所需信息。(6)提供简明、有吸引力并且带有批注的联机报表或打印报表。习题4一、单项选择题CDDAC BDDBB DD二、填空题1.日志 2.HBase 3,时间戳4. 15.多 6.HFile三、判断题TFTFT TF四、简答题L1简述NoSQL特点。(1)不需要预定义模式:数据中的每条记录都可能有不同的属性和格式。(2)无共享架构:传统数据库需要统一存放到服务器上。NoSQL往往将数据划 分后存储在各个本地服务器上。(3)弹性可扩展:可以在系统运行的时候,动态增加或者删除节点。不需要 停机维护。(4)分区:相对于将数据存放于同一个节点,NoSQL数据库
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据技术导论 数据 技术 导论 习题 答案
限制150内