数据仓库与-数据挖掘技术预习复习资料.doc
《数据仓库与-数据挖掘技术预习复习资料.doc》由会员分享,可在线阅读,更多相关《数据仓库与-数据挖掘技术预习复习资料.doc(10页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、|数据仓库与数据挖掘技术复习资料一、单项选择题1. 数据挖掘技术包括三个主要的部分 ( C ) A数据、模型、技术 B算法、技术、领域知识 C数据、建模能力、算法与技术 D建模能力、算法与技术、领域知识2.关于基本数据的元数据是指: ( D )A.基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;B.基本元数据包括与企业相关的管理方面的数据和信息;C.基本元数据包括日志文件和简历执行处理的时序调度信息;D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息。3. 关于 OLAP 和 OLTP 的说法,下列不正确的是: ( A)AOLAP 事务量大,但事务内容比较简单且
2、重复率高BOLAP 的最终数据来源与 OLTP 不一样COLTP 面对的是决策人员和高层管理人员DOLTP 以应用为核心,是应用驱动的4将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( C )A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘5下面哪种不属于数据预处理的方法? ( D )A.变量代换 B.离散化 C. 聚集 D. 估计遗漏值 6. 在 ID3 算法中信息增益是指( D ) A.信息的溢出程度 B.信息的增加效益C.熵增加的程度最大 D.熵减少的程度最大7. 以下哪个算法是基于规则的分类器 ( A ) A. C4.5 B. KNN C.
3、 Bayes D. ANN8. 以下哪项关于决策树的说法是错误的( C )A冗余属性不会对决策树的准确率造成不利的影响B子树可能在决策树中重复多次C决策树算法对于噪声的干扰非常敏感D寻找最佳决策树是 NP 完全问题9. 假设收入属性的最小与最大分别是 10000 和 90000,现在想把当前值 30000 映射到区间0,1,若采用最大最小数据规范方法,计算结果是( A )|A. 0.25 B. 0.375 C.0.125 D. 0.5 10. 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是: ( D )A.有放回的简单随机抽样 B.无放回的简单随机抽样C.分层抽样 D.渐进抽样
4、11. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( B)A. 分类 B.聚类 C. 关联分析 D. 隐马尔可夫链12. 设 X=1,2,3是频繁项集,则可由 X 产生( C )个关联规则。A.4 B.5 C.6 D.713.( C )将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。AMIN(单链) BMAX(全链) C组平均 DWard 方法14. 只有非零值才重要的二元属性被称作:( C )A.计数属性 B.离散属性C.非对称的二元属性 D.对称属性15. 在基本 K 均值算法里,当邻近度函数采用( A )的时候
5、,合适的质心是簇中各点的中位数。A.曼哈顿距离 B.平方欧几里德距离 C.余弦距离 D.Bregman 散度16. 下面关于数据粒度的描述不正确的是: ( C )A. 粒度是指数据仓库小数据单元的详细程度和级别B. 数据越详细,粒度就越小,级别也就越高C. 数据综合度越高,粒度也就越大,级别也就越高D. 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量17. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?( B )A.聚类 B.关联规则发现 C.分类 D.自然语言处理18. OLAP 技术的核心是: ( D )A.在线性 B.对用户的快速响应
6、C. 互操作性 D.多维分析19下面哪种不属于数据预处理的方法? ( D )A.变量代换 B.离散化 C. 聚集 D.估计遗漏值 20. 假设 12 个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等深划分时,15 在第几个箱子内? ( B )|A.第一个 B.第二个 C.第三个 D.第四个21. 上题中,等宽划分时(宽度为 50) ,15 又在哪个箱子里? ( A )A.第一个 B.第二个 C.第三个 D.第四个 22. 熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子
7、的熵是: ( B )A.1bit B.2.6bit C.3.2bit D.3.8bit23. 假设属性 income 的最大最小值分别是 12000 元和 98000 元。利用最大最小规范化的方法将属性的值映射到 0 至 1 的范围内。对属性 income 的 73600 元将被转化为:( D )A.0.821 B.1.224 C.1.458 D.0.71624. 假定用于分析的数据包含属性 age。数据元组中 age 的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使
8、用按箱平均值平滑方法对上述数据进行平滑,箱的深度为 3。第二个箱子值为:( A )A. 18.3 B. 22.6 C. 26.8 D.27.925.给定两个对象,分别用元组(22,1,42,10)和(20,0,36,8)表示,则这两个对象之间的曼哈坦距离为:( )A.5 B.11 C.2.92 D.2.2426. 概念分层图是( B )图。A.无向无环 B.有向无环 C.有向有环 D.无向有环27. 假设 A 为事件“产品合格” ,B 为“机器工作正常” ,现给出以下概率:机器工作正常,生产产品合格的概率为 P(A|B)=0.95;机器不正常工作时,生产产品合格的概率为 =0.1;机器正常工作
9、的概率,即 P(B)=0.9。已知生产了一个)|(P不合格品,机器不正常工作的概率,即 是( ) 。)|(APA.0.90 B.0.333 C.0.667 D.0.05二、填空题1数据仓库是面向主题的、 ( 集成的 ) 、 ( 具有特性的 ) 、稳定的数据集合,用以支持经营管理中的决策制定过程。2OLAP 的基本多维分析操作有(聚类 ) 、切片、切块以及( 旋转 )等。3.多维数据集通常采用 ( 星型 )或雪花型架构,以( 事实 )为中心,连接多个( 维表 ) 。4.空缺值数据的处理方法主要有使用默认值、 (属性平均值) 、 (同类样本平均值)|和预测最可能的值等。5平均互信息等于( 信息 )
10、熵减( 条件 )熵,表示不确定性的消除。6.神经网络的学习方式有 3 种:( 监督学习 ) 、 ( 非监督学习 )和再励学习(强化学习) 。7.聚类分析的数据通常可分为区间标度变量、二元变量、 ( 标称变量 ) 、 (比例标度变量) 、序数型以及混合类型等。8数据立方体是数据的多维建模和表示,由维和事实组成。维就是涉及的( 属性 ) 、而事实是一个具体的( 数据) 。9.数据预处理的主要内容(方法)包括( 数据清洗 ) 、 ( 数据变换 ) 、(数据集成)和数据归约等。10.关联规则的经典算法包括( Apriori)算法和(FP_Growth)算法,其中( FP_Growth )算法的效率更高
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 挖掘 技术 预习 复习资料
限制150内