书签分享收藏举报版权申诉 / 29

立即下载

当前位置：首页 > 教育专区 > 高考资料 > 2022年大数据知识点梳理.docx

2022年大数据知识点梳理.docx

上传人：Che****ry

文档编号：27251684

上传时间：2022-07-23

格式：DOCX

页数：29

大小：300.90KB

( 4.5 )

《2022年大数据知识点梳理.docx》由会员分享，可在线阅读，更多相关《2022年大数据知识点梳理.docx（29页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、精选学习资料 - - - - - - - - - 读书之法 ,在循序而渐进 ,熟读而精思第一章引论1、什么是数据挖掘？数据挖掘更正确的命名为“ 从数据中挖掘学问”,是数据中的学问发觉（KDD）的同义词；数据挖掘是从大量数据中挖掘好玩模式和学问的过程,数据源包括数据库、数据仓库、 web、其他信息储备库或动态的流入系统的数据；2、学问发觉的过程是什么？学问发觉的过程为：（1）数据清理（排除噪声和删除不一样的数据）（2）数据集成（多种数据源可以组合在一起）（3）数据选择（从数据库中提取与分析任务相关的数据）（4）数据变换（通过汇总或集合操作,把数据变换和统一成适合挖掘的形式）（5）数据挖掘（基本步

2、骤,使用智能方法提取数据模式）（6）模式评估（依据某种爱好度度量 ,识别代表学问的真正好玩的模式）（7）学问表示（使用可视化和学问表示技术,向用户供应挖掘的学问）3、什么类型的数据可以挖掘？数据挖掘可以作用于任何类型的数据,数据的最基本形式是数据库数据、数据仓库数据、事务数据；也可以用于数据流、有序媒体数据和万维网；（1）数据库数据/ 序列数据、图或网络数据、空间数据、文本数据、多由一组内部相关的数据和一组治理和储备数据的软件程序组成；关系数据库是表的汇集,每个表被给予一个唯独的名字,含有一组属性（列或字段） ,并且通常存放大量元组（记录或行）；每个元组代表一个对象,被唯独的关键字标识

3、,并被一组属性值描述；通常为关系数据库构建语义数据模型,照实体- 联系（ ER）数据模型；（2）数据仓库数据仓库是一个从多个数据源收集的信息储备库,存放在一样的模式下,并且通常驻留在单个站点上；数据储备从历史的角度供应信息,并且通常是汇总的；数据仓库用称作数据立方体的多维数据结构建模；每个维对应于模式中的一个或一组属性,每个单元存放某种聚集度量值名师归纳总结 - - - - - - -第 1 页,共 22 页精选学习资料 - - - - - - - - - 读书之法 ,在循序而渐进 ,熟读而精思3 事务数据每个记录代表一个事务 4、什么类型的模式可以挖掘？数据挖掘功能用于指定数据挖掘任

4、务发觉的模式,一般而言,这些任务可以分为两类：描述性和猜测性；描述性挖掘任务刻画目标数据中数据的一般性质,数据上进行归纳,以便进行猜测；（1）类 / 概念描述：特点化与区分猜测性挖掘任务在当前数据可以与类或概念相关联；数据特点化是目标类数据的一般特性或特点的汇总；将数据汇总和特点化的方法：基于统计度量和图的简洁数据汇总、基于数据立方体的 OLAP上卷操作、面对属性的归纳技术；数据特点的输出可以用多种形式供应：饼图、条图、曲线、多位数据立方体、多维表；数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较；（2）挖掘频繁模式、关联和相关性频繁模式包括频繁项集（基础）、

5、频繁子序列和频繁子结构；（3）用于猜测分析的分类与回来分类猜测类别标号,而回来建立连续值函数模型；回来分析是最常用的数值猜测统计学方法, 相关分析可能需要在分类和回来之前进行,的属性；（4）聚类分析聚类分析数据对象,而不考虑类标号；（5）离群点分析大部分数据挖掘都将离群点作为噪声或反常而丢弃,析或反常挖掘 5、支持度与置信度它试图识别与分类和回来过程显著相关然而在一些应用中可以做离群点分支持度表示事物数据库中满意规章的事物所占的百分比,置信度评估所发觉的规章的确信程度；supportXYPXYconfidenceXYPY|X表示规章精确率即被一个规章正确分类的数据所占的百分比,掩盖率类似于

6、 “ 支持度”可以作用的数据所占的百分比；名师归纳总结 - - - - - - -第 2 页,共 22 页精选学习资料 - - - - - - - - - 读书之法 ,在循序而渐进 ,熟读而精思其次章熟悉数据1、数据对象与数据类型数据对象又称样本、实例、数据点或对象,数据对象存放在数据库中,就他们为数据元组,即数据库的行对应于数据对象,列对应于属性；属性：表示数据对象的一个特点（属性、维、特点、变量）标称属性：一些符号或事物的名称（分类的或枚举的）不能把它视为数值属性；,标称属性可以取整数值,但是二元属性：是一种标称属性,只有两种状态,0 或 1,0 通常表示该属性不显现,1 表示显现；二元

7、属性有对称与非对称两种；序数属性：可能的值之间具有意义的序或秩评定,但是相继值之间的差是未知的；中心趋势可以用它的众数和中位数表示,但不能定义均值；数值属性：定量的,用整数或实数值表示,数值属性可以是区间标度的或比率标度的；除了中心趋势度量中位数和众数之外,值属性；仍可以运算均值；比率标度属性是具有固有零点的数离散属性与连续属性：离散属性具有有限或无限可数个值,可以用或不用整数表示 2、数据的基本统计描述（1）中心趋势度量,度量数据分布的中部或中心位置,包括均值、加权平均、中位数、众数和中列数；均值对极端值比较敏锐,为了抵消少数极端值的影响,可以使用截尾均值；对于非对称数据,数据中心最

8、好用中位数；众数是集合中显现最频繁的值,分为单峰、双峰和三峰,对于适度倾斜的单峰数值数据,有体会公式：均值数是数据集的最大和最小值的平均值；- 众数 =3*（均值 - 中位数）；中列（2）数据的散布,最常见度量是极差、四分位数、四分位极差、五数概括和盒图,以及数据的方差和标准差；极差：最大值与最小值之差；分位数：是取自数据分布的每隔肯定间隔上的点,把数据划分成基本上大小相等的连贯集合；识别可以的离群点的通常规章是,选择落在第3 个四分位数之上或第1 个四分位数之下至少1.5*IQR 处的值, IQR 为四分位数极差（ Q3-Q1）；五数概括由中位数、四分位数种流行的分布的直观表示；

9、Q1和 Q3、最小和最大观测值组成；盒图是一名师归纳总结 - - - - - - -第 3 页,共 22 页精选学习资料 - - - - - - - - - 读书之法 ,在循序而渐进 ,熟读而精思离群点最大观测值Q3中位数Q1最小观测值方差和标准差指出数据分布的散布程度；低标准差意味数据观测趋向于特别靠近均值,高标准差表示数据散布在一个大的值域中；（3）可视化注视数据,包括条图、饼图和线图,仍有分位数图、分位数- 分位数图、直方图和散点图；分位数图：是一种观看单变量数据分布得简洁有效方法,显示给定属性的所有数据；分位数 - 分位数图（ q-q 图）,可以观看从一个分布到另一个分布是

10、否有漂移；直方图：概括给定属性X的分布的图形方法；散点图：确定两个数值变量之间看上去是否存在联系、模式或趋势的最有效的图形方法之一；基本数据描述和图形统计显示有助于识别噪声和离群点,对于数据清理特殊有用；3、数据可视化数据可视化旨在通过图形表示清楚有效地表达数据；（1）基于像素的可视化技术像素的颜色反应当维的值,每维创建一个窗口；（2）几何投影可视化技术几何投影技术帮忙用户发觉多维数据集的投影,二维散点图通过不同颜色或外形表述不同的数据点, 三维散点图使用笛卡尔坐标系的三个坐标轴,对于维数超过 4 的数据集, 散点图一般不太有效；平行坐标可以处理更高的维度,个；（3）基于图符的可视化

11、技术绘制 n 个等距离、相互平行的轴,每维一名师归纳总结两种流行的图符技术切尔诺夫脸和人物线条画；切尔诺夫脸：有助于揭示数据中的第 4 页,共 22 页趋势, 脸的要素表示维的值,局限性为在表示多重联系的才能方面,且无法显示详细的数据- - - - - - -精选学习资料 - - - - - - - - - 读书之法 ,在循序而渐进 ,熟读而精思值,此外面部特点因感知的重要性而异；人物线条画：把多维数据映射到5 段人物线条画中,其中每个画都有四肢和一个躯体；（4）层次可视化技术把全部维划分成子集,这些子空间按层次可视化；（5）可视化复杂对象和关系标签云是用户产生的标签的统计量的可视化

12、；标签云的用法有两种,单个术语的标签云多个术语上可视化标签统可以使用标签的大小表示该标签被不同的用户用于该术语的次数,计量时,使用标签的大小表示该标签用于的术语数,即标签的人气；4、度量数据的相像性和相异性（1）数据矩阵与相异性矩阵数据矩阵（对象 -属性结构）,每行对应于一个对象,每列代表一个属性,也称为二模矩阵相异性矩阵（对象 - 对象结构）,存放 n 个对象两两之间的邻近度,只包含一类实体,称为单模矩阵相像性度量可以表示成相异性度量的函数simi,j1di,j（2）标称属性的邻近性度量标称属性对象之间的相异性可以依据不匹配率来运算 M 是匹配的数目（d i,jppmi ,j 取

13、值相同状态的属性数） ,p 是刻画对象的属性总数；（3）二元属性的邻近性度量对象 j 名师归纳总结对象 i 1 1 0 sum 第 5 页,共 22 页q r q+r 0 s t s+t sum q+s r+t p - - - - - - -精选学习资料 - - - - - - - - - 读书之法 ,在循序而渐进 ,熟读而精思基于对称二元属性的相异性称作对称的二元相异性 , i , j 的相异性为di,jqrst非对称的二元属性,两个状rs基于非对称的二元属性的相异性称为非对称的二元相异性,态不是同等重要的, 如取值为 1 被认为比取值为

14、就 i ,j 相异性为d i,jqrrss（4）数值属性的相异性最流行的距离度量是欧几里得距离0 更有意义,负匹配 t 被认为不重要而忽视,曼哈顿距离ddi,jxi1x i1|xj12xi2|xj22|.x ip|xjp2i,j|xj1|xi2xj2.x ipxjp欧几里得距离和曼哈顿距离都满意数学性质：非负性： d（i ,j ） 0：距离是一个非负的值同一性： d（i ,j ）=0：对象到自身的距离为 0 对称性： d（i ,j ）=d（j ,i ）：距离是一个对称函数三角不等式： d（i ,j ） d（i ,k）+d（k,j ）从对象 i 到对象 j 的距离不会大于途径任何其他对象k 的

15、距离i,jh|x i1xj1h |xi2xj2h |.|x ipxjph |闵可夫斯基距离d（5）序数属性的邻近性度量第三章数据预处理1、为什么要进行数据预处理？数据质量涉及很多因素,包括精确性、完整性、一样性、时效性、可信性和可说明性；不正确、不完整和不一样的数据是现实世界的大型数据库和数据仓库共同特点；数据预处理可以改进数据的质量,有助于提高挖掘过程的精确率和效率；2、数据预处理的主要任务数据预处理的主要步骤：数据清理、数据集成、数据归约和数据变换；（1）数据清理通过填写缺失值,光滑噪声数据,识别或删除离群点并解决不一样性来名师归纳总结 “ 清理” 数据；数据归约得到数据集的简化表

16、示,数据归约策略包括维归约和数值归约；维第 6 页,共 22 页- - - - - - -精选学习资料 - - - - - - - - - 读书之法 ,在循序而渐进 ,熟读而精思归约使用数据编码方案,以便得到原始数据的简化或“ 压缩”,包括数据压缩技术（小波变换和主成分分析）、属性子集选择和属性构造,在数值归约中,使用参数模型（回来和对数线性模型）或非参数模型（直方图、聚类、抽样或数据集合）缺失值,用较小的表示取代数据；方法适用缺点忽视元组元组有多个属性缺少值忽视元组不能使用该元组剩人工填写缺少数据少余属性值, 这些数据可能有用费时,数据集大缺失值多时不常量填充正常数据适用均值,倾斜数据使适

17、用简洁不行靠中心度量填充用中位数数据不行靠同类样本属性均值或平给定类数据分布倾斜就选择中数据不行靠均值填充位数最流行但数据不行靠可以使用回来、贝叶斯形式、决最可能的值填充策树归纳确定噪声数据：被测量的变量的随机误差或方差；方法分箱考察数据邻近值,进行局部光滑,有箱中位数光滑及箱边界光滑回来函数拟合数据来光滑数据离群点分析通过聚类来检测离群点数据清理的第一步是偏差检测,唯独性规章是指每个值都必需不同于该属性的其他值,连续性规章是说属性的最低和最高值之间没有缺失值,并且全部的值都必需是唯独的,空值规章是指空白、问号、特殊符号或指示空值条件的其他串的使用,以及如何处理这样的值；有大量不同的商业

18、工具可以帮忙我们进行偏差监测：数据清洗工具使用简洁的领域学问,检查并订正数据中的错误；数据审计工具通过分析数据发觉规章和联系,并检测违反这些条件的数据来发觉偏差；数据迁移工具答应简洁的变换；明变换；ETL 工具答应用户通过图形用户界面说名师归纳总结 - - - - - - -第 7 页,共 22 页精选学习资料 - - - - - - - - - 读书之法 ,在循序而渐进 ,熟读而精思（2）数据集成：合并来自多个数据储备的数据,存放在一个一样的数据储备中,如存放在数据仓库中；冗余：一个属性假如能由另一个或另一组属性“ 导出”,就这个属性可能是冗余的；有些冗余可以被相关分析检测,对于标称数据,我

19、们使用卡方检验,对于数值属性, 我们使用相关系数或协方差；标称数据的卡方检验：将两个数据元组用相依表显示；数值数据的相关系数：相关系数越大,相关性越强,可以作为冗余而被删除；数值数据的协方差：（3）数据归约数据归约策略包括维归约、数量归约和数据压缩；维归约削减所考虑的随机变量或属性的个数, 维归约的方法包括小波变换和主成分分析；数量归约用替代的、较小的数据表示形式替换原数据；数据压缩使用变换,以便得到原数据的归约或“ 压缩” 表示,分为有损和无损；小波变换是一种线性信号处理技术,小波变换后的数据可以截短,仅存放一小部分最强的小波系数,就能保留近似的压缩数据,可以用于多维数据,如数据立方体；主成

20、分分析搜寻k 个最能代表数据的n 维正交向量,其中kn,原数据投影到一个小得多的空间,导致维归约；基本过程如下：1对输入数据规范化,使得每个属性都落入相同的区间这些是单位向量,每一个都垂直于2运算 k 个标准正交向量, 作为规范化输入数据的基；其他向量；这些向量称为主成分；输入数据是主成分的线性组合；3对主成分依据 “ 重要性”降序排列,去掉较弱的成分来归约数据；主成分分析能够更好的处理稀疏数据,小波变换更适合高维数据；属性子集选择,通过删除不相关或冗余的属性削减数据量,选择的目标是找出最小属性集；回来和对数线性模型,可以用来近似给定的数据,在线性回来中,对数据建模,使之拟合到一条直线；直方图

21、,属性值划分规章等宽、等频聚类, 把数据元组看做对象,将对象划分为群或簇,用数据的簇代表替换实际数据；抽样,用数据小得多的随机样本表示大型数据集；数据立方体集合名师归纳总结 - - - - - - -第 8 页,共 22 页精选学习资料 - - - - - - - - - 读书之法 ,在循序而渐进 ,熟读而精思3、数据变换与数据离散化数据变换策略包括光滑、属性构造、集合、规范化、离散化、由标称数据产生概念分层第四章数据仓库与联机分析处理1、什么是数据仓库？数据仓库是一种数据库,它与单位的操作数据库分别爱护；是一个面对主题的、集成的、时变的、非易失的数据集合,支持治理者的决策过程；通常只

22、需要两种数据拜访操作：数据的初始扮装入和数据拜访；我们把建立数据仓库看做构建和使用数据仓库的过程,数据仓库的构建需要数据集成、数据清理和数据统一；2、操作数据库系统与数据仓库的区分？联机操作数据库系统的主要任务是执行联机事务和查询处理,这种系统称作联机事务处理系统（ OLTP）,数据仓库系统可以用不同的格式组织和供应应数据,以便满意不同用户的形形色色的需求,这种系统叫做联机分析处理系统（OLAP）OLTP OLAP 用户和系统的面对性面对顾客面对市场用于办事员、客户和信息技术用于学问工人（经理、主管和专业人员的事物和查询处理分析人员）的数据分析数据内容治理当前数据治理历史数据数

23、据琐碎,难以用于决策供应汇总和集合机制, 易于有依据的决策数据库设计实体 - 联系（ ER）数据模型星形或雪花模型视图面对应用的数据库设计面对主题的数据库设计只关注一个企业或部门内部经常跨过数据库模式的多个拜访模式的当前数据版本主要是短的原子事务大部分是只读操作3、为什么需要分别的数据仓库？分别的主要缘由是有助于提高两个系统的性能；1操作数据库为已知的任务和负载设计,数据仓库的查询通常很复杂,在操作数据库上处理 OLAP查询,可能会大大降低操作任务的性能名师归纳总结 - - - - - - -第 9 页,共 22 页精选学习资料 - - - - - - - - - 读书之法 ,在循序而渐进

24、,熟读而精思2操作数据库支持多事务的并发处理,需要并发掌握和复原机制,OLAP查询只需要对汇3总和集合数据记录进行只读拜访,会大大降低OLTP系统的吞吐量两种系统中数据的结构、内容和用法都不相同4、数据仓库的结构？数据仓库是一种多层次体系结构,通常采纳三层体系结构：底层是仓库数据库服务器,使用后端工具和有用程序,由操作数据库或其他外部数据源提取数据,放入底层；中间层是 OLAP服务器,典型实现使用关系OLAP模型或使用多维OLAP模型顶层是前端客户层,包括查询和报告工具、分析工具或数据挖掘工具；5、数据仓库模型？从结构的角度看,数据仓库有三种模型：企业仓库、数据集市和虚拟仓库；企业仓库：供应

25、企业范畴内的数据集成,息供应者,并且是多功能的；通常来自一个或多个操作数据库系统或外部信数据集市：包含企业范畴数据的一个子集,范畴限于选定的主题虚拟仓库：虚拟仓库是操作数据库上视图的集合对于开发数据仓库系统,一种举荐的方法是以递增、进化的方式实现数据仓库,第一在一个合理短的时间内定义一个高层次的企业数据模型,在不同的主题和可能的应用之间,提供企业范畴的、一样的、集成的数据视图；其次,基于相同的企业数据模型,并行的实现独立的数据集市和企业数据仓库,再次, 通过中心服务器集成不同的数据集市,构造分布数据集市,最终构造一个多层数据仓库元数据是关于数据的数据,在数据仓库中, 元数据是定义仓库对象

26、的数据；包括以下内容：数据仓库结构的描述、操作元数据、用于汇总的算法、由操作环境到数据仓库的映射、关于系统性能的数据、商务元数据；6、数据仓库建模数据仓库和 OLAP工具基于多维数据模型,这种模型将数据看做数据立方体形式；（1）数据立方体：答应以多维对数据建模和观看,每个维都可以有一个与之相关联的表（维表） ,n 维数据立方体显示成 n-1 维立方体的序列；（2）多维数据模型的模式：最流行的数据仓库的数据模型是多维数据模型,可以是星形模式、雪花模式或事实星座模式；名师归纳总结星形模式, 最常见的模型范型是星形模式,数据仓库包括一个大的中心表（事实表）,第 10 页,共 22 页- -

27、- - - - -精选学习资料 - - - - - - - - - 读书之法 ,在循序而渐进 ,熟读而精思包含大批数据并且不含冗余,一组小的附属表（维表）,每维一个；雪花模式, 是星形模式的变种, 雪花模式的维表可能是规范化形式,以便削减冗余,这种表易于爱护, 并节约储备空间；由于执行查询需要更多的连接操作,雪花结构可能降低浏览的效率,因此不如星形模式流行；事实星座, 复杂的应用可能需要多个事实表共享维表,实星座；这种模式称为星系模式或事数据仓库收集了关于整个组织的主题信息,因此是企业范畴的,数据仓库多项用星座模式；数据集市是数据仓库的一个部门子集,针对选定的主题,因此是部门范畴的,数据集市多

28、采纳星形或雪花模式（3）维：概念分层的作用, 概念分层定义一个映射序列,更一般的概念将低层概念集映射到较高层、（4）度量的分类和运算,立方体度量是一个数值函数,该函数可以对数据立方体空间的每个点求值,度量依据其所用的集合函数可以分为三类：分布的、代数的和整体的 . 分布的,数据划分成 n 个集合,将函数用于每一个部分,得到 n 个集合值,假如函数用于 n 个集合值得到的结果和将函数用于整个数据集得到的结果是一样的,就该函数可以用分布方式运算；例如 sum（）、count （）；代数的, 一个集合函数假如能够用一个具有 M个参数的代数函数运算,而每个参数都可以用一个分布集合函数求得,就它是代数

29、的；例如avg（） =sum（） /count （）整体的, 一个集合函数假如描述它的子集合所需的储备没有一个常数界,就它是整体的；例如 median （5）典型的 OLAP操作,上卷操作通过延一个维的概念分层向上攀升或者通过维归约在数据立方体上进行集合；下钻是上卷的逆操作；切片和切块, 切片操作在给定的立方体的一个维上进行选择,导致一个子立方体；转轴是一种目视操作,转动数据的视角,供应数据的替代表示；其他 OLAP操作,钻过执行涉及多个事实表的查询,钻透使用关系 SQL机制,钻透到数据立方体的底层,到后端关系表； OLAP系统与统计数据库（6）查询多维数据库的星网查询模型星网模型由从中心点发

30、出的射线组成,其中每一条射线代表一个维的概念分层；7、数据仓库的设计与使用名师归纳总结关于数据仓库的设计,必需考虑四种不同的视图：自顶向下视图、数据源视图、数据仓第 11 页,共 22 页- - - - - - -精选学习资料 - - - - - - - - - 读书之法 ,在循序而渐进 ,熟读而精思库视图和商务查询视图；从软件工程的角度看,数据仓库的设计和构造包含以下步骤：规划、需求讨论、问题分析、仓库设计、数据集成和测试、部署数据仓库；大型软件系统可以用两种方法开发：瀑布式方法和螺旋式方法；瀑布式方法在进行下一步之前,每一步都进行结构的和系统的分析,螺旋式方法实际功能渐增的系统的快速产

31、生,相继发布之间的间隔很短；在很多公司, 数据仓库用作企业治理的方案执行评估“ 闭环”反馈系统的必要部分；有三类数据仓库应用：信息处理、分析处理和数据挖掘；信息处理支持查询和基本的统计分析,并使用交叉表、表、图表或图进行报告；基于查询,可以发觉有用的信息；分析处理支持基本的 OLAP操作,包括切片与切块、下钻、上卷和转轴；由用户选定的数据仓库子集,在多粒度上导出汇总的信息；数据挖掘支持学问发觉,包括找出隐匿的模式和关联,构造分析模型,进行分类和猜测,并使用可视化工具供应挖掘结果；8、OLAP和数据挖掘相同吗？OLAP是数据汇总 / 集合工具,帮忙简化数据分析；数据挖掘自动发觉隐匿在大量数据中

32、的隐含模式和好玩学问；OLAP 工具的目标是简化和支持交互数据分析；数据挖掘工具的目标是尽可能自动处理, 尽管答应用户指导这一过程；数据挖掘包含数据描述和数据建模,OLAP的功能基本上是用户指导的汇总和比较；数据挖掘不限于分析存放在数据仓库中的数据,可以分析比数据仓库供应的汇总数据粒度更细的数据；也可以分析事务的、空间的、文本的和多媒体数据；9、多维数据库OLAM 数据仓库中数据的高质量,围绕数据仓库的信息处理基础设施、多维数据挖掘特殊重要：基于 OLAP的多维数据探究、数据挖掘功能的联机选择10、数据仓库的实现数据仓库系统要支持高校的数据立方体运算技术、存取方法和查询处理技术；（1）数据立

33、方体的有效运算多维数据分析的核心是有效运算很多维集合上的集合,这些集合称为分组,每个分组用一个方体表示,分组的集合形成定义数据立方体的方体的格； compute cube 操作与维灾难Compute cube 操作在操作指定的维的全部子集上运算集合；数据立方体是方体的格；名师归纳总结对于不同的查询,联机分析处理可能需要拜访不同的方体；因此, 提前运算全部的或者第 12 页,共 22 页至少一部分方体是个好想法；预运算的主要挑战是,假如数据立方体中素有的方体都预先计- - - - - - -精选学习资料 - - - - - - - - - 读书之法 ,在循序而渐进 ,熟读而精思算,所需的储备空

34、间可能爆炸,特殊是当立方体包含很多维时；这个问题成为维灾难；假如每个维没有概念分层,n 维数据立方体有2n个方体 ; 部分物化：方体的选择运算给定基本方体,方体的物化有三种选择：不物化、完全物化、部分物化；不物化即不预先运算任何“ 非基本” 方体,这导致回答查询时实时运算昂贵的多维集合,速度特别慢；完全物化即预先运算全部方体,需要海量储备空间；部分物化即有选择的运算整个可能的方体集中一个适当的子集,部分物化是储备空间和响应时间两者之间的折中；冰山立方体是一个数据立方体, 只存放集合值大于某个最小支持度阈值的立方体单元,数据立方体的只有少量维的方体；（2）索引 OLAP数据外壳立方体涉及预运算位

35、图索引, 答应在数据立方体中快速搜寻,假如给定的属性域包含 n 个值, 就位图索引中每项需要 n 个位,假如数据表给定航上该属性值为 v,就在位图索引的对应行,该值的位为 1,该行的其他位均为 0 连接索引,登记来自关系数据库的两个关系的可连接行,连接索引可以跨过多维,形成复合连接索引；（3）OLAP查询的有效处理物化方体和构造 OLAP索引结构的目的是加快数据立方体查询处理的速度,查询处理应第一确定哪些操作应当在可利用的方体上执行,然后确定相关操作应当使用哪些物化的方体；（4）OLAP服务器结构： ROLAP/MOLAP/HOLAP 的比较关系 OLAP（ROLAP）服务器,一种中间服务器,

36、使用关系的或扩充关系的 DBMS存储并治理数据仓库数据,OLAP中间件支持其余部分多维 OLAP（MOLAP）服务器, 通过基于数组的多维储备引擎,支持数据的多维视图；多数都采纳两级储备表示来处理稠密和稀疏数据集：识别较稠密的子立方体并作为数组结构储备,而稀疏子立方体使用压缩技术,提高储备利用率混合 OLAP（HOLAP）服务器,结合ROLAP和 MOLAP技术、特殊的 SQL服务器, 供应高级查询语言和查询处理,在只读环境下, 在星形和雪花形模式下支持 SQL查询；（5）数据泛化：面对属性的归纳名师归纳总结数据泛化通过把相对底层的值用较高层概念替换来汇总数据,或通过削减维数, 在涉及第 1

37、3 页,共 22 页- - - - - - -精选学习资料 - - - - - - - - - 读书之法 ,在循序而渐进 ,熟读而精思较少维数的概念空间汇总数据；概念描述, 概念通常指数据的聚集,概念描述产生数据的特征和比较描述,当被描述的概念涉及对象类时,有时也称概念描述为类描述；数据特点的面对属性的归纳,数据立方体方法基本上是基于数据的物化视图,通常在数据仓库中预先运算,面对属性的归纳基本上是面对查询的、基于泛化的、联机的数据分析处理技术；面对属性归纳的基本思想是：第一使用数据库查询收集任务相关的数据,然后通过考察任务相关数据中每个属性的不同值的个数进行泛化；属性删除基于如下规章：假如

38、出示工作关系的某个属性有大量不同的值,但是在该属性上并没有泛化操作符,或者它的较高层概念用其他属性表示,就应当将该属性从工作关系中删除属性泛化基于以下规章：假如初始工作关系的某个属性有大量不同的值,并且该属性上存在泛化操作符的集合,就应当选择一个泛化操作符,并将它用于该属性；属性泛化掌握有两种技术：属性泛化阈值掌握：对全部的属性设置一个泛化阈值或对每个属性设置一个阈值,假如属性不同值个数大于该属性泛化阈值,就进行进一步的属性删除或属性泛化；广义关系阈值掌握：为广义关系设置一个阈值,假如广义关系中不同元组的个数超过该阈值, 就进一步泛化；这两种技术可以次序使用,泛化每个属性,然后使用关系阈值

39、掌握进一步压缩广义关系；第一使用属性泛化阈值掌握技术第五章数据立方体1、数据立方体运算：基本概念（1）立方体物化基本方体的单元是基本单元,非基本方体的单元是集合单元；集合单元在一个或多个维上集合,其中每个集合维用单元记号中的 * 指示；假设有一个 n 维数据立方体,令 a=（ a1,a2,.,an,measures ）是一个单元, 取自构成数据立方体的一个方体；假如 a1 ,a2,.,an 中恰有 m（mn）个值不是 *,就我们说 a 是 m维单元,假如 m=n,就 a 是基本单元；否就是集合单元；完全预运算的立方体为完全立方体,部分物化的立方体为冰山立方体；一种运算冰山立方体的朴实方法是,

40、第一运算完全立方体,然后剪去不满意冰山条件的单元；另一种有效的方法是直接运算冰山立方体,而不运算完全立方体；引入冰山立方体将减轻运算数据立方体中不重要集合单元的负担；（2）数据立方体运算的一般策略名师归纳总结排序、散列和分组,在立方体运算中,对共享一组相同维值的元组进行集合,需要第 14 页,共 22 页- - - - - - -精选学习资料 - - - - - - - - - 读书之法 ,在循序而渐进 ,熟读而精思利用排序、散列和分组对数据进行拜访和分组,以便有利于集合的运算同时集合和缓存中间结果,从从前运算的较低层集合而不是从基本领实表运算较高层集合,从缓存的中间运算结果同时集合可以削

41、减开销很大的磁盘 IO 操作当存在多个子女方体时,由最小的子女集合；当存在多个子女方体时,由从前的最小子女方体运算父母方体更有效；可以使用先验剪枝方法有效的运算冰山立方体；对于数据立方体,先验性质表述如下：假如给定的单元不满意最小支持度,就该单元的后代也都不满意最小支持度；通常的冰山条件是单元必需满意最小支持度阈值,如最小计数或总和；2、数据立方体的运算方法（ 1）完全立方体运算的多路数组集合多路数组集合方法使用多维数组作为基本的数据结构,运算完全数据立方体；第六章挖掘频繁模式、关联和相关性：基本概念和方法频繁模式是频繁的显现在数据集中的模式,假如一个子结构频繁显现,就称它为（频繁的）

42、结构模式；对于挖掘数据之间的关联、相关性和很多其他好玩的联系,发觉这种频繁模式起着至关重要的作用；此外,它对数据分类、聚类和其他数据挖掘任务也有帮忙；1、基本概念（1）规章的支持度和置信度是规章爱好度的两种度量,分别反映所发觉规章的有用性和确定性；在典型情形下, 关联规章被认为是好玩的,信度阈值；支持度supportAABBPABB置信度confidenceP|A 假如它满意最小支持度阈值和最小置同时满意最小支持度阈值和最小置信度阈值的规章称为强规章,用 0%100%之间的值表示；项的集合称为项集,包含 k 个项的项集称为k 项集；项集的显现频度是包含项集的事物数,简称为项集的频度、支持度计数或计数；假如项集 I 的相对支持度满意预定义的最小支持度阈值,合通常记为 LK；就 I 是频繁项集

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

4.3 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 2022 数据知识点梳理

得力文库 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：2022年大数据知识点梳理.docx
链接地址：https://www.deliwenku.com/p-27251684.html