2022年大数据知识点梳理.docx
《2022年大数据知识点梳理.docx》由会员分享,可在线阅读,更多相关《2022年大数据知识点梳理.docx(29页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、精选学习资料 - - - - - - - - - 读书之法 ,在循序而渐进 ,熟读而精思第一章引论1、什么是数据挖掘?数据挖掘更正确的命名为“ 从数据中挖掘学问”,是数据中的学问发觉(KDD)的同义词;数据挖掘是从大量数据中挖掘好玩模式和学问的过程,数据源包括数据库、数据仓库、 web、其他信息储备库或动态的流入系统的数据;2、学问发觉的过程是什么?学问发觉的过程为:(1)数据清理(排除噪声和删除不一样的数据)(2)数据集成(多种数据源可以组合在一起)(3)数据选择(从数据库中提取与分析任务相关的数据)(4)数据变换(通过汇总或集合操作,把数据变换和统一成适合挖掘的形式)(5)数据挖掘(基本步
2、骤,使用智能方法提取数据模式)(6)模式评估(依据某种爱好度度量 ,识别代表学问的真正好玩的模式)(7)学问表示(使用可视化和学问表示技术,向用户供应挖掘的学问)3、什么类型的数据可以挖掘?数据挖掘可以作用于任何类型的数据,数据的最基本形式是数据库数据、 数据仓库数据、事务数据 ;也可以用于数据流、有序 媒体数据和万维网;(1)数据库数据/ 序列数据、图或网络数据、空间数据、文本数据、多由一组内部相关的数据和一组治理和储备数据的软件程序组成;关系数据库是表的汇集,每个表被给予一个唯独的名字,含有一组属性 (列或字段) ,并且通常存放大量元组(记录或行);每个元组代表一个对象,被唯独的关键字标识
3、,并被一组属性值描述;通常为关系数据库构建语义数据模型,照实体- 联系( ER)数据模型;(2)数据仓库数据仓库是一个从多个数据源收集的信息储备库,存放在一样的模式下,并且通常驻留在单个站点上; 数据储备从历史的角度供应信息,并且通常是汇总的;数据仓库用称作 数据立方体 的多维数据结构建模;每个维对应于模式中的一个或一组属性,每个单元存放某种聚集度量值名师归纳总结 - - - - - - -第 1 页,共 22 页精选学习资料 - - - - - - - - - 读书之法 ,在循序而渐进 ,熟读而精思3 事务数据 每个记录代表一个事务 4、什么类型的模式可以挖掘?数据挖掘功能用于指定数据挖掘任
4、务发觉的模式,一般而言,这些任务可以分为两类:描述性和猜测性; 描述性挖掘任务刻画目标数据中数据的一般性质,数据上进行归纳,以便进行猜测;(1)类 / 概念描述:特点化与区分猜测性挖掘任务在当前数据可以与类或概念相关联;数据特点化是目标类数据的一般特性或特点的汇总;将数据汇总和特点化的方法:基于统计度量和图的简洁数据汇总、基于数据立方体的 OLAP上卷操作、面对属性的归纳技术;数据特点的输出可以用多种形式供应:饼图、条图、曲线、多位数据立方体、 多维表; 数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较;(2)挖掘频繁模式、关联和相关性频繁模式包括频繁项集(基础)、
5、频繁子序列和频繁子结构;(3)用于猜测分析的分类与回来分类猜测类别标号,而回来建立连续值函数模型;回来分析是最常用的数值猜测统计学方法, 相关分析可能需要在分类和回来之前进行,的属性;(4)聚类分析 聚类分析数据对象,而不考虑类标号;(5)离群点分析 大部分数据挖掘都将离群点作为噪声或反常而丢弃,析或反常挖掘 5、支持度与置信度它试图识别与分类和回来过程显著相关然而在一些应用中可以做离群点分支持度表示事物数据库中满意规章的事物所占的百分比,置信度评估所发觉的规章的确信程度;supportXYPXYconfidenceXYPY|X表示规章精确率即被一个规章正确分类的数据所占的百分比,掩盖率类似于
6、 “ 支持度”可以作用的数据所占的百分比;名师归纳总结 - - - - - - -第 2 页,共 22 页精选学习资料 - - - - - - - - - 读书之法 ,在循序而渐进 ,熟读而精思其次章 熟悉数据1、数据对象与数据类型数据对象又称样本、实例、数据点或对象,数据对象存放在数据库中,就他们为数据元组,即数据库的行对应于数据对象,列对应于属性;属性:表示数据对象的一个特点(属性、维、特点、变量)标称属性:一些符号或事物的名称(分类的或枚举的)不能把它视为数值属性;,标称属性可以取整数值,但是二元属性:是一种标称属性,只有两种状态,0 或 1,0 通常表示该属性不显现,1 表示显现;二元
7、属性有对称与非对称两种;序数属性: 可能的值之间具有意义的序或秩评定,但是相继值之间的差是未知的;中心趋势可以用它的众数和中位数表示,但不能定义均值;数值属性:定量的,用整数或实数值表示,数值属性可以是区间标度的或比率标度的;除了中心趋势度量中位数和众数之外,值属性;仍可以运算均值; 比率标度属性是具有固有零点的数离散属性与连续属性:离散属性具有有限或无限可数个值,可以用或不用整数表示 2、数据的基本统计描述(1)中心趋势度量,度量数据分布的中部或中心位置,包括均值 、加权平均、中位数、众数和中列数 ;均值对极端值比较敏锐,为了抵消少数极端值的影响,可以使用截尾均值;对于非对称数据,数据中心最
8、好用中位数;众数是集合中显现最频繁的值,分为单峰、 双峰和三峰,对于适度倾斜的单峰数值数据,有体会公式:均值 数是数据集的最大和最小值的平均值;- 众数 =3*(均值 - 中位数);中列(2)数据的散布,最常见度量是极差、四分位数、四分位极差、五数概括和盒图,以及数据的 方差和标准差 ;极差: 最大值与最小值之差;分位数:是取自数据分布的每隔肯定间隔上的点,把数据划分成基本上大小相等的连贯集合;识别可以的离群点的通常规章是,选择落在第3 个四分位数之上或第1 个四分位数之下至少1.5*IQR 处的值, IQR 为四分位数极差( Q3-Q1);五数概括由中位数、四分位数 种流行的分布的直观表示;
9、Q1和 Q3、最小和最大观测值组成;盒图是一名师归纳总结 - - - - - - -第 3 页,共 22 页精选学习资料 - - - - - - - - - 读书之法 ,在循序而渐进 ,熟读而精思离群点 最大观测值Q3中位数Q1最小观测值方差和标准差指出数据分布的散布程度;低标准差意味数据观测趋向于特别靠近均值,高标准差表示数据散布在一个大的值域中;(3)可视化注视数据,包括条图、饼图和线图,仍有 分位数图、分位数- 分位数图、直 方图和散点图 ;分位数图: 是一种观看单变量数据分布得简洁有效方法,显示给定属性的所 有数据;分位数 - 分位数图( q-q 图),可以观看从一个分布到另一个分布是
10、否有漂移;直方图:概括给定属性X的分布的图形方法;散点图: 确定两个数值变量之间看上去是否存在联系、模式或趋势的最有效的图形方法之一;基本数据描述和图形统计显示有助于识别噪声和离群点,对于数据清理特殊有用;3、数据可视化 数据可视化旨在通过图形表示清楚有效地表达数据;(1)基于像素的可视化技术 像素的颜色反应当维的值,每维创建一个窗口;(2)几何投影可视化技术 几何投影技术帮忙用户发觉多维数据集的投影,二维散点图通过不同颜色或外形表述不 同的数据点, 三维散点图使用笛卡尔坐标系的三个坐标轴,对于维数超过 4 的数据集, 散点图一般不太有效;平行坐标可以处理更高的维度,个;(3)基于图符的可视化
11、技术绘制 n 个等距离、相互平行的轴,每维一名师归纳总结 两种流行的图符技术切尔诺夫脸和人物线条画;切尔诺夫脸: 有助于揭示数据中的第 4 页,共 22 页趋势, 脸的要素表示维的值,局限性为在表示多重联系的才能方面,且无法显示详细的数据- - - - - - -精选学习资料 - - - - - - - - - 读书之法 ,在循序而渐进 ,熟读而精思值,此外面部特点因感知的重要性而异;人物线条画: 把多维数据映射到5 段人物线条画中,其中每个画都有四肢和一个躯体;(4)层次可视化技术 把全部维划分成子集,这些子空间按层次可视化;(5)可视化复杂对象和关系 标签云是用户产生的标签的统计量的可视化
12、;标签云的用法有两种,单个术语的标签云 多个术语上可视化标签统 可以使用标签的大小表示该标签被不同的用户用于该术语的次数,计量时,使用标签的大小表示该标签用于的术语数,即标签的人气;4、度量数据的相像性和相异性(1)数据矩阵与相异性矩阵数据矩阵(对象 -属性结构),每行对应于一个对象,每列代表一个属性,也称为二模矩阵 相异性矩阵 (对象 - 对象结构),存放 n 个对象两两之间的邻近度,只包含一类实体,称 为单模矩阵相像性度量可以表示成相异性度量的函数simi,j1di,j(2)标称属性的邻近性度量 标称属性对象之间的相异性可以依据不匹配率来运算 M 是匹配的数目(d i,jppmi ,j 取
13、值相同状态的属性数) ,p 是刻画对象的属性总数;(3)二元属性的邻近性度量 对象 j 名师归纳总结 对象 i 1 1 0 sum 第 5 页,共 22 页q r q+r 0 s t s+t sum q+s r+t p - - - - - - -精选学习资料 - - - - - - - - - 读书之法 ,在循序而渐进 ,熟读而精思基 于 对 称 二 元 属 性 的 相 异 性 称 作 对 称 的 二 元 相 异 性 , i , j 的 相 异 性 为di,jqrst非对称的二元属性,两个状rs基于非对称的二元属性的相异性称为非对称的二元相异性,态不是同等重要的, 如取值为 1 被认为比取值为
14、就 i ,j 相异性为d i,jqrrss(4)数值属性的相异性 最流行的距离度量是欧几里得距离0 更有意义,负匹配 t 被认为不重要而忽视,曼哈顿距离ddi,jxi1x i1|xj12xi2|xj22|.x ip|xjp2i,j|xj1|xi2xj2.x ipxjp欧几里得距离和曼哈顿距离都满意数学性质:非负性: d(i ,j ) 0:距离是一个非负的值同一性: d(i ,j )=0:对象到自身的距离为 0 对称性: d(i ,j )=d(j ,i ):距离是一个对称函数三角不等式: d(i ,j ) d(i ,k)+d(k,j )从对象 i 到对象 j 的距离不会大于途径任何其他对象k 的
15、距离i,jh|x i1xj1h |xi2xj2h |.|x ipxjph |闵可夫斯基距离d(5)序数属性的邻近性度量第三章 数据预处理1、为什么要进行数据预处理?数据质量涉及很多因素,包括 精确性、完整性、一样性、时效性、可信性和可说明性;不正确、 不完整和不一样的数据是现实世界的大型数据库和数据仓库共同特点;数据预处理可以改进数据的质量,有助于提高挖掘过程的精确率和效率;2、数据预处理的主要任务数据预处理的主要步骤:数据清理、数据集成、数据归约和数据变换;(1)数据清理通过填写缺失值,光滑噪声数据,识别或删除离群点并解决不一样性来名师归纳总结 “ 清理” 数据; 数据归约得到数据集的简化表
16、示,数据归约策略包括维归约和数值归约;维第 6 页,共 22 页- - - - - - -精选学习资料 - - - - - - - - - 读书之法 ,在循序而渐进 ,熟读而精思归约使用数据编码方案,以便得到原始数据的简化或“ 压缩”,包括数据压缩技术(小波变换和主成分分析) 、属性子集选择和属性构造,在数值归约中,使用参数模型(回来和对数线性模型)或非参数模型(直方图、聚类、抽样或数据集合)缺失值,用较小的表示取代数据;方法适用缺点忽视元组元组有多个属性缺少值忽视元组不能使用该元组剩人工填写缺少数据少余属性值, 这些数据可能有用费时,数据集大缺失值多时不常量填充正常数据适用均值,倾斜数据使适
17、用简洁不行靠中心度量填充用中位数数据不行靠同类样本属性均值或平给定类数据分布倾斜就选择中数据不行靠均值填充位数最流行但数据不行靠可以使用回来、贝叶斯形式、决最可能的值填充策树归纳确定噪声数据:被测量的变量的随机误差或方差;方法分箱 考察数据邻近值,进行局部光滑,有箱中位数光滑及箱边界光滑回来 函数拟合数据来光滑数据离群点分析 通过聚类来检测离群点数据清理的第一步是偏差检测,唯独性规章是指每个值都必需不同于该属性的其他值,连续性规章是说属性的最低和最高值之间没有缺失值,并且全部的值都必需是唯独的,空值规章是指空白、问号、特殊符号或指示空值条件的其他串的使用,以及如何处理这样的值;有大量不同的商业
18、工具可以帮忙我们进行偏差监测:数据清洗工具使用简洁的领域学问,检查并订正数据中的错误;数据审计工具通过分析数据发觉规章和联系,并检测违反这些条件的数据来发觉偏差;数据迁移工具答应简洁的变换;明变换;ETL 工具答应用户通过图形用户界面说名师归纳总结 - - - - - - -第 7 页,共 22 页精选学习资料 - - - - - - - - - 读书之法 ,在循序而渐进 ,熟读而精思(2)数据集成:合并来自多个数据储备的数据,存放在一个一样的数据储备中,如存放在数据仓库中;冗余:一个属性假如能由另一个或另一组属性“ 导出”,就这个属性可能是冗余的;有些冗余可以被相关分析检测,对于标称数据,我
19、们使用卡方检验,对于数值属性, 我们使用相关系数或协方差;标称数据的卡方检验:将两个数据元组用相依表显示;数值数据的相关系数:相关系数越大,相关性越强,可以作为冗余而被删除;数值数据的协方差:(3)数据归约数据归约策略包括维归约、数量归约和数据压缩;维归约削减所考虑的随机变量或属性的个数, 维归约的方法包括小波变换和主成分分析;数量归约用替代的、较小的数据表示形式替换原数据;数据压缩使用变换,以便得到原数据的归约或“ 压缩” 表示,分为有损和无损;小波变换是一种线性信号处理技术,小波变换后的数据可以截短,仅存放一小部分最强的小波系数,就能保留近似的压缩数据,可以用于多维数据,如数据立方体;主成
20、分分析搜寻k 个最能代表数据的n 维正交向量,其中kn,原数据投影到一个小得多的空间,导致维归约;基本过程如下:1对输入数据规范化,使得每个属性都落入相同的区间这些是单位向量,每一个都垂直于2运算 k 个标准正交向量, 作为规范化输入数据的基;其他向量;这些向量称为主成分;输入数据是主成分的线性组合;3对主成分依据 “ 重要性”降序排列,去掉较弱的成分来归约数据;主成分分析能够更好的处理稀疏数据,小波变换更适合高维数据;属性子集选择,通过删除不相关或冗余的属性削减数据量,选择的目标是找出最小属性集;回来和对数线性模型,可以用来近似给定的数据,在线性回来中,对数据建模,使之拟合到一条直线;直方图
21、,属性值划分规章等宽、等频聚类, 把数据元组看做对象,将对象划分为群或簇,用数据的簇代表替换实际数据;抽样,用数据小得多的随机样本表示大型数据集;数据立方体集合名师归纳总结 - - - - - - -第 8 页,共 22 页精选学习资料 - - - - - - - - - 读书之法 ,在循序而渐进 ,熟读而精思3、数据变换与数据离散化数据变换策略包括光滑、属性构造、集合、规范化、离散化、由标称数据产生概念分层第四章 数据仓库与联机分析处理1、什么是数据仓库?数据仓库是一种数据库,它与单位的操作数据库分别爱护;是一个 面对主题的、 集成的、时变的、非易失的 数据集合,支持治理者的决策过程;通常只
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022 数据 知识点 梳理
限制150内