《数据挖掘入门》PPT课件.ppt
《《数据挖掘入门》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《数据挖掘入门》PPT课件.ppt(90页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、数据挖掘入门数据挖掘入门 12/15/202211 1引言2 2KDD与数据挖掘3 3数据挖掘方法4 4数据挖掘的应用和发展趋势5 5数据预处理6 6可视化数据挖掘12/15/20222一、引言一、引言n n什么激发了数据挖掘什么激发了数据挖掘 近年来,数据挖掘引起了信息产业界的极大关注,其近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据可以广泛使用,并且迫切需要将主要原因是存在大量数据可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可这些数据转换成有用的信息和知识。获取的信息和知识可以广泛应用于各种领域,如商务管理、生产控制、市场分以广泛应用于
2、各种领域,如商务管理、生产控制、市场分析、工程设计和科学探索等。析、工程设计和科学探索等。面对海量数据库和大量繁杂信息,如何才能从中提取面对海量数据库和大量繁杂信息,如何才能从中提取有价值的知识,进一步提高信息的利用率,由此引发了一有价值的知识,进一步提高信息的利用率,由此引发了一个新的研究方向:基于数据库的知识发现(个新的研究方向:基于数据库的知识发现(Knowledge Knowledge Discovery in DatabaseDiscovery in Database)及相应的数据挖掘()及相应的数据挖掘(Data MiningData Mining)理论和技术的研究。理论和技术的研
3、究。12/15/20223n n为什么数据挖掘是重要的 数据的丰富带来了对强有力的数据分析工具的需求。快速增长的海量数据收集存放在大型和大量的数据库中,没有强有力的工具,这些数据就变成了“数据坟墓”难得再访问的数据档案。因此数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转换成知识“金块”。12/15/202242.1 KDD定义 人们给KDD下过很多定义,内涵也各不相同,目前公认的定义是由Fayyad等人提出的。所谓基于数据库的知识发现(KDD)是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。二、二、KDD与数据挖掘与数据挖掘12/15/202252
4、.2 KDD过程 KDD是一个人机交互处理过程。该过程需要经历多个步骤,并且很多决策需要由用户提供。从宏观上看,KDD过程主要经由三个部分组成,即数据整理、数据挖掘和结果的解释评估。12/15/20226知识发现(知识发现(KDD)的过程)的过程数据清理筛选数据清理筛选数据数据目标数据目标数据预处理预处理及变换及变换变换后的数据变换后的数据数据挖掘数据挖掘解释解释/评估评估12/15/20227知识发现(知识发现(KDD)的步骤)的步骤1.1.数据准备:了解数据准备:了解KDDKDD应用领域的有关情况。包应用领域的有关情况。包括熟悉相关的知识背景,搞清用户需求。括熟悉相关的知识背景,搞清用户需
5、求。2.2.数据选取:数据选取的目的是确定目标数据,数据选取:数据选取的目的是确定目标数据,根据用户的需要从原始数据库中选取相关数据根据用户的需要从原始数据库中选取相关数据或样本。在此过程中,将利用一些数据库操作或样本。在此过程中,将利用一些数据库操作对数据库进行相关处理。对数据库进行相关处理。3.3.数据预处理:对步骤数据预处理:对步骤2 2中选出的数据进行再处理,中选出的数据进行再处理,检查数据的完整性及一致性,消除噪声及与数检查数据的完整性及一致性,消除噪声及与数据挖掘无关的冗余数据,根据时间序列和已知据挖掘无关的冗余数据,根据时间序列和已知的变化情况,利用统计等方法填充丢失的数据。的变
6、化情况,利用统计等方法填充丢失的数据。12/15/202284.4.数据变换:根据知识发现的任务对经过预处理的数据再处理,主要是通过投影或利用数据库的其它操作减少数据量。5.5.确定KDD目标:根据用户的要求,确定KDD要发现的知识类型。6.6.选择算法:根据步骤5确定的任务,选择合适的知识发现算法,包括选取合适的模型和参数。12/15/202297.7.数据挖掘:这是整个数据挖掘:这是整个KDDKDD过程中很重要的一个过程中很重要的一个步骤。运用前面的选择算法,从数据库中提取步骤。运用前面的选择算法,从数据库中提取用户感兴趣的知识,并以一定的方式表示出来。用户感兴趣的知识,并以一定的方式表示
7、出来。8.8.模式解释:对在数据挖掘步骤中发现的模式模式解释:对在数据挖掘步骤中发现的模式(知识)进行解释。通过机器评估剔除冗余或(知识)进行解释。通过机器评估剔除冗余或无关模式,若模式不满足,再返回到前面某些无关模式,若模式不满足,再返回到前面某些处理步骤中反复提取。处理步骤中反复提取。9.9.知识评价:将发现的知识以用户能了解的方式知识评价:将发现的知识以用户能了解的方式呈现给用户。其中也包括对知识一致性的检查,呈现给用户。其中也包括对知识一致性的检查,以确信本次发现的知识不会与以前发现的知识以确信本次发现的知识不会与以前发现的知识相抵触。相抵触。12/15/202210n n什么是数据挖
8、掘1.1.数据挖掘(从数据中发现知识)数据挖掘(从数据中发现知识)从海量的数据中抽取感兴趣的(有价值的、隐含的、从海量的数据中抽取感兴趣的(有价值的、隐含的、以前没有用但是潜在有用信息的)模式和知识。以前没有用但是潜在有用信息的)模式和知识。2.2.其它可选择的名字其它可选择的名字 数据库中知识挖掘、知识提取、数据数据库中知识挖掘、知识提取、数据/模式分析、数据模式分析、数据考古、数据捕捞、信息获取、事务智能等。考古、数据捕捞、信息获取、事务智能等。3.3.广义观点广义观点 数据挖掘是从存放在数据库、数据仓库中或其它信息数据挖掘是从存放在数据库、数据仓库中或其它信息库中的大量数据中挖掘有趣知识
9、的过程。库中的大量数据中挖掘有趣知识的过程。12/15/202211n n数据挖掘系统的组成数据库、数据仓库或其他信息库:是一个或一数据库、数据仓库或其他信息库:是一个或一组数据库、数据仓库、电子表格或其他类型的组数据库、数据仓库、电子表格或其他类型的信息库。可以在数据上进行数据清理和集成。信息库。可以在数据上进行数据清理和集成。数据库或数据仓库服务器:根据用户的挖掘请数据库或数据仓库服务器:根据用户的挖掘请求,数据库或数据仓库服务器负责提取相关数求,数据库或数据仓库服务器负责提取相关数据。据。知识库:是领域知识,用于指导搜索,或评估知识库:是领域知识,用于指导搜索,或评估结果模式的兴趣度。结
10、果模式的兴趣度。12/15/202212数据挖掘引擎:数据挖掘系统的基本部分,由数据挖掘引擎:数据挖掘系统的基本部分,由一组功能模块组成,用于特征化、关联、分类、一组功能模块组成,用于特征化、关联、分类、聚类分析以及演变和偏差分析。聚类分析以及演变和偏差分析。模式评估模块:使用兴趣度量,并与数据挖掘模式评估模块:使用兴趣度量,并与数据挖掘模块交互,以便将搜索聚焦在有趣的模式上,模块交互,以便将搜索聚焦在有趣的模式上,可能使用兴趣度阈值过滤发现的模式。可能使用兴趣度阈值过滤发现的模式。图形用户界面:该模块在用户和数据挖掘系统图形用户界面:该模块在用户和数据挖掘系统之间通信,允许用户与系统交互,指
11、定数据挖之间通信,允许用户与系统交互,指定数据挖掘查询或任务,提供信息,帮助搜索聚焦,根掘查询或任务,提供信息,帮助搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。据数据挖掘的中间结果进行探索式数据挖掘。12/15/202213数据挖掘系统结构数据挖掘系统结构数据仓库数据仓库数据清理数据清理 数据集成数据集成过滤过滤数据库数据库数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面 知识库12/15/2022143.1 3.1 可以分别按挖掘可以分别按挖掘任务任务、挖掘、挖掘对象对象和挖掘和挖掘方法方法来分来分类。类。1.1.按挖掘任务分类:包括分类或预测知识模型发按挖掘任务分类:包括分类
12、或预测知识模型发现,数据总结,数据聚类,关联规则发现,时现,数据总结,数据聚类,关联规则发现,时序模式发现,依赖关系或依赖模型发现,异常序模式发现,依赖关系或依赖模型发现,异常和趋势发现等。和趋势发现等。2.2.按挖掘对象分类:包括关系数据库,面向对象按挖掘对象分类:包括关系数据库,面向对象数据库,空间数据库,时态数据库,文本数据数据库,空间数据库,时态数据库,文本数据库,多媒体数据库,异构数据库,数据仓库,库,多媒体数据库,异构数据库,数据仓库,演绎数据库和演绎数据库和WebWeb数据库等。数据库等。三、数据挖掘方法三、数据挖掘方法12/15/2022153.3.按挖掘方法分类:包括统计方法
13、,机器学习方法,神经按挖掘方法分类:包括统计方法,机器学习方法,神经网络方法和数据库方法,其中:网络方法和数据库方法,其中:统计方法可分为:回归分析(多元回归、自回归等),统计方法可分为:回归分析(多元回归、自回归等),判别分析(贝叶斯判别、费歇尔判别、非参数判别等),判别分析(贝叶斯判别、费歇尔判别、非参数判别等),聚类分析(系统聚类、动态聚类等),探索性分析(主聚类分析(系统聚类、动态聚类等),探索性分析(主成分分析、相关分析等)等。成分分析、相关分析等)等。机器学习方法可分为:归纳学习方法(决策树、规则归机器学习方法可分为:归纳学习方法(决策树、规则归纳等),基于范例学习,遗传算法等。纳
14、等),基于范例学习,遗传算法等。神经网络方法可以分为:前向神经网络(神经网络方法可以分为:前向神经网络(BPBP算法等),算法等),自组织神经网络(自组织特征映射、竞争学习等)。自组织神经网络(自组织特征映射、竞争学习等)。数据库方法分为:多为数据分析和数据库方法分为:多为数据分析和OLAPOLAP技术,此外还技术,此外还有面向属性的归纳方法。有面向属性的归纳方法。12/15/2022163.2 3.2 数据挖掘方法1.1.粗糙集粗糙集2.2.19821982年波兰数学家年波兰数学家Z.PawlakZ.Pawlak针对针对G.FregeG.Frege的边界线区域思想提出了粗糙集(的边界线区域思
15、想提出了粗糙集(Rough SetRough Set),),他把那些无法确认的个体都归属于边界线区域,他把那些无法确认的个体都归属于边界线区域,而这种边界线区域被定义为上近似集和下近似而这种边界线区域被定义为上近似集和下近似集之差集。集之差集。3.3.粗糙集理论主要特点在于它恰好反映粗糙集理论主要特点在于它恰好反映了人们用粗糙集方法处理不分明问题的常规性,了人们用粗糙集方法处理不分明问题的常规性,即以不完全信息或知识去处理一些不分明现象即以不完全信息或知识去处理一些不分明现象的能力,或依据观察、度量到的某些不精确的的能力,或依据观察、度量到的某些不精确的结果而进行分类数据的能力。结果而进行分类
16、数据的能力。12/15/2022172.2.模糊集3.经典集合理论对应二值逻辑,一个元素要么属于、要么不属于给定集合。因此经典集合不能很好地描述具有模糊性和不确定性的问题。美国加利福尼亚大学的扎德教授于1965年提出了模糊集合论,用隶属程度来描述差异的中间过渡,是一种用精确的数学语言对模糊性进行描述的方法。4.4.12/15/202218 定义:论域定义:论域X=xX=x上的模糊集合上的模糊集合A A由隶属函数由隶属函数 A A(x)(x)来表征。其中来表征。其中 A A(x)(x)在实轴的闭区间在实轴的闭区间0 0,1 1中中取值,取值,A A(x)(x)的大小反映的大小反映x x对于模糊集
17、合对于模糊集合A A的隶属程的隶属程度。度。A A(x)(x)的值接近的值接近1 1,表示,表示x x隶属于隶属于A A的程度很高。的程度很高。A A(x)(x)的值接近的值接近0 0,表示,表示x x隶属于隶属于A A的程度很低。的程度很低。特例,当特例,当 A A的值域取的值域取0 0,1 1闭区间的两个端点,闭区间的两个端点,亦即亦即00,11两个值时,两个值时,A A便退化为一个普通的逻辑便退化为一个普通的逻辑子集。隶属函数也就退化为普通逻辑值。子集。隶属函数也就退化为普通逻辑值。12/15/2022193.3.聚类分析聚类分析4.4.5.5.聚类是对物理的或抽象的对象集合分组的过程。
18、聚类是对物理的或抽象的对象集合分组的过程。聚类生成的组为簇,簇是数据对象的集合。簇内部任意聚类生成的组为簇,簇是数据对象的集合。簇内部任意两个对象之间具有较高的相似度,而属于不同簇的两个两个对象之间具有较高的相似度,而属于不同簇的两个对象间具有较高的相异度。对象间具有较高的相异度。6.6.相异度可以根据描述对象的属性值计算,对象相异度可以根据描述对象的属性值计算,对象间的距离是最常采用的度量指标。在实际应用中,经常间的距离是最常采用的度量指标。在实际应用中,经常将一个簇中的数据对象作为一个整体看待。用聚类生成将一个簇中的数据对象作为一个整体看待。用聚类生成的簇来表达数据集不可避免地会损失一些信
19、息,但却可的簇来表达数据集不可避免地会损失一些信息,但却可以使问题得到必要的简化。以使问题得到必要的简化。7.7.主要的数据挖掘聚类方法有:划分的方法、层主要的数据挖掘聚类方法有:划分的方法、层次的方法、基于密度的方法、基于网格的方法、基于模次的方法、基于密度的方法、基于网格的方法、基于模型的方法型的方法12/15/2022204.4.关联规则关联规则5.5.关联规则反映一个事物与其它事物之间的相互关联规则反映一个事物与其它事物之间的相互依存性和关联性,如果两个事物或者多个事物之间存在依存性和关联性,如果两个事物或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其他事一定的关联关系
20、,那么其中一个事物就能够通过其他事物预测到。物预测到。6.6.人们希望在海量的商业交易记录中发现感兴趣人们希望在海量的商业交易记录中发现感兴趣的数据关联关系,用以帮助商家作出决策。例如:的数据关联关系,用以帮助商家作出决策。例如:7.7.面包面包 2%2%牛奶牛奶 1.5%1.5%(占超市交易总数)(占超市交易总数)8.8.2%2%和和1.5%1.5%表明这两种商品在超市经营中的重要程度,表明这两种商品在超市经营中的重要程度,称为支持度。商家关注高支持度的产品。称为支持度。商家关注高支持度的产品。9.9.面包面包=牛奶牛奶 60%60%10.10.在购买面包的交易中,有在购买面包的交易中,有6
21、0%60%的交易既买了面的交易既买了面包又买了牛奶,成包又买了牛奶,成60%60%为规则为规则“面包面包=牛奶牛奶”的信任的信任度。信任度反映了商品间的关联程度。度。信任度反映了商品间的关联程度。12/15/202221 项目构成的集合称为项集。项集在事物数据库中出项目构成的集合称为项集。项集在事物数据库中出现的次数占总事物的百分比叫做项集的支持度。如果现的次数占总事物的百分比叫做项集的支持度。如果项集的支持度超过用户给定的最小支持度阈值,就称项集的支持度超过用户给定的最小支持度阈值,就称该项集是频繁项集。该项集是频繁项集。关联规则就是支持度和信任度分别满足用户给定阈关联规则就是支持度和信任度
22、分别满足用户给定阈值的规则值的规则。发现关联规则需要经历如下两个步骤:。发现关联规则需要经历如下两个步骤:(1 1)找出所有的频繁项。)找出所有的频繁项。(2 2)由频繁项集生成满足最小信任度阈值的规则。)由频繁项集生成满足最小信任度阈值的规则。12/15/2022221.1.5.5.人工神经网络人工神经网络2.2.人工神经网络是指由简单计算单元组成的广泛人工神经网络是指由简单计算单元组成的广泛并行互联的网络,能够模拟生物神经系统的结构和功能。并行互联的网络,能够模拟生物神经系统的结构和功能。组成神经网络的单个神经元的结构简单,功能有限,但组成神经网络的单个神经元的结构简单,功能有限,但是,由
23、大量神经元构成的网络系统可以实现强大的功能。是,由大量神经元构成的网络系统可以实现强大的功能。3.3.由于现实世界的数据关系相当复杂,非线性问由于现实世界的数据关系相当复杂,非线性问题和噪声数据普遍存在。将人工神经网络应用于数据挖题和噪声数据普遍存在。将人工神经网络应用于数据挖掘,希望借助其非线性处理能力和容噪能力,得到较好掘,希望借助其非线性处理能力和容噪能力,得到较好的数据挖掘结果。的数据挖掘结果。4.4.将人工神经网络应用于数据挖掘的主要障碍将人工神经网络应用于数据挖掘的主要障碍是,通过人工神经网络学习到的知识难于理解;学习时是,通过人工神经网络学习到的知识难于理解;学习时间太长,不适于
24、大型数据集。间太长,不适于大型数据集。12/15/2022231.1.6 6,分类与预测,分类与预测2.2.分类和预测是两种重要的数据分析方法,在商分类和预测是两种重要的数据分析方法,在商业上的应用很多。分类和预测可以用于提取描述重要数业上的应用很多。分类和预测可以用于提取描述重要数据类型或预测未来的数据趋势。据类型或预测未来的数据趋势。3.3.分类的目的是提出一个分类函数或分类模型分类的目的是提出一个分类函数或分类模型(即分类器)通过分类器将数据对象映射到某一个给定(即分类器)通过分类器将数据对象映射到某一个给定的类别中。数据分类可以分为两步进行。第一步建立模的类别中。数据分类可以分为两步进
25、行。第一步建立模型,用于描述给定的数据集合。通过分析由属性描述的型,用于描述给定的数据集合。通过分析由属性描述的数据集合来建立反映数据集合特性的模型。第二步是用数据集合来建立反映数据集合特性的模型。第二步是用模型对数据对象进行分类。模型对数据对象进行分类。4.4.预测的目的是从历史数据记录中自动推导出对预测的目的是从历史数据记录中自动推导出对给定数据的推广描述,从而能够对事先未知的数据进行给定数据的推广描述,从而能够对事先未知的数据进行预测。预测。12/15/202224 分类的方法:分类的方法:决策树:决策树内部节点进行属性值测试,并根据属性值决策树:决策树内部节点进行属性值测试,并根据属性
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据挖掘入门 数据 挖掘 入门 PPT 课件
限制150内