数据挖掘课件-第一课.ppt
《数据挖掘课件-第一课.ppt》由会员分享,可在线阅读,更多相关《数据挖掘课件-第一课.ppt(52页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、数据仓库与数据挖掘数据仓库与数据挖掘信息学院信息学院 李翠平李翠平Course Outline1.Introduction2.Frequent Patterns3.Classification 4.Cluster Analysis5.Ourlier Detection6.Data Warehouse and OLAP Technology for Data Mining7.Advanced topic in data mining1.Stream data mining 2.Time-series and sequential pattern mining 3.Graph and struct
2、ured pattern mining4.Spatiotemporal and multimedia data mining5.Multi-relational and cross-database data mining6.Social network analysis 7.Text and Web mining 8.Other interesting data mining topics8.Data Mining Applications&Examples(分组报告分组报告)2022/12/112Data Mining:Concepts and Techniques课程要求、成绩评估、参考
3、书课程要求、成绩评估、参考书课程要求:n按时上课和完成作业,积极参与课堂讨论,评估成绩:n平时(50):考勤+课堂报告n期末(50):参考书:nJiawei Han:Data Mining:Concept and Techniques(数据库视角看数据挖掘)nDavid J.Hand等,Principles of Data Mining(统计视角看数据挖掘)n王珊,李翠平等,数据仓库与数据分析原理 2022/12/113Data Mining:Concepts and TechniquesIntroductionnMotivation:Why data mining?nWhat is data
4、 mining?nData Mining:On what kind of data?nData mining functionalitynAre all the patterns interesting?nData Mining FrameworknIntegration of Data Mining and Data WarehousingnMajor data mining conference2022/12/114Data Mining:Concepts and TechniquesNecessity Is the Mother of InventionnData explosion p
5、roblem nAutomated data collection tools and mature database technology lead to tremendous amounts of data accumulated and/or to be analyzed in databases,data warehouses,and other information repositories nWe are drowning in data,but starving for knowledge!nSolution:Data warehousing and data miningnD
6、ata warehousing and on-line analytical processingnMining interesting knowledge(rules,regularities,patterns,constraints)from data in large databases2022/12/115Data Mining:Concepts and TechniquesWhat Is Data Mining?nData mining(knowledge discovery from data)nExtraction of interesting(non-trivial,impli
7、cit,previously unknown and potentially useful)patterns or knowledge from huge amount of datanData mining:a misnomer?nAlternative namesnKnowledge discovery(mining)in databases(KDD),knowledge extraction,data/pattern analysis,data archeology,data dredging,information harvesting,business intelligence,et
8、c.nWatch out:Is everything“data mining”?n(Deductive)query processing.nExpert systems or small ML/statistical programs2022/12/117Data Mining:Concepts and Techniques数据挖掘与数据挖掘与KDD n也可以把数据挖掘作为KDD的一个步骤。nKDD 是一个以知识使用者为中心,人机交互的探索过程,包括了在指定的数据库中用数据挖掘算法提取模型,以及围绕数据挖掘所进行的预处理和结果表达等一系列的步骤。n尽管数据挖掘是整个过程的中心,但它通常只占KD
9、D 过程15%25%的工作量。数据源数据集成数据预处理数据挖掘评估表示模式知识图7.1 将数据挖掘看作KDD的一个步骤目标数据洁净数据2022/12/118Data Mining:Concepts and TechniquesData Mining:On What Kinds of Data?nRelational databasenData warehousenTransactional databasenAdvanced database and advanced applications nObject-relational databasesnTemporal databases an
10、d time-series databases nSpatial databases and spatiotemporal databasesnText databases and multimedia databasenHeterogeneous databases and legacy databasesnData streams nThe World-Wide Web2022/12/119Data Mining:Concepts and Techniques数据挖掘的特点(数据挖掘的特点(1)n第一,数据挖掘的数据源必须是真实的。n数据挖掘所处理的数据通常是已经存在的真实数据(如超市业务
11、数据),而不是为了进行数据分析而专门收集的数据。因此,数据收集本身不属于数据挖掘所关注的焦点,这是数据挖掘区别于大多数统计任务的特征之一。2022/12/1110Data Mining:Concepts and Techniques数据挖掘的特点(数据挖掘的特点(2)n第二,数据挖掘所处理的数据必须是海量的。n如果数据集很小的话,采用单纯的统计分析方法就可以了。但是,当数据集很大时,会面临许多新的问题,诸如,数据的有效存储、快速访问、合理表示等。2022/12/1111Data Mining:Concepts and Techniques数据挖掘的特点(数据挖掘的特点(3)n第三,查询一般是决
12、策制定者(用户)提出的随机查询。n查询要求灵活,往往不能形成精确的查询要求,要靠数据挖掘技术来寻找可能的查询结果。2022/12/1112Data Mining:Concepts and Techniques数据挖掘的特点(数据挖掘的特点(4)n第四,挖掘出来的知识一般是不能预知的,数据挖掘发现的是潜在的、新颖的知识。n这些知识在特定环境下是可以接受、可以理解、可以运用的,但不是放之四海皆准的。2022/12/1113Data Mining:Concepts and TechniquesData Mining FunctionalitiesnConcept description:Charac
13、terization and discriminationnGeneralize,summarize,and contrast data characteristics,e.g.,dry vs.wet regionsnAssociation(correlation and causality)nDiaper Beer 0.5%,75%(Correlation or causality?)nClassification and Prediction nConstruct models(functions)that describe and distinguish classes or conce
14、pts for future predictionnE.g.,classify countries based on climate,or classify cars based on gas mileagenPresentation:decision-tree,classification rule,neural networknPredict some unknown or missing numerical values 2022/12/1114Data Mining:Concepts and TechniquesData Mining Functionalities(2)nCluste
15、r analysisnClass label is unknown:Group data to form new classes,e.g.,cluster houses to find distribution patternsnMaximizing intra-class similarity&minimizing interclass similaritynOutlier analysisnOutlier:a data object that does not comply with the general behavior of the datanNoise or exception?N
16、o!useful in fraud detection,rare events analysisnTrend and evolution analysisnTrend and deviation:regression analysisnSequential pattern mining,periodicity analysisnSimilarity-based analysisnOther pattern-directed or statistical analyses2022/12/1115Data Mining:Concepts and TechniquesAre All the“Disc
17、overed”Patterns Interesting?nData mining may generate thousands of patterns:Not all of them are interestingnSuggested approach:Human-centered,query-based,focused miningnInterestingness measuresnA pattern is interesting if it is easily understood by humans,valid on new or test data with some degree o
18、f certainty,potentially useful,novel,or validates some hypothesis that a user seeks to confirm nObjective vs.subjective interestingness measuresnObjective:based on statistics and structures of patterns,e.g.,support,confidence,etc.nSubjective:based on users belief in the data,e.g.,unexpectedness,nove
19、lty,actionability,etc.2022/12/1116Data Mining:Concepts and TechniquesData Mining:A Generalized FrameworkApplicationsTechniquesPrinciplesnDatabase Technology:nIndexing,Compression,Data StructurenAI/Machine LearningnStatisticsnInformation TheorynTheoretical CS:n Approximate,Random,Online AlgorithmsnMa
20、thematical ProgrammingnComputational Geometry Customer Relationship Management(CRM)Web pages Searches and Analysis Network SecurityGeographical Data AnalysisGenomic Database Association rules discoverySequential Pattern DiscoveryCluster analysis Outlier DetectionClassifier BuildingData Cube/Data War
21、ehouse ConstructionVisualization 2022/12/1117Data Mining:Concepts and Techniques数据挖掘的分类数据挖掘的分类(1)n根据挖掘的数据库类型分类根据挖掘的数据库类型分类n数据库系统本身可以根据不同的标准分类,例如,按照数据模型或处理的数据所涉及的应用类型分类。每一类可能需要不同的数据挖掘技术。例如,根据数据模型分类,可以有关系的、面向对象的、对象-关系的、或数据仓库的数据挖掘。n如果根据所处理的数据的特定类型分类,有空间的、时间序列的、文本的、多媒体、或Web数据等数据挖掘。2022/12/1118Data Minin
22、g:Concepts and Techniques数据挖掘的分类数据挖掘的分类(2)n根据挖掘的知识类型分类根据挖掘的知识类型分类n例如特征分析、关联分析、分类分析、聚类分析、异常点分析、趋势和演化分析、偏差分析、类似性分析等。n此外,数据挖掘也可以根据所挖掘的知识的粒度或抽象级别进行区分,包括泛化知识(在高抽象层),原始层知识(在原始数据层),或多层知识(考虑若干抽象层)。2022/12/1119Data Mining:Concepts and Techniques数据挖掘的分类数据挖掘的分类(3)n根据所用的技术分类根据所用的技术分类n这些技术可以根据用户交互程度(例如,自动系统、交互探查
23、系统、查询驱动系统)n或所用的数据分析方法(例如,面向数据库或数据仓库的技术、机器学习、统计、可视化、模式识别、神经网络等等)描述。n复杂的数据挖掘通常采用多种数据挖掘技术,或采用有效的、集成的技术,以综合若干不同方法的优点。2022/12/1120Data Mining:Concepts and Techniques数据挖掘的分类数据挖掘的分类(4)n根据数据挖掘的应用领域分类根据数据挖掘的应用领域分类n例如,可能有些数据挖掘方法特别适合财政、电讯,有些数据挖掘方法特别适合DNA、股票市场等。n不同的应用有适合该应用不同的数据挖掘数据挖掘方法。而通用的、全面的数据挖掘可能并不适合特定领域的挖
24、掘任务。2022/12/1121Data Mining:Concepts and Techniques数据挖掘算法太多(数据挖掘算法太多(1)n聚类分析:n基于划分的算法n基于层次的算法nK-Means、K-Medoids、K-Modes、K-Prototypes、CLARA、CLARANS、focused CLARANSn基于密度的算法n基于方格的算法n基于模型的算法2022/12/1122Data Mining:Concepts and Techniques数据挖掘算法太多(数据挖掘算法太多(2)n分类分析n决策树算法nID3、C4.5、EC4.5、PC4.5、CHAID、CART、Eli
25、see、SIPINA、QR-MDL等近20种n贝叶斯算法n支持向量机n人工神经网络n2022/12/1123Data Mining:Concepts and Techniques数据挖掘算法的组件化思想数据挖掘算法的组件化思想(1)n与此同时,每年仍有大批新的算法产生。对数据挖掘初学者来说,要搞清这些算法之间的区别和联系,是非常困难,但又是必须的。n数据挖掘算法的组件化思想:许多著名的数据挖掘算法都是由五个“标准组件”构成的,即:n模型或模式结构n数据挖掘任务n评分函数 n搜索和优化方法n数据管理策略 2022/12/1124Data Mining:Concepts and Technique
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 课件 第一
限制150内