数据挖掘导论ppt课件.ppt
《数据挖掘导论ppt课件.ppt》由会员分享,可在线阅读,更多相关《数据挖掘导论ppt课件.ppt(41页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、第第1章章 绪论绪论2022年8月1日星期一数据挖掘导论2为什么挖掘数据?为什么挖掘数据?(商业商业)n大量数据被收集大量数据被收集,存储在数据库存储在数据库数据数据仓库中仓库中n电商购买行为数据电商购买行为数据n网络日志数据网络日志数据n生产、制造、库存、销售数据生产、制造、库存、销售数据n银行卡银行卡/信用卡交易数据信用卡交易数据n计算机越来越便宜,功能越来越计算机越来越便宜,功能越来越强大,逐渐替代人强大,逐渐替代人n华尔街用自动软件代替股票交易华尔街用自动软件代替股票交易员员n竞争压力越来越大竞争压力越来越大 n以便提供更好的客户服务以便提供更好的客户服务2022年8月1日星期一数据挖
2、掘导论3为什么挖掘数据?为什么挖掘数据?(科学科学)n数据以极快的速度收集和存储数据以极快的速度收集和存储 (GB/hour)n卫星数据卫星数据n基因数据基因数据n天气数据天气数据n传统的技术难以处理这些原始数据传统的技术难以处理这些原始数据n数据挖掘可能帮助科学家数据挖掘可能帮助科学家n对数据进行深入、形象的理解对数据进行深入、形象的理解n对数据进行深入分析,洞悉数据背后隐藏对数据进行深入分析,洞悉数据背后隐藏的东西的东西2022年8月1日星期一数据挖掘导论4为什么要对大数据进行为什么要对大数据进行“挖掘挖掘”n常常有些信息常常有些信息“隐藏隐藏”在数据中在数据中, 并非显而易见的并非显而易
3、见的n人分析需要数周人分析需要数周数月数月, 才能发现有用的信息才能发现有用的信息n许多数据根本未曾分析过许多数据根本未曾分析过0500,0001,000,0001,500,0002,000,0002,500,0003,000,0003,500,0004,000,00019951996199719981999The Data Gap2022年8月1日星期一数据挖掘导论5什么是数据挖掘什么是数据挖掘n许多不同定义许多不同定义n本书定义本书定义n自动或半自动地对对大数据进行勘察或分析,以发现有用的模式自动或半自动地对对大数据进行勘察或分析,以发现有用的模式 nExploration & analy
4、sis, by automatic or semi-automatic means, of large quantities of data in order to discover meaningful patternsnJiawei Han的定义的定义n从大型数据集中提取有趣的从大型数据集中提取有趣的 ( (非平凡的非平凡的, , 蕴涵的蕴涵的, , 先前未知的并先前未知的并且是潜在有用的且是潜在有用的) ) 信息或模式信息或模式n一个类似于一个类似于Jiawei Han的定义的定义nNon-trivial extraction of implicit, previously unknow
5、n and potentially useful information from data2022年8月1日星期一数据挖掘导论6什么什么( (不不) )是数据挖掘是数据挖掘l What is Data Mining?Certain names are more prevalent in certain US locations (OBrien, ORurke, OReilly in Boston area)Group together similar documents returned by search engine according to their context (e.g. Am
6、azon rainforest, A,) l What is not Data Mining? Look up phone number in phone directory (查询) Query a Web search engine for information about “Amazon” (搜索)2022年8月1日星期一数据挖掘导论7数据挖掘与数据挖掘与KDDn数据挖掘与知识发现数据挖掘与知识发现 n数据挖掘是数据库中知识发现(数据挖掘是数据库中知识发现(knowledge discovery in database, KDD)不可缺少的一部分)不可缺少的一部分nKDD是将未加工的数
7、据转换为有用信息的整个过程是将未加工的数据转换为有用信息的整个过程 2022年8月1日星期一数据挖掘导论8引发数据挖掘的挑战引发数据挖掘的挑战1 n可伸缩可伸缩n海量数据集越来越普遍海量数据集越来越普遍n数千兆字节数千兆字节(terabytes)n为处理海量数据,算法必须是可伸缩的(为处理海量数据,算法必须是可伸缩的(scalable)n可伸缩可能还需要新的数据结构,以有效的方式访问个别记录可伸缩可能还需要新的数据结构,以有效的方式访问个别记录n例如,当要处理的数据不能放进内存时,可能需要非内存算法例如,当要处理的数据不能放进内存时,可能需要非内存算法n使用抽样技术或开发并行和分布算法也可以提
8、高可伸缩程度使用抽样技术或开发并行和分布算法也可以提高可伸缩程度 2022年8月1日星期一数据挖掘导论9挑战挑战2n高维性高维性n具有数以百计或数以千计属性的数据集具有数以百计或数以千计属性的数据集 n生物信息学:涉及数千特征的基因表达数据生物信息学:涉及数千特征的基因表达数据 n不同地区温度测量:维度(特征数)的增长正比于测量的次数不同地区温度测量:维度(特征数)的增长正比于测量的次数 n为低维数据开发的数据分析技术不能很好地处理高维数据为低维数据开发的数据分析技术不能很好地处理高维数据 n某些数据分析算法,随着维度(特征数)的增加,计算复杂性迅速某些数据分析算法,随着维度(特征数)的增加,
9、计算复杂性迅速增加增加 2022年8月1日星期一数据挖掘导论10挑战挑战3n异构数据和复杂数据异构数据和复杂数据n传统的数据分析方法只处理包含相同类型属性的数据集传统的数据分析方法只处理包含相同类型属性的数据集n非传统的数据类型的出现需要能够处理异构属性的技术非传统的数据类型的出现需要能够处理异构属性的技术n半结构化文本和超链接的半结构化文本和超链接的Web页面集页面集n具有序列和三维结构的具有序列和三维结构的DNA数据数据n地球表面不同位置上的时间序列测量值(温度、气压等)的气地球表面不同位置上的时间序列测量值(温度、气压等)的气象数据象数据n数据中的联系数据中的联系n如时间和空间的自相关性
10、、图的连通性、半结构化文本和如时间和空间的自相关性、图的连通性、半结构化文本和XML文档中元素之间的父子联系文档中元素之间的父子联系 2022年8月1日星期一数据挖掘导论11挑战挑战4n数据的所有权与分布式存储数据的所有权与分布式存储n数据地理上分布在属于多个机构的资源中数据地理上分布在属于多个机构的资源中n需要开发分布式数据挖掘技术需要开发分布式数据挖掘技术n分布式数据挖掘算法面临的主要挑战包括分布式数据挖掘算法面临的主要挑战包括n(1) 如何降低执行分布式计算所需的通信量?如何降低执行分布式计算所需的通信量?n(2) 如何有效地统一从多个资源得到的数据挖掘结果?如何有效地统一从多个资源得到
11、的数据挖掘结果?n(3) 如何处理数据安全性问题?如何处理数据安全性问题? 2022年8月1日星期一数据挖掘导论12挑战挑战5n非传统的分析非传统的分析n传统的统计学方法:假设传统的统计学方法:假设-检验模式检验模式n提出一种假设,设计实验来收集数据,然后针对假设分析数据提出一种假设,设计实验来收集数据,然后针对假设分析数据n当前的数据分析任务常常需要产生和评估数以千计的假设当前的数据分析任务常常需要产生和评估数以千计的假设n希望自动地产生和评估假设导致了一些数据挖掘技术的开发希望自动地产生和评估假设导致了一些数据挖掘技术的开发n数据挖掘所分析的数据集通常不是精心设计的实验的结果数据挖掘所分析
12、的数据集通常不是精心设计的实验的结果n代表数据的时机性样本(代表数据的时机性样本(opportunistic sample)而不是随机样本)而不是随机样本(random sample)n数据集常常涉及非传统的数据类型和数据分布数据集常常涉及非传统的数据类型和数据分布 2022年8月1日星期一数据挖掘导论13数据挖掘的起源数据挖掘的起源 n数据挖掘是多学科交叉领域数据挖掘是多学科交叉领域n利用了来自如下一些领域的思想:利用了来自如下一些领域的思想:n统计学的抽样、估计和假设统计学的抽样、估计和假设检验检验n人工智能、模式识别和机器人工智能、模式识别和机器学习的搜索算法、建模技术学习的搜索算法、建
13、模技术和学习理论和学习理论n数据库系统提供有效的存储、数据库系统提供有效的存储、索引和查询处理支持索引和查询处理支持 n分布式技术也能帮助处理海分布式技术也能帮助处理海量数据量数据n最优化、进化计算、信息论、最优化、进化计算、信息论、信号处理、可视化和信息检信号处理、可视化和信息检索索 Machine Learning/Pattern RecognitionStatistics/AIData MiningDatabase systems2022年8月1日星期一数据挖掘导论14 数据挖掘任务数据挖掘任务 n预测预测vs.描述描述n预测预测(Prediction)n根据其他属性的值,预测特定属性的
14、值根据其他属性的值,预测特定属性的值 n描述描述(Description)n导出概括数据中潜在联系的模式导出概括数据中潜在联系的模式 2022年8月1日星期一数据挖掘导论15数据挖掘任务数据挖掘任务n分类(分类(Classification) Predictiven回归(回归(Regression) Predictiven关联规则发现(关联规则发现(Association Rule Discovery) Descriptiven序列模式发现(序列模式发现(Sequential Pattern Discovery) Descriptiven聚类(聚类(Clustering) Descriptiv
15、en异常异常/偏差检测(偏差检测(Anomaly/Deviation Detection) Predictive2022年8月1日星期一数据挖掘导论16分类分类: :定义定义n给定一批记录给定一批记录-训练集训练集 (training set )nEach record contains a set of attributes, one of the attributes is the class label (类标号类标号) .n任务任务: 建立一个模型建立一个模型(model )n类标号属性是其他属性值的函数类标号属性是其他属性值的函数n目标目标: previously unseen re
16、cords should be assigned a class as accurately as possible.nA test set (检验集检验集) is used to determine the accuracy of the model. nUsually, the given data set is divided into training and test sets, with training set used to build the model and test set used to validate it2022年8月1日星期一数据挖掘导论17分类分类: :例子
17、例子TidRefundMaritalStatusTaxableIncomeCheat1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90KYes10categoricalcategoricalcontinuousclassRefundMaritalStatusTaxableIncomeCheatNoSingle75K?YesMarried5
18、0K?NoMarried150K?YesDivorced90K?NoSingle40K?NoMarried80K?10TestSetTraining SetModelLearn Classifier2022年8月1日星期一数据挖掘导论18分类分类: :应用应用1 1nDirect MarketingnGoal: nReduce cost of mailing by targeting a set of consumers likely to buy a new cell-phone product.nApproach:nUse the data for a similar product in
19、troduced before. nWe know which customers decided to buy and which decided otherwise. This buy, dont buy decision forms the class attribute.nCollect various demographic, lifestyle, and company-interaction related information about all such customers.nType of business, where they stay, how much they
20、earn, etc.nUse this information as input attributes to learn a classifier model.2022年8月1日星期一数据挖掘导论19分类分类: :应用应用2 2nFraud DetectionnGoal: nPredict fraudulent cases in credit card transactions.nApproach:nUse credit card transactions and the information on its account-holder as attributes.nWhen does a
21、customer buy, what does he buy, how often he pays on time, etcnLabel past transactions as fraud or fair transactions. This forms the class attribute.nLearn a model for the class of the transactions.nUse this model to detect fraud by observing credit card transactions on an account.2022年8月1日星期一数据挖掘导论
22、20分类分类: :应用应用3 3nSky Survey CatalogingnGoal: To predict class (star or galaxy) of sky objects, especially visually faint ones, based on the telescopic survey images (from Palomar Observatory).n3000 images with 23,040 x 23,040 pixels per image.nApproach:nSegment the image. nMeasure image attributes (
23、features) - 40 of them per object.nModel the class based on these features.nSuccess Story: Could find 16 new high red-shift quasars, some of the farthest objects that are difficult to find!2022年8月1日星期一数据挖掘导论21分类分类: :应用应用3 3Attributes: Image features, Characteristics of light waves received, etc.Earl
24、yIntermediateLateData Size: 72 million stars, 20 million galaxies Object Catalog: 9 GB Image Database: 150 GB Class: Stages of FormationCourtesy: http:/aps.umn.edu2022年8月1日星期一数据挖掘导论22回归回归n回归回归(regression)nPredict a value of a given continuous valued variable based on the values of other variables, a
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 导论 ppt 课件
限制150内