《数据挖掘技术概述及前景展望课件.ppt》由会员分享,可在线阅读,更多相关《数据挖掘技术概述及前景展望课件.ppt(72页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、数据挖掘技术概述及前景展望Data Mining and Prospect商业智能研讨沙龙上海站ITPUBChinaUnixIXPUB主办数据挖掘由来l 产生背景Q随着数据库技术的飞速发展,快速增长的海量数据收集、存放在大量数据储存库中Q理解他们已经远远超出人的能力Q数据坟墓难得再访问的数据档案Q数据爆炸,但知识缺乏Q人们被数据淹没,却饥饿于知识 商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办数据挖掘的原由可怕的数据数据存储成本越来越低,数据库越来越大数据挖掘有价值的知识 商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办数据挖掘技术的由来“要学
2、会抛弃信息”“如何才能不被信息淹没,而是从中及时发现有用的知识、提高信息利用率?”“需要是发明之母”数据挖掘:海量数据的自动分析技术数据开采和知识发现(DMKD)技术应运而生 Gartner Group的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关键技术”之首 网络之后的下一个技术热点 商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办数据挖掘技术的由来 数据挖掘技术的由来从商业数据到商业信息的进化 进化阶段 进化阶段 商业问题 商业问题 支持技术 支持技术 产品厂家 产品厂家 产品特点 产品特点 数据搜集 数据搜集(60(60年代
3、 年代)“过去五年中我 过去五年中我的总收入是多少 的总收入是多少?”计算机 计算机,磁带和磁盘 磁带和磁盘 IBM,CDC IBM,CDC提供历史性的、提供历史性的、静态的数据信 静态的数据信息 息数据访问 数据访问(80(80年代 年代)“在新英格兰的 在新英格兰的分部去年三月的 分部去年三月的销售额是多少?销售额是多少?”关系数据库 关系数据库(RDBMS RDBMS),结构化 结构化查询语言 查询语言SQL SQL),ODBC,ODBC,Oracle,Sybase,Info Oracle,Sybase,Informix,IBM,Microsoft rmix,IBM,MicrosoftO
4、racle,Sybase,Oracle,Sybase,Informix,IBM,Informix,IBM,Microsoft Microsoft在记录级提供 在记录级提供历史性的、动 历史性的、动态数据信息 态数据信息数据仓库;数据仓库;决策支持 决策支持(90(90年代 年代)“在新英格兰的 在新英格兰的分部去年三月的 分部去年三月的销售额是多少?销售额是多少?波士顿据此可得 波士顿据此可得出什么结论?出什么结论?”联机分析处理 联机分析处理(OLAP OLAP),多维数据 多维数据库 库,数据仓库 数据仓库Pilot,Comshar Pilot,Comshare,Arbor,Cogno e
5、,Arbor,Cognos,Microstrateg s,Microstrategy y在各种层次上 在各种层次上提供回溯的、提供回溯的、动态的数据信 动态的数据信息 息数据挖掘 数据挖掘(正在流(正在流行)行)“下个月波士顿 下个月波士顿的销售会怎么样 的销售会怎么样?为什么?为什么?”高级算法 高级算法,多处理器计 多处理器计算机 算机,海量数据库 海量数据库Pilot,Lockheed,Pilot,Lockheed,IBM,SGI,IBM,SGI,其他 其他初创公司 初创公司提供预测性的 提供预测性的信息 信息 商业智能研讨沙龙 商业智能研讨沙龙-上海站 上海站 ITPUBChinaUn
6、ixIXPUB ITPUBChinaUnixIXPUB主办 主办数据挖掘概念的提出现在数据挖掘概念的首次国际学术会议1989年8月在美国底特律召开的第11届国际联合人工智能学术会议(IJCAI89)上,Gregory Piatetsky-Shapiro组织了“数据库中的知识发现”(KDD:Knowledge Discovery in Database)专题讨论会,该讨论会的重点是强调发现(Discovery)的方法以及发现的是知识(Knowledge)两个方面。相继开展的专题讨论会 随后在1991、1993和1994年都举行了KDD专题讨论会,来自各个领域的研究人员和应用开发者集中讨论了数据统
7、计、海量数据分析算法、知识表示和知识运用等问题。商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办数据挖掘概念的提出 第一届KDD国际学术会议 随着参与科研和开发人员的不断增加,国际KDD组委会于1995年把专题讨论会发展成为国际年会。在加拿大的蒙特利尔市召开了第一届KDD国际学术会。其会议名称全称为“ACMSIGKDD(SpecialInterestedGrouponKnowledgeDiscoveryinDatabases)InternationalConferenceonKnowledgeDiscoveryandDataMining”在这次会议上“数据挖掘”(Dat
8、aMining)概念第一次由UsamaFayyad提出。UsamaFayyad对数据挖掘概念的界定数据挖掘指的是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、有效的、新颖的、潜在有用的、并且最终可理解的模式的非平凡过程。l SAS软件研究所对数据挖掘所下的定义是:数据挖掘是按照既定的业务目标,对大量的企业数据进行探索、揭示隐藏其中的规律性并进一步将之模型化的先进、有效的方法。商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办数据挖掘的定义数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人
9、们事先不知道的、但又是潜在有用的信息和知识的过程。技术上的定义及含义商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办数据挖掘的定义 数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题 技术上的定义及含义商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办数据挖掘的定义数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。按企业既定业务目标,对大量的企业数据进行探索和分析
10、,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。商业角度的定义商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办知识是什么DataInformationKnowledgeWisdom知识是对信息进行智能性加工所形成的对客观世界规律性的认识Data+contextInformation+rulesKnowledge+experience商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办知识发现(KDD)的过程数据清理筛选数据目标数据预处理及变换变换后的数据数据挖掘解释/评估商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主
11、办数据挖掘数据库技术 统计学其他学科信息科学机器学习可视化数据挖掘是一个交叉学科领域商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办计费系统客服系统源数据其他业务系统外部数据数据挖掘信用评分离网预警客户细分交叉销售OLAP多维分析数据访问数据分析报表查询中间层中间层中间件中间件多维数据库数据抽取、转换、装载数据仓库管理工具 抽取 转换 装载数据清洗工具数据建模工具中心元数据数据集市中心数据仓库数据集市数据集市中心数据仓库局部元数据局部元数据局部元数据元数据交换关系数据库关系数据库 数据挖掘与数据仓库通用数据仓库技术架构 商业智能研讨沙龙-上海站 ITPUB ChinaUnix
12、 IXPUB主办数据仓库与数据挖掘的关系 数据仓库并不是数据挖掘必需的 数据仓库汇总并清理数据,可以作为数据挖掘的基础数据仓库与数据挖掘都是决策支持新技术。但它们有着完全不同的辅助决策方式。数据仓库和数据挖掘的结合对支持决策会起更大的作用。数据存储、组织、管理分析、探索模型Data WarehouseData Mining$0.5-5M$30-200K商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办数据挖掘与OLAP数据挖掘与OLAP的区别与联系 OLAP是先建立一系列的假设,然后通过分析来证实或推理这些假设来最终得到自己的结论,本质上是一个演绎推理过程。数据挖掘是在数据库中
13、自己寻找模型,本质上是一个归纳过程。两个相辅相成,可以利用OLAP验证DM的结果。例:用数据挖掘工具的分析员想找到引起贷款拖欠的风险因素。然后利用OLAP加以验证结论的可靠性。商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办 数据挖掘系统的组成 数据库、数据仓库或其他信息库:是一个或一组数据库、数据仓库、电子表格或其他类型的信息库。可以在数据上进行数据清理和集成。数据库或数据仓库服务器:根据用户的挖掘请求,数据库或数据仓库服务器负责提取相关数据。知识库:是领域知识,用于指导搜索,或评估结果模式的兴趣度。商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办 数据挖
14、掘引擎:数据挖掘系统的基本部分,由一组功能模块组成,用于特征化、关联、分类、聚类分析以及演变和偏差分析。模式评估模块:使用兴趣度量,并与数据挖掘模块交互,以便将搜索聚焦在有趣的模式上,可能使用兴趣度阈值过滤发现的模式。图形用户界面:该模块在用户和数据挖掘系统之间通信,允许用户与系统交互,指定数据挖掘查询或任务,提供信息,帮助搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办典型结构数据挖掘系统结构数据仓库数据清理 数据集成过滤数据库数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面 知识库商业智能研讨沙龙-上海站ITPUB
15、ChinaUnixIXPUB主办分析问题数据 数据数据数据仓库多维数据集创建和训练模型校验数据数据挖掘模型维护数据挖掘数据清洗和转换查询数据客户端数据查询OLAP数 据 挖 掘 过 程数据挖掘结果解释查询数据商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办挖掘项目工作流程 商业目标确定 确认数据源识别 数据筛选 数据收集 数据质量检测 结果应用 结果解释 应用建议 模型构建 数据转换 商业智能研讨沙龙-上海站ITPUB ChinaUnix IXPUB主办数据挖掘过程u 数据清理(消除噪声或不一致数据)u 数据集成(多种数据源可以组合在一起)u 数据选择(从数据库中检索与分析任
16、务相关的数据)u 数据变换(数据变换或统一成适合挖掘的形式)u 数据挖掘(使用各种方法提取数据模式)u 模式评估(使用某种度量,识别真正有趣的模式)u 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识data mining concepts and techniques商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办从系统设计看数据挖掘过程模型u 一种是 Fayyad 等人总结的过程模型u 另一种是遵循 CRISP-DM 标准的过程模型 商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办Fayyad过程模型 商业智能研讨沙龙-上海站 ITP
17、UB ChinaUnix IXPUB主办CRISP-DM(Cross-Industry Standard Process for Data Mining)过程模型 商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办数据挖掘方法论l CRISP_DM(Cross Industry Standard Process for DM)l 1998年,由NCR、Clementine、OHRA和Daimler-Benz的联合项目组提出l SEMMAl SAS公司提出的方法l Sample,Explore,Modify,Model,Assessl 在战略上使用Crisp_DM方法论,在
18、战术上应用SEMMA方法论商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办数据挖掘技术分类数据挖掘 数据挖掘验证驱动挖掘 验证驱动挖掘 发现驱动挖掘 发现驱动挖掘SQL SQL SQL SQL生成器 生成器查询工具 查询工具 OLAP OLAP描述 描述 预测 预测可视化 可视化聚类 聚类关联规则 关联规则顺序关联 顺序关联汇总描述 汇总描述分类 分类统计回归 统计回归时间序列 时间序列决策树 决策树神经网路 神经网路 商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办数据挖掘的任务和方法 数据挖掘的任务是从大量的数据中发现模式。根据数据挖掘的任务可分为
19、多种类型,其中比较典型的有:预测模型关联分析分类分析聚类分析序列分析偏差检测模式相似性挖掘 Web数据挖掘商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办预测模型 预测模型(PredictiveModeling):所谓预测即从数据库或数据仓库中已知的数据推测未知的数据或对象集中某些属性的值分布。建立预测模型的常用方法:回归分析 线性模型 关联规则 决策树预测 遗传算法 神经网络商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办关联分析 关联(Association)分析:关联规则描述了一组数据项之间的密切度或关系。关联分析用于发现项目集之间的关联。在关联规则挖
20、掘算法中,通常给出了置信度和支持度两个概念,对于置信度和支持度均大于给定阈值的规则称为强规则,而关联分析主要就是对强规则的挖掘。关联分析算法:APRIORI算法、DHP算法、DIC算法、PARTITION算法及它们的各种改进算法等。商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办分类分析 分类(Classification)分析:所谓分类是根据数据的特征为每个类别建立一个模型,根据数据的属性将数据分配到不同的组中。分类分析的常用方法:粗糙(Rough)集决策树神经网络统计分析法商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办聚类分析 聚类(Clusterin
21、g)分析:所谓聚类是指一组彼此间非常“相似”的数据对象的集合。相似的程度可以通过距离函数来表示,由用户或专家指定。聚类分析的常用方法:随机搜索聚类法特征聚类CF树(聚类特征数)商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办序列分析 序列(Sequence)分析:序列分析主要用于分析数据仓库中的某类与时间相关的数据,搜索类似的序列或子序列,并挖掘时序模式、周期性、趋势和偏离等。序列模式可以看成是一种特定的关联模型,它在关联模型中增加了时间属性。例如:在所有购买了彩色电视机的人中,有60%的人再购买VCD产品商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办偏差
22、检测 偏差检测(DeviationDetection):用于检测并解释数据分类的偏差,它有助于滤掉知识发现引擎所抽取的无关信息,也可滤掉那些不合适的数据,同时可产生新的关注性事实。偏差包括很多有用的知识,如以下4类:分类中的反常实例;模式的例外;观察结果对模型预测的偏差;量值随时间的变化。商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办模式相似性挖掘 模式相似性挖掘:用于在时间数据库或空间数据库中搜索相似模式时,从所有对象中找出用户定义范围内的对象;或找出所有元素对,元素对中两者的距离小于用户定义的距离范围。模式相似性挖掘的方法有相似度测量法、遗传算法等。商业智能研讨沙龙-上
23、海站ITPUBChinaUnixIXPUB主办Web数据挖掘 Web数据挖掘:万维网是一个巨大的、分布广泛的和全球性的信息服务中心,其中包含了丰富的超链接信息,为数据挖掘提供了丰富的资源。Web数据挖掘包括Web使用模式挖掘、Web结构挖掘和Web内容挖掘等。商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办1.分类与预测分类和预测是两种重要的数据分析方法,在商业上的应用很多。分类和预测可以用于提取描述重要数据类型或预测未来的数据趋势。分类是找出一个类别的概念描述,它代表了这类数据的整体信息,既该类的内涵描述。一般用规则或决策树模式表示。该模式能把数据库中的元组影射到给定类别中
24、的某一个。预测是利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类,特征不等。典型的方法是回归分析,即利用大量的历史数据,以时间为变量建立线性或非线性回归方程。分类的方法主要有:决策树(C5或CART)、贝叶斯分类、基于遗传算法分类预测的方法主要是回归统计,包括:线性回归、非线性回归、多元回归、泊松回归、对数回归等。分类也可以用来预测。神经网络方法预测既可用于连续数值,也可以用于离散数值。常用的数据挖掘方法商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办2.关联分析 关联分析-就是挖掘数据对象之间的相互依赖关系。关联若两个或多个变量的取值之间存在某种规律性,就
25、称为关联。一个关联规则的形式为:A1A2AiB1B2Bj 其含义为:如果A1A2Ai,则一定出现B1B2Bj数据中的关联可分为:简单关联如:买面包的顾客中有90%的人购买了牛奶。面包牛奶 时序关联如:粮食涨价,不久副食品涨价。因果关联属条件与结论的依赖关系。商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办3.聚类分析 将数据点分组的过程,从而使得同一组内的数据点类似。检查一大群最初没有差异的顾客,看看能否把它们分在自然形成的组内。聚类不同于分类的区别在于结果是分析出来的而不是事先预定的。没有预先制定的设想,希望数据挖掘工具能够揭示某些有意义的结构。聚类技术主要包括:模式识别方
26、法、数学分类法、概念聚类、神经网络的自组织模型等。商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办4.人工神经网络l 人工神经网络,是对人类大脑系统机能的简单抽象和模拟;l 神经网络是一组连接的输入/输出单元,其中每个连接都与一个权相关联,在学习阶段,通过调整神经网络的权,使得能够预测输入样本的正确类标号来学习。l 具有高度抗干扰能力和可以对未训练的数据分类的特点l 激励函数的选择和权值的调整 将人工神经网络应用于数据挖掘的主要缺点是,通过人工神经网络学习到的知识难于理解;学习时间太长,不适于大型数据集。商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办
27、神经网络商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办5.偏差检测 对数据库中的异常数据进行检测,称为偏差检测。偏差检测的基本方法:寻找观察结果与参照之间的差别。观察:通常是某一个域的值或多个域值的汇总。参照:是给定模型的预测、外界提供的标准量或另一个观察。偏差检测的数据模式有:极值点、断点、拐点、零点和边界等不同的偏差对象。偏差包括的规则知识有:分类中的反常实例;模式的例外;观察结果对模型预测的偏差;量值随时间的变化等。商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办数据挖掘常用的10大算法1.C4.5、C5.0算法:C4.5算法是机器学习算法中的一种分
28、类决策树算法,其核心算法是ID3算法.C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;2)在树构造过程中进行剪枝;3)能够完成对连续属性的离散化处理;4)能够对不完整数据进行处理。优点:产生的分类规则易于理解,准确率较高。缺点:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办2.K-Means算法 k-meansalgorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割,kn。它
29、与处理混合正态分布的最大期望算法很相似,因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。即每个簇用该簇中对象的平均值来表示.3.Supportvectormachines 支持向量机,英文为SupportVectorMachine,简称SV机(论文中一般简称SVM)。它是一种监督式学习的方法,它广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大
30、,分类器的总误差越小。商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办4.经典的Apriori算法算法思想:Aprior算法思想基于如下定理:若ck 频繁集,mk,则频繁集故可以用短的频繁集中元素构造长的频繁集元素算法目的:提高频繁集发现效率 商业智能研讨沙龙 商业智能研讨沙龙-上海站 上海站 ITPUBChinaUnixIXPUB ITPUBChinaUnixIXPUB主办 主办v 5.最大期望(EM)算法v 在统计计算中,最大期望(EM,ExpectationMaximization)算法是在概率(probabilistic)模型中寻找参数最大似然估计的算法,其中概率模型
31、依赖于无法观测的隐藏变量(LatentVariabl)。最大期望经常用在机器学习和计算机视觉的数据集聚(DataClustering)领域。v 6.PageRankv PageRank是Google算法的重要内容。2001年9月被授予美国专利,专利人是Google创始人之一拉里佩奇(LarryPage)。因此,PageRank里的page不是指网页,而是指佩奇,即这个等级方法是以佩奇来命名的。商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办v 7.NaiveBayesv 假定一个属性值对给定类的影响独立于其他属性的值v 在众多的分类模型中,应用最为广泛的两种分类模型是决策树模
32、型(DecisionTreeModel)和朴素贝叶斯模型(NaiveBayesianModel,NBC)。朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。v 8.CART:分类与回归树v CART,ClassificationandRegressionTrees。v 算法采用一种二分递归分割的技术,将当前的样本集分为两个子样本集,使得生成的决策树的每个非叶子节点都有两个分支。因此,CART算法生成的决策树是结构简洁的二叉树。在分类树下面有两个关键的思想。第一个是关于递归地划分自变量空间的想法;第二个想法是用验证数据进行剪枝。商业智能研讨沙龙-上海站ITPUBChina
33、UnixIXPUB主办v 9.kNN:k-nearestneighborclassificationv K最近邻(k-NearestNeighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。v 10.AdaBoostv Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中
34、每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办数据挖掘工具简介目前,世界上比较有影响的典型数据挖掘系统包括:l EnterpriseMiner(SAS公司)l IntelligentMiner(IBM公司)l SetMiner(SGI公司)l Clementine(SPSS公司)l WarehouseStudio(Sybase公司)l See5(RuleQuestResearch公司)l Cov
35、erStoryl EXPLORAl KnowledgeDiscoveryWorkbenchl DBMinerl Quest等商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办功能总分软件 IBM SAS Intelligent Enterprise SPSS权值Miner Miner Clementine数据存取10%75 90 80数据处理20%93 100 98模型算法30%91 96 91自动建模10%92 100 86可视化15%88 95 91其它15%78 92 56总分100%88 96 86 三大工具总体评分 商业智能研讨沙龙-上海站 ITPUB ChinaUn
36、ix IXPUB主办数据挖掘工具介绍Intelligent Minerl 美国IBM公司开发的数据挖掘软件,分别面向数据库和文本信息进行数据挖掘的,包括Intelligent Miner for Data和Intelligent Miner for Text。l Intelligent Miner for Data可以挖掘包含在数据库、数据仓库和数据中心中的隐含信息,帮助用户利用传统数据库或普通文件中的结构化数据进行数据挖掘。已经成功应用于市场分析、诈骗行为监测及客户联系管理等;l Intelligent Miner for Text允许企业从文本信息进行数据挖掘,文本数据源可以是文本文件、W
37、eb页面、电子邮件、Lotus Notes数据库等等。商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办数据挖掘工具介绍SAS Enterprise Miner SAS 是一个庞大的系统,它多个功能模块组成,每个模块分别完成不同的功能。由于SAS最初是为专业统计人员设计的(这一点和SPSS已恰恰相反),因此使用上以编程为主。SEMMA方法 Sample数据取样(质量、目标)Explore数据特征探索、分析和预处理 Modify问题明确化、数据调整和技术选择 Model模型的研发、知识的发现 Assess模型和知识的综合解释和评价 商业智能研讨沙龙-上海站 ITPUB Ch
38、inaUnix IXPUB主办SAS Enterprise Miner:scatter plots 商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办数据挖掘工具介绍IBMIntelligent Minerl 美国IBM公司开发的数据挖掘软件,分别面向数据库和文本信息进行数据挖掘的,包括Intelligent Miner for Data和Intelligent Miner for Text。l Intelligent Miner for Data可以挖掘包含在数据库、数据仓库和数据中心中的隐含信息,帮助用户利用传统数据库或普通文件中的结构化数据进行数据挖掘。已经成功应用
39、于市场分析、诈骗行为监测及客户联系管理等;l Intelligent Miner for Text允许企业从文本信息进行数据挖掘,文本数据源可以是文本文件、Web页面、电子邮件、Lotus Notes数据库等等。商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办数据挖掘工具介绍 Spss的 Clementine Clementine是ISL(Integral Solutions Limited)公司开发的数据挖掘工具平台。1999年SPSS公司收购了 ISL公司,对Clementine产品进行重新整合和开发。是一个开放式数据挖掘工具,曾两次获得英国政府SMART 创新奖。
40、不但支持整个数据挖掘流程,从数据获取、转化、建模、评估到最终部署的全部过程,还支持数据挖掘的行业标准-CRISP-DM。商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办数据挖掘工具介绍 Spss的 Clementine 主要功能分类:类神经网络、决策树(C5或CART)、Logistic回 归;聚类:K-Means算法(一维聚类)、Kohonen算法(利用类神 经网络自我组织的演算法进行二维聚类)、2-Step算法(可自动找出最适合的聚类数);关联:Apriori算法(连续、类别变量都可用)、GRI算法(只能处理类别变量)、序列算法(只能处理类别变量,且考虑时间先后)。
41、商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办数据挖掘工具介绍 Spss的 ClementinelClementine数据源 ODBC(包括Excel)各种文本文件 Spss数据源 SAS数据源 使用者输入lClementine可同时存取多种数据来源 商业智能研讨沙龙-上海站ITPUB ChinaUnix IXPUB主办 Clementine 操作界面 商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办筛选潜在诈欺案例的两种方法-“异常检测”和基于“神经网络”的建模方法。商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办数据
42、挖掘技术应用广泛 数据挖掘技术从一开始就是面向应用的。由于现在各行业的业务操作都向着流程自动化的方向发展,企业内产生了大量的业务数据。数据挖掘技术应用很广,应用较好的领域有:金融保险业:CreditScoring;InsuranceEvaluation 电信:Detectingtelephonefraud 零售(如超级市场)等商业领域:MarketingAnalysis 医学:Detectinginappropriatemedicaltreatment 体育:IBMAdvancedScoutanalyzedNBAgamestatistics 在天文学、分子生物学等科学研究方面 军事方面:使用D
43、M进行军事信息系统中的目标特征提取、态势关联规则挖掘等。商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办市场营销的应用v 基于购买模型分析顾客行为;v 识别顾客流失模型以及通过预防行为使顾客未流失的情况;v 广告、仓库位置等营销战略的确定;v 顾客、产品、仓库的划分;v 目录设计、仓库布局、广告活动;v 通过适当聚集和为前端销售、服务人员发送信息,提供优先销售和顾客服务;v 鉴定市场高于或低于平均增长;v 识别同时被购买的产品,或购买某种产品类别的顾客特征;v 市场容量分析。商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办财务的应用v客户信誉价值分析;v帐户
44、应收款项划分;v金融投资,如股票、共有基金、债券等的业绩分析;v风险评估和欺诈检测商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办制造业的应用v优化资源,例如人力、机器、材料、能量等等;v优化制造过程设计;v产品设计;v发现生产问题的起因;v识别产品和服务的使用模型。商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办银行业务的应用v检测欺诈性信用卡使用的模型;v识别忠实顾客;v预测可能改变他们的信用卡从属关系的客户;v确定客户群体的信用卡消费。商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办医疗保健的应用v发现放射线图象的模型;v分析药物的副
45、作用;v描述患者行为特征,预测外科手术观察;v标识对不同疾病的成功药物疗法。商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办v竞技运动中的数据挖掘大约20个NBA球队使用了IBM公司开发的数据挖掘应用软件AdvancedScout系统来优化他们的战术组合。例如Scout就因为研究了魔术队队员不同的布阵安排,在与迈阿密热队的比赛中找到了获胜的机会。-系统分析显示魔术队先发阵容中的两个后卫安佛尼.哈德卫(AnferneeHardaway)和伯兰.绍(BrianShaw)在前两场中被评为17分,这意味着他俩在场上,本队输掉的分数比得到的分数多17分。然而,当哈德卫与替补后卫达利尔.
46、阿姆斯创(DarrellArmstrong)组合时,魔术队得分为正14分。商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办刑事案件中的应用v三联生活周刊的报道v 图森的一起谋杀案:一个男人被人切断了喉管,并被汽车碾过身体。当被发现时,他依然活着,并在被送往医院前告诉现场围观者“这是矮子干的”。v 警方将“矮子”这个名字输入到Coplink数据库中,搜索它与被害人的联系。几分钟之内,Coplink就给出了结果:被害人曾经与这个“矮子”共同在监狱中服刑。商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办数据挖掘的前景l 就目前来看,将来研究的几个焦点包括:l 研究
47、在网络环境下的数据挖掘技术(WebMining),特别是在因特网上建立DMKD服务器,并且与数据库服务器配合,实现分布式数据采掘;l 生物信息或基因(Bioinformatics/genomics)的数据挖掘l 加强对各种非结构化数据的开采(DataMiningforAudioVideo),如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采;l 寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便于在知识发现的过程中进行人机交互;l 处理的数据将会涉及到更多的数据类型,这些数据类型或者比较复杂,或者是结构比较独特。l 发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办几点体会总结实施数据挖掘是一个战略性举措数据挖掘是年轻充满希望的研究领域数据挖掘不是万能的解决方案数据挖掘是一个循环探索的过程商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办参考文献商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办网络资源商业智能研讨沙龙-上海站ITPUBChinaUnixIXPUB主办商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办
限制150内