数据挖掘在数据矿山中挖掘蕴藏的知识金块.ppt
《数据挖掘在数据矿山中挖掘蕴藏的知识金块.ppt》由会员分享,可在线阅读,更多相关《数据挖掘在数据矿山中挖掘蕴藏的知识金块.ppt(96页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、数据挖掘在数据矿山中挖掘蕴藏的知识金块 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望2腾讯鲜为人知的重武器之腾讯鲜为人知的重武器之-数据挖掘数据挖掘腾讯鲜为人知的重武器之腾讯鲜为人知的重武器之-数据挖掘数据挖掘u 中国有三家最重要、也是市值最高的“互联网之水”腾讯、阿里巴巴、百度。u 这三家公司分别依托IM(Instant Message)、搜索和电子商务,又都同时在试图以全业务的模式进入对方领地,结果他们每家公司都有了自己的搜索、IM和电子商务。过去几年,他们
2、之间已经有过多次小规模的短兵相接。不过在一番试探之后,三家公司均发现对方的实力不俗,强行进入对方领地难度太大。u 他们都有自己鲜为人知的“重武器重武器”。腾讯鲜为人知的重武器之腾讯鲜为人知的重武器之-数据挖掘数据挖掘u“互联网之水”:就像日常生活中人们对水和电的依赖一样,就像日常生活中人们对水和电的依赖一样,我们要做成互联网上的水和电我们要做成互联网上的水和电马化腾u自1999年2月QQ上线到现在,10年间,马化腾把一个最轻、最不主流的IM做成了“水一样的内在”,什么是他的重武器?u 腾讯从一个毫不起眼的“抄袭者”到一个凶猛王者,什么是它的真正原点?腾讯鲜为人知的重武器之腾讯鲜为人知的重武器之
3、-数据挖掘数据挖掘u 数据挖掘数据挖掘:从大量数据中获取有效的、新颖的、潜在可用有效的、新颖的、潜在可用的、最终可理解的信息,的、最终可理解的信息,以辅佐公司战略的数字神经系统。u 这是一个真正的重武器,即使整个中国互联网,真正拥有这一系统的公司也极少腾讯、百度、阿里巴巴、盛大。腾讯鲜为人知的重武器之腾讯鲜为人知的重武器之-数据挖掘数据挖掘u数据数据是每一家互联网公司安身立命的基础之一。u“数据挖掘数据挖掘”才是腾讯最具门槛性质的技术。u“数据蕴含商机,挖掘决胜千里数据蕴含商机,挖掘决胜千里”。7客户关系管理(客户关系管理(CRM)8u什么是什么是CRM?u 数据挖掘在数据挖掘在CRM中的作用
4、?中的作用?Problem?9求贤若渴势头猛之求贤若渴势头猛之-数据挖掘数据挖掘求贤若渴之求贤若渴之-数据挖掘数据挖掘u 北京北京-知名上市互联网公司聘知名上市互联网公司聘-互联网海量数据处理、互联网海量数据处理、挖掘工程师挖掘工程师 u 易方优易方优ITIT猎头猎头-数据挖掘数据挖掘/分布式分布式/搜索研发搜索研发/PHP/IOS/PHP/IOS/互互联网产品经理联网产品经理(北京,薪水范围:北京,薪水范围:25-40万万/年年)u 全球知名的搜索引擎公司急招数据挖掘全球知名的搜索引擎公司急招数据挖掘/统计研发工程师统计研发工程师u 【北京北京】ITIT行业电话销售行业电话销售数据挖掘岗位大
5、规模招聘数据挖掘岗位大规模招聘u 。求贤若渴之求贤若渴之-数据挖掘数据挖掘求贤若渴之求贤若渴之-数据挖掘数据挖掘13什么激发了数据挖掘,为什什么激发了数据挖掘,为什么它是重要的么它是重要的-需要是发明之母(柏拉图)需要是发明之母(柏拉图)时代背景时代背景u 我们已经生活在一个网络化的时代,通信、计算机和网络技术正改变着整个人类和社会。u 在美国,广播达到5000万用户用了38年;电视用了13年;Internet拨号上网达到5000万户仅用了4年;国内,1999年初,上网用户为210万,现在已经达到600多万。u早在20世纪80年代,全球信息量每隔20个月就增加一倍;而进入21世纪,全世界所存储
6、的数据库及其所存储的数据规模增长更快。l 一个中等规模的企业每天要生产100MB以上来自各生产经营等多方面的商业数据;l 在科研方面,以美国宇航局的数据库为例,每天从卫星下载的数据量就达34TB之多,而为研究,这些数据至少要保持7年之久;l 纽约时报由60年代的10-20版扩张至现在的100-200版,最高曾达1572版;北京青年报也已是16-40版,等。而在现实社会中,人均日阅读时间通常为30-45分钟,只能浏览一份24版的报纸。l 据估计,1993年全球数据存储容量约为二千TB,到2000年增加到三百万TB,面对极度膨胀的数据信息量,人们受到“数据过剩数据过剩”的巨大压力。“数 据 过 剩
7、”16数据爆炸数据爆炸.知识贫乏知识贫乏u 激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。u 目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏知识的手段,导致“数据爆炸数据爆炸.知识贫乏知识贫乏”的尴尬现象。17数据数据.信息信息.知识知识u 数据仅是人们用各种工具和手段观察外部世界得到的原始材料;u 信息虽给出数据中有一定意义的东西,但往往和任务无直接联系,不能作为判断、决策和行动的依据;u 知识是人们作出正确的判断、决策和采取正确行动的依
8、据。18数据的丰富带来了对强有力的数据分析工具的需求!19数据仓库与数据挖掘数据仓库与数据挖掘解决方法:数据仓库技术和数据挖掘技术u 数据仓库和联机分析处理技术;u 数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)。(一)数据仓库(一)数据仓库与与OLAP1.1 1.1 为什么要建立数据仓库为什么要建立数据仓库?22从数据库到数据仓库从数据库到数据仓库管理信息的处理类型:管理信息的处理类型:(1)事务型处理:)事务型处理:业务操作处理,用来协助企业对相应事件或事务的日常商务活动进行处理。是事件驱动、面向应用的,通常是对一个/组记录的增、删、改以及简单查询等,以满足组织特定的日
9、常管理需要(数据库;细节信息数据库;细节信息);(2)分析型处理:)分析型处理:用于管理人员的决策分析,例如DSS、EIS和多维数据分析等。帮助决策者分析数据以察看趋向、判断问题。分析型处理经常要访问大量的历史数据,支持复杂的查询分析(数据仓库;宏观数据仓库;宏观信息信息)。23分离示意图分离示意图24转换同时进行的集成转换同时进行的集成数据数据仓库的关的关键特征特征关键特征:关键特征:u 面向主题;u 集成的;u 随时间而变化的(时变的);u 不容易丢失的(非易失)。26面向主题面向主题u关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理。27集成性集成性u 一个数据仓库是
10、通过集成多个异种数据源来构造的;关系数据库,一般文件,联机事务处理记录u 数据仓库中的综合数据不能从原有的数据库系统直接得到,需使用数据清理和数据集成技术对数据进行处理:统一元数据中矛盾之处:确保命名约定、编码结构、属性度量等的一致性。当数据被移到数据仓库时,它们要经过转化:进行数据综合和计算。28随时间而变化的随时间而变化的u 数据仓库从历史的角度来提供信息:时间范围比操作数时间范围比操作数据库系统要长的多据库系统要长的多操作数据库系统:主要保存当前数据;数据仓库:从历史的角度提供信息(比如过去 5-10 年)。29数据不易丢失数据不易丢失u 尽管数据仓库中的数据来自于操作数据库,但他们却是
11、在物理上分离保存的操作数据库的更新操作不会出现在数据仓库环境下。u 只进行两种数据访问:数据的初始装载;查询操作。1.2 1.2 数据仓库模型?数据仓库模型?31回顾:数据库模型回顾:数据库模型E-R图图关系模型关系模型32数据仓库的三级模型数据仓库的三级模型(1 1)概念模型:)概念模型:从客观世界到主观认识的映射;(2 2)逻辑模型:)逻辑模型:逻辑模型描述了数据仓库主题的逻辑实现;(3 3)物理模型)物理模型逻辑模型在数据仓库中的实现,如数据存储结构、存储策略、索引策略、存储分配优化等。概念概念-逻辑?逻辑?33数据仓库的概念模型数据仓库的概念模型-信息包图信息包图信息包图:信息包图:信
12、息包图提供了分析人员思维模式的可视化表示。34信息包图示例信息包图示例例试画出销售分析的信息包图。解:首先根据销售分析的实际需求,确定信息包的维度、类别、维度、类别、指标与事实指标与事实:(1)维度:包括日期维、销售地点维、销售产品维、年龄组别维、性别维等。(2)类别:确定各维的详细类别,如:日期维包括年(10)、季度(40)、月(120)等类别,括号中的数字分别指出各类别的数量;销售地点维包括国家(15)、区域(45)、城市(280)、区(880)、商店(2000)等类别,括号中的数字同样分别指出各类别的数量;类似地,可以确定销售产品、年龄组别维、性别维等的详细类别。(3)度量(指标和事实)
13、:确定用于进行分析的数值化信息,用户最关心用户最关心的信息,的信息,包括预测销售量、实际销售量和预测偏差等。35销售分析的信息包图销售分析的信息包图36数据仓库的逻辑模型数据仓库的逻辑模型 数据仓库的逻辑模型主要包括如下几种类型:u星型模型;星型模型;u雪花模型;u事实星座模型。37几个基本概念几个基本概念1)维和维表:)维和维表:维:维:关于一个组织想要记录的视角或观点。关于一个组织想要记录的视角或观点。如公司如公司Allelectronics 创建数据库创建数据库sales,用以记录商店的销售,则可能涉及,用以记录商店的销售,则可能涉及time,item,branch,location维。
14、维。维表:维表:每个维都有一个表与之相关联,称为维表。每个维都有一个表与之相关联,称为维表。如,如,item维维表可以包含属性表可以包含属性item-name,brand,type。38几个基本概念几个基本概念2)事实和事实表:)事实和事实表:事实:事实:指的是一些数字度量;指的是一些数字度量;如,如,sales销售数据仓库的事实包括销售数据仓库的事实包括dollars-sold(销售的款项),(销售的款项),units-sold(销售量销售量),amount-budgeted。事实表:事实表:包括事实的名称或度量,以及每个相关维表的关键包括事实的名称或度量,以及每个相关维表的关键字。字。星型
15、模型示例星型模型示例示例:示例:Allelectronics公司sales销售数据仓库的星型模式。Sales有四个维:time,item,branch,location。该模式包含一个中心事实表sales,该表包含四个维的关键字和三个度量dollars-sold,units-sold,avg-sales。40星型模型示例星型模型示例 time_keydayday_of_the_weekmonthquarteryearTime维表维表location_keystreetcitystate_or_provincecountryLocation维表维表Sales 事实表事实表 time_key it
16、em_key branch_key location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeItem维表维表branch_keybranch_namebranch_typeBranch维表维表41数据仓库的多维数据模型数据仓库的多维数据模型u 数据仓库和OLAP工具是基于多维数据模型的。在多维数据模型中,数据以数据立方体数据立方体(data cube)的形式存在。u 如,某公司可能创建一个数据仓库sales,记录商店的销售情况,且涉及time,item,locati
17、on。则,典型的3-D数据立方体如图:42数据仓库的数据仓库的“概念分层概念分层”u在数据仓库中,一个在数据仓库中,一个概念分层概念分层(concept hierarchy)定义一)定义一个映射序列,将低层概念映射到更一般的高层概念。个映射序列,将低层概念映射到更一般的高层概念。u 对于一个给定的属性或维,根据不同的用户视图,可能有多对于一个给定的属性或维,根据不同的用户视图,可能有多个概念分层:个概念分层:如,表示如,表示location的概念:杭州的概念:杭州浙江浙江中国中国亚亚洲;洲;u概念分层允许我们在各种抽象级审查和处理数据,概念分层允许我们在各种抽象级审查和处理数据,为不同级为不同
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 矿山 蕴藏 知识 金块
限制150内