CHAPTER3-数据仓库与OLAP技术(精品).ppt
《CHAPTER3-数据仓库与OLAP技术(精品).ppt》由会员分享,可在线阅读,更多相关《CHAPTER3-数据仓库与OLAP技术(精品).ppt(59页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、第第3章章 数据挖掘的数据仓库与数据挖掘的数据仓库与OLAP技术技术第第3章章:数据挖掘的数据仓库与数据挖掘的数据仓库与OLAP技术技术n什么是数据仓库什么是数据仓库?n多维数据模型多维数据模型n数据仓库结构数据仓库结构n数据仓库实现数据仓库实现n数据立方体的进一步发展数据立方体的进一步发展n从数据仓库到数据挖掘从数据仓库到数据挖掘2什么是数据仓库什么是数据仓库?n有不同的方法定义有不同的方法定义,但不是严格的但不是严格的.n是一个决策支持数据库是一个决策支持数据库,它与组织机构的操作数据库它与组织机构的操作数据库分分别别维护维护n数据仓库系统允许将各种应用系统集成在一起数据仓库系统允许将各种
2、应用系统集成在一起,为统一为统一的历史数据分析提供坚实的平台的历史数据分析提供坚实的平台,支持信息处理支持信息处理.nW.H.Inmon的定义的定义:数据仓库是数据仓库是 面向主题的面向主题的(subject-oriented),集成的集成的(integrated),时变的时变的(time-variant),和和非易失的非易失的(nonvolatile)数据集合数据集合,支持管理决策过程支持管理决策过程n建立数据仓库建立数据仓库(Data warehousing):n构造和使用数据仓库的过程构造和使用数据仓库的过程3数据仓库数据仓库面向主题的面向主题的n围绕重要的主题围绕重要的主题(如顾客、产
3、品、销售等如顾客、产品、销售等)组织组织.n关注决策制定者的数据建模与分析关注决策制定者的数据建模与分析,而不是日常的操作和而不是日常的操作和事务处理事务处理.n数据仓库排除对于决策过程无用的数据数据仓库排除对于决策过程无用的数据,提供特定主题的提供特定主题的简明视图简明视图.4数据仓库数据仓库 集成的集成的n通过将多个异种的数据源集成在一起通过将多个异种的数据源集成在一起,而构造而构造n比如,关系数据库比如,关系数据库,一般文件一般文件,联机事务记录联机事务记录n使用数据清理和数据集成技术使用数据清理和数据集成技术.n确保命名约定确保命名约定,编码结构编码结构,属性度量等的一致性属性度量等的
4、一致性n例如例如,饭店价格饭店价格:货币种类货币种类,税税,是否含早餐是否含早餐,等等.n当数据装入数据仓库时当数据装入数据仓库时,数据将被转换数据将被转换.5数据仓库数据仓库 时变的时变的n数据仓库的时间跨度显著地比操作数据库长数据仓库的时间跨度显著地比操作数据库长.n操作数据库数据操作数据库数据:当前值数据当前值数据.n数据仓库数据数据仓库数据:从历史的角度提供数据从历史的角度提供数据(例如例如,过去过去 5-10 年年)n数据仓库中的每个键结构数据仓库中的每个键结构n显式或隐式地包含时间元素显式或隐式地包含时间元素,n但是但是,操作数据的键可能包含操作数据的键可能包含,也可能不包含也可能
5、不包含“时间元时间元素素”.6数据仓库数据仓库 非易失的非易失的n从操作环境转换过来的数据物理地分离存放从操作环境转换过来的数据物理地分离存放.n数据的更新不在数据仓库环境中出现数据的更新不在数据仓库环境中出现.n不需要事务处理不需要事务处理,恢复恢复,和并发控制机制和并发控制机制n只需要两种数据存取操作只需要两种数据存取操作:n数据的初始化装入数据的初始化装入 和和 数据访问数据访问.7数据仓库和异种数据仓库和异种DBMSn传统的异种数据库集成传统的异种数据库集成:n在异种数据库上建立一个包装程序在异种数据库上建立一个包装程序(wrappers)或中介程序或中介程序(/mediators)n
6、查询驱动查询驱动的方法的方法n当查询提交给一个站点时当查询提交给一个站点时,使用元数据词典将查询转使用元数据词典将查询转换成所涉及换成所涉及的异构站点的异构站点上的相应查询上的相应查询,查询的结果被查询的结果被集成为一个全局回答的集合集成为一个全局回答的集合 n需要:复杂需要:复杂的信息过滤的信息过滤,对资源的竞争对资源的竞争n数据仓库数据仓库:更新驱动的更新驱动的,高性能高性能n来自异种信息源的数据被预先集成并存储在数据仓库中来自异种信息源的数据被预先集成并存储在数据仓库中,直接用于查询和分析直接用于查询和分析8数据仓库数据仓库VS.操作数据库操作数据库nOLTP(on-line trans
7、action processing,联机事务处理联机事务处理)n传统关系传统关系 DBMS的主要任务的主要任务n涵盖日常操作涵盖日常操作:购买购买,库存库存,银行银行,制造制造,工资单工资单,注册注册,记帐记帐,等等.nOLAP(on-line analytical processing,联机分析处理联机分析处理)n数据仓库系统的主要任务数据仓库系统的主要任务n数据分析和决策制定上提供服务数据分析和决策制定上提供服务n不同的特点不同的特点(OLTP vs.OLAP):n用户和系统的面向性用户和系统的面向性:顾客顾客 vs.市场市场n数据内容数据内容:当前的当前的,细节的细节的 vs.历史的历史
8、的,合并的合并的n数据库设计数据库设计:ER+应用应用 vs.星型星型+主题主题n视图视图:当前的当前的,局部的局部的 vs.进化的进化的,集成的集成的n访问模式访问模式:更新更新 vs.只读的只读的,但是复杂的查询但是复杂的查询9OLTP vs.OLAP10为什么建立分离的数据仓库为什么建立分离的数据仓库?n为了两个系统的高性能为了两个系统的高性能nDBMS 目的是目的是 OLTP:存取方法存取方法,索引索引,并发控制并发控制,恢复恢复n数据仓库数据仓库目的是目的是 OLAP:复杂的复杂的 OLAP 查询查询,多维视图多维视图,统统一一.n不同的功能和不同的数据不同的功能和不同的数据:n缺少
9、数据缺少数据:决策支持需要历史数据决策支持需要历史数据,通常操作数据库并不维护通常操作数据库并不维护这些数据这些数据n数据统一数据统一:决策支持需要将来自异种数据源的数据统一决策支持需要将来自异种数据源的数据统一(聚聚集集,汇总汇总)n数据质量数据质量:不同的数据源通常使用不同的数据表示不同的数据源通常使用不同的数据表示,编码编码,和和应当遵循的格式应当遵循的格式11第第2章章:数据挖掘的数据仓库与数据挖掘的数据仓库与OLAP技术技术n什么是数据仓库什么是数据仓库?n多维数据模型多维数据模型n数据仓库结构数据仓库结构n数据仓库实现数据仓库实现n从数据仓库到数据挖掘从数据仓库到数据挖掘n数据立方
10、体的进一步发展数据立方体的进一步发展12由表和电子数据表到数据方由表和电子数据表到数据方n数据仓库基于数据仓库基于 多维数据模型多维数据模型,多维数据模型将数据视为数据多维数据模型将数据视为数据方方(data cube)形式形式n数据方数据方(如如sales)可以将数据建模可以将数据建模,并允许由多个维进行观察并允许由多个维进行观察n维表维表,如如 item(item_name,brand,type),或或 time(day,week,month,quarter,year)n事实表包含度量事实表包含度量(如如 dollars_sold)和每个相关维表的键和每个相关维表的键n在数据仓库的文献中在
11、数据仓库的文献中,一个一个 n-D 基本立方体基本立方体 称作基本方体称作基本方体(base cuboid).最顶部的最顶部的 0-D方体方体存放最高层的汇总存放最高层的汇总,称作顶称作顶点方体点方体(apex cuboid).方体的格形成数据方方体的格形成数据方.13立方体立方体:方体的格方体的格alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,locationtime,item,suppliertime,loca
12、tion,supplieritem,location,suppliertime,item,location,supplier0-D(顶点顶点)方体方体1-D 方体方体2-D方体方体3-D方体方体4-D(基本基本)方体方体14数据仓库的概念建模数据仓库的概念建模n数据仓库建模数据仓库建模:多维模型,涉及维和度量多维模型,涉及维和度量n星型模式星型模式:事实表在中央事实表在中央,连接一组维表连接一组维表n雪花模式雪花模式:星型模式的精炼星型模式的精炼,其中一些维分层结构被规范其中一些维分层结构被规范化成一组较小的维表化成一组较小的维表,形成类似于雪花的形状,减少冗余形成类似于雪花的形状,减少冗余n
13、事实星座事实星座:多个事实表共享维表多个事实表共享维表,可以看作星星的集合可以看作星星的集合,因此称作星系模式因此称作星系模式,或事实星座或事实星座15星型模式的例子星型模式的例子 time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocation事实表事实表 time_key item_keybranch_key location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_namebra
14、ndtypesupplier_typeitembranch_keybranch_namebranch_typebranch16雪花模式的例子雪花模式的例子time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSales Fact Table time_key item_keybranch_key location_key units_solddollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembra
15、nch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycityprovince_or_statecountrycity17事实星座的例子事实星座的例子time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSales Fact Tabletime_keyitem_keybranch_keylocation_keyunits_solddollars_sold
16、 avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShipping Fact Tabletime_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper18数据挖掘查询语言数据挖掘查询语言 DMQL:语言原语语言原语n立方体定义立方体定义(事实表事实表)d
17、efine cube :n维定义维定义(维表维表)define dimension as()n特殊情况特殊情况(共享维表共享维表)n第一次第一次,如如“cube definition”ndefine dimension as in cube 19用用DMQL定义星型模式定义星型模式define cube sales_star time,item,branch,location:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)define dimension time as
18、(time_key,day,day_of_week,month,quarter,year)define dimension item as(item_key,item_name,brand,type,supplier_type)define dimension branch as(branch_key,branch_name,branch_type)define dimension location as(location_key,street,city,province_or_state,country)20用用DMQL定义雪花模式定义雪花模式define cube sales_snowfl
19、ake time,item,branch,location:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)define dimension time as(time_key,day,day_of_week,month,quarter,year)define dimension item as(item_key,item_name,brand,type,supplier(supplier_key,supplier_type)define dimension branch
20、as(branch_key,branch_name,branch_type)define dimension location as(location_key,street,city(city_key,province_or_state,country)21用用DMQL定义事实星座定义事实星座define cube sales time,item,branch,location:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)define dimension time a
21、s(time_key,day,day_of_week,month,quarter,year)define dimension item as(item_key,item_name,brand,type,supplier_type)define dimension branch as(branch_key,branch_name,branch_type)define dimension location as(location_key,street,city,province_or_state,country)define cube shipping time,item,shipper,from
22、_location,to_location:dollar_cost=sum(cost_in_dollars),unit_shipped=count(*)define dimension time as time in cube salesdefine dimension item as item in cube salesdefine dimension shipper as(shipper_key,shipper_name,location as location in cube sales,shipper_type)define dimension from_location as loc
23、ation in cube salesdefine dimension to_location as location in cube sales22三类度量(数值函数)三类度量(数值函数)n分布的分布的(distributive):将数据划分为将数据划分为n个集合个集合,函数在每函数在每一部分上的计算得到一个聚集值一部分上的计算得到一个聚集值.如果将函数用于如果将函数用于n个聚集个聚集值得到的结果值得到的结果,与将函数用于所有数据得到的结果一样与将函数用于所有数据得到的结果一样,则该则该函数可以用分布方式计算函数可以用分布方式计算.n例例,count(),sum(),min(),max().
24、n代数的代数的(algebraic):如果它能够由一个具有如果它能够由一个具有M(其中其中,M是一是一个整数界个整数界)个参数的代数函数计算个参数的代数函数计算,而每个参数都可以用一个而每个参数都可以用一个分布聚集函数求得分布聚集函数求得.n例例,avg(),min_N(),standard_deviation().n整体的整体的(holistic):如果描述它的子聚集所需的存储没有一个如果描述它的子聚集所需的存储没有一个常数界常数界.n例例,median(),mode(),rank().23一个概念分层一个概念分层:维维LocationallEuropeNorth_AmericaMexico
25、CanadaSpainGermanyVancouverM.WindL.Chan.allregionofficecountryTorontoFrankfurtcity24数据仓库和分层结构视图数据仓库和分层结构视图25多维数据多维数据n多维模型中,数据组织成多维,每维包含由概念分层定义的多维模型中,数据组织成多维,每维包含由概念分层定义的多个抽象层多个抽象层n销售量作为销售量作为 product,month,和和 region的函数的函数ProductRegionMonth维维:Product,Location,Time的分层结构的分层结构Industry Region YearCategory
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- CHAPTER3 数据仓库 OLAP 技术 精品
限制150内