数据挖掘2章数据仓库和数据挖掘的OLAP技术.ppt
《数据挖掘2章数据仓库和数据挖掘的OLAP技术.ppt》由会员分享,可在线阅读,更多相关《数据挖掘2章数据仓库和数据挖掘的OLAP技术.ppt(53页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、第第3章章数据仓库和数据挖掘的OLAP技术本章要点本章要点n数据仓库的基本概念数据仓库的基本概念n多维数据模型多维数据模型n数据仓库的系统结构数据仓库的系统结构n数据仓库实现数据仓库实现n数据立方体技术的近一步发展数据立方体技术的近一步发展n从数据仓库到数据挖掘从数据仓库到数据挖掘数据仓库的发展数据仓库的发展n自从自从NCR公司为公司为Wal Mart建立了第一个数据仓库。建立了第一个数据仓库。n1996年,加拿大的年,加拿大的IDC公司调查了公司调查了62家实现了数据家实现了数据仓库的欧美企业,结果表明:数据仓库为企业提供了仓库的欧美企业,结果表明:数据仓库为企业提供了巨大的收益。巨大的收益
2、。n早期的数据仓库大都采用当时流行的客户早期的数据仓库大都采用当时流行的客户/服务器结服务器结构。近年来分布式对象技术飞速发展,整个数据仓库构。近年来分布式对象技术飞速发展,整个数据仓库体系结构从功能上划分为若干个分布式对象,这些分体系结构从功能上划分为若干个分布式对象,这些分布式对象不仅可以直接用于建立数据仓库,还可以在布式对象不仅可以直接用于建立数据仓库,还可以在应用程序中向用户提供调用的接口。应用程序中向用户提供调用的接口。nIBM的实验室在数据仓库方面已经进行了的实验室在数据仓库方面已经进行了10多年的研多年的研究,并将研究成果发展成为商用产品。究,并将研究成果发展成为商用产品。n其他
3、数据库厂商在数据仓库领域也纷纷提出了各自的其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。解决方案。数据仓库的发展数据仓库的发展nIBM:在其在其DB2UDB发布一年后的发布一年后的1998年年9月发布月发布5.2版,并于版,并于1998年年12月推向中国市场,除了用于月推向中国市场,除了用于OLAP(联机分析处理)的后台服务器(联机分析处理)的后台服务器DB2 OLAP Server外,外,IBM还提供了一系列相关的产品,包括前还提供了一系列相关的产品,包括前端工具,形成一整套解决方案。端工具,形成一整套解决方案。nInformix公司公司:在其动态服务器在其动态服务器IDS(Inf
4、ormix Dynamic Server)中提供一系列相关选件,如高级决)中提供一系列相关选件,如高级决策支持选件(策支持选件(Advanced Decision Support Option)、)、OLAP选件(选件(MetaCube ROLAP Option)、扩展并行选件()、扩展并行选件(Extended Parallel Option)等,这种体系结构严谨、管理方便、索引机)等,这种体系结构严谨、管理方便、索引机制完善,并行处理的效率更高,其中数据仓库和数据库制完善,并行处理的效率更高,其中数据仓库和数据库查询的查询的SQL语句的一致性使得用户开发更加简便。语句的一致性使得用户开发更
5、加简便。数据仓库的发展数据仓库的发展n微软公司微软公司:在其在其SQL Server7.0以及以及SQL Server2000中集成了代号为中集成了代号为Plato的的OLAP服务器。服务器。nSybase:提供了专门的提供了专门的OLAP服务器服务器Sybase IQ,并将,并将其与数据仓库相关工具打包成其与数据仓库相关工具打包成Warehouse Studio。nPLATINUM:提出了由提出了由InfoPump(数据仓库建模与数(数据仓库建模与数据加载工具)和据加载工具)和Forest&Trees(前端报表工具)构成(前端报表工具)构成的一套较有特色的整体方案。的一套较有特色的整体方案。
6、;nOracle公司公司:则推出从数据仓库构建、则推出从数据仓库构建、OLAP到数据集到数据集市管理等一系列产品包(如市管理等一系列产品包(如Oracle Warehouse Builder、Oracle Express、DataMart Suit等)。等)。数据仓库的我国的发展数据仓库的我国的发展n前景:随着计算机技术的发展,尤其是分布式技术前景:随着计算机技术的发展,尤其是分布式技术的发展,的发展,数据仓库在我国有着广阔的发展空间和良数据仓库在我国有着广阔的发展空间和良好的发展前景。例如:好的发展前景。例如:n由于银行商业化的步伐正在加大,各大中型银行在入世的由于银行商业化的步伐正在加大,
7、各大中型银行在入世的机遇和挑战下,开始重新考虑自身的业务,特别是信贷风机遇和挑战下,开始重新考虑自身的业务,特别是信贷风险管理方面特别注意,因而有关信贷风险管理和风险规章险管理方面特别注意,因而有关信贷风险管理和风险规章的基于数据仓库的决策支持系统的需求逐渐增多;的基于数据仓库的决策支持系统的需求逐渐增多;n由于电子商务的迅速发展,越来越多的电子商务网站,开由于电子商务的迅速发展,越来越多的电子商务网站,开始考虑如何将数据仓库应用于商品销售分析、顾客的诚信始考虑如何将数据仓库应用于商品销售分析、顾客的诚信度分析等,为客户提供更进一步的个性化服务;度分析等,为客户提供更进一步的个性化服务;n如移
8、动通信等各大型企业也开始考虑着手进行决策支持以如移动通信等各大型企业也开始考虑着手进行决策支持以及数据仓库规划。及数据仓库规划。数据挖掘的发展数据挖掘的发展n数据挖掘是与数据仓库密切相关的一个信息技数据挖掘是与数据仓库密切相关的一个信息技术新领域,它是信息技术自然演化的结果。术新领域,它是信息技术自然演化的结果。n随着数据库技术的迅速发展以及数据库管理系随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多,但统的广泛应用,人们积累的数据越来越多,但缺乏挖掘数据中隐藏的知识的手段,导致了缺乏挖掘数据中隐藏的知识的手段,导致了“数据爆炸但知识贫乏的数据爆炸但知识贫乏的”现象
9、。现象。n自自80年代后期以来,联机分析处理(年代后期以来,联机分析处理(OLAP)和数据挖掘技术应运而生。和数据挖掘技术应运而生。3.1数据仓库数据仓库(Data Warehouse)n数据仓库用来保存从多个数据库或其它信息源选取数据仓库用来保存从多个数据库或其它信息源选取的数据的数据,并为上层应用提供统一并为上层应用提供统一 用户接口,完成数用户接口,完成数据查询和分析。据查询和分析。n数据仓库是作为数据仓库是作为DSS服务基础的分析型服务基础的分析型DB,用来用来存放大容量的只读数据,为制定决策提供所需要的存放大容量的只读数据,为制定决策提供所需要的信息。信息。n数据仓库是与操作型系统相
10、分离的、基于标准企业数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、面向主题及不可更模型集成的、带有时间属性的、面向主题及不可更新的数据集合。新的数据集合。nW.H.Inmon对数据仓库所下的定义:数据仓库是对数据仓库所下的定义:数据仓库是面向主题的、集成的、稳定的、随时间变化的数据面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。集合,用以支持管理决策的过程。数据仓库的适用范围数据仓库的适用范围n信息源中的数据变化稳定信息源中的数据变化稳定n或可预测应用不需要最新的数据或可预测应用不需要最新的数据n或允许有延迟应用要求或允许有延迟应用要求 有较
11、高的查询性能有较高的查询性能 而降低精度要求而降低精度要求数据仓库中数据的特点数据仓库中数据的特点n 面向主题面向主题n 集成性集成性n 稳定性稳定性n 时变性时变性面向主题面向主题n主题:是一个抽象的概念,是在较高层次上将主题:是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑上,它对应于企业中某一利用的抽象。在逻辑上,它对应于企业中某一宏观分析领域所涉及的分析对象。宏观分析领域所涉及的分析对象。n面向主题的数据组织方式可在较高层次上对分面向主题的数据组织方式可在较高层次上对分析对象的数据给出完整、一致的描述,
12、能完整、析对象的数据给出完整、一致的描述,能完整、统一的刻画各个分析对象所涉及的企业的各项统一的刻画各个分析对象所涉及的企业的各项数据以及数据之间的联系,从而适应企业各个数据以及数据之间的联系,从而适应企业各个部门的业务活动特点和企业数据的动态特征,部门的业务活动特点和企业数据的动态特征,从根本上实现数据与应用的分离。从根本上实现数据与应用的分离。集成性集成性n数据仓库中的数据是从原有分散的源数据库中数据仓库中的数据是从原有分散的源数据库中提取出来的,其每一个主题所对应的源数据在提取出来的,其每一个主题所对应的源数据在原有的数据库中有许多冗余和不一致,且与不原有的数据库中有许多冗余和不一致,且
13、与不同的应用逻辑相关。为了创建一个有效的主题同的应用逻辑相关。为了创建一个有效的主题域,必须将这些来自不同数据源的数据集成起域,必须将这些来自不同数据源的数据集成起来,使之遵循统一的编码规则。因此,数据仓来,使之遵循统一的编码规则。因此,数据仓库在提取数据时必须经过数据集成,消除源数库在提取数据时必须经过数据集成,消除源数据中的矛盾,并进行数据综合和计算。经过数据中的矛盾,并进行数据综合和计算。经过数据集成后,数据仓库所提供的信息比数据库提据集成后,数据仓库所提供的信息比数据库提供的信息更概括、更本质。供的信息更概括、更本质。稳定性稳定性n数据仓库中的数据反映的是一段时间内历史数据仓库中的数据
14、反映的是一段时间内历史数据的内容,是不同时点的数据库快照的集数据的内容,是不同时点的数据库快照的集合,以及基于撰写快照进行统计、综合和重合,以及基于撰写快照进行统计、综合和重组的导出数据,而不是联机处理的数据。主组的导出数据,而不是联机处理的数据。主要供企业高层决策分析之用,所涉及的数据要供企业高层决策分析之用,所涉及的数据操作主要是查询,一般情况下并不进行修改操作主要是查询,一般情况下并不进行修改操作,即数据仓库中的数据是不可实时更新操作,即数据仓库中的数据是不可实时更新的,仅当超过规定的存储期限,才将其从数的,仅当超过规定的存储期限,才将其从数据仓库中删除,提取新的数据经集成后输入据仓库中
15、删除,提取新的数据经集成后输入数据仓库。数据仓库。时变性时变性n时变性:许多商业分析要求对发展趋势做出时变性:许多商业分析要求对发展趋势做出预测,对发展趋势的分析需要访问历史数据。预测,对发展趋势的分析需要访问历史数据。因此数据仓库必须不断捕捉因此数据仓库必须不断捕捉OLTP数据库中变数据库中变化的数据,生成数据库的快照,经集成后增化的数据,生成数据库的快照,经集成后增加到数据仓库中去;另外数据仓库还需要随加到数据仓库中去;另外数据仓库还需要随时间的变化删去过期的、对分析没有帮助的时间的变化删去过期的、对分析没有帮助的数据,并且还需要按规定的时间段增加综合数据,并且还需要按规定的时间段增加综合
16、数据。数据。支持管理决策支持管理决策n数据仓库支持数据仓库支持OLAP(联机分析处理)、数据挖掘(联机分析处理)、数据挖掘和决策分析。和决策分析。OLAP从数据仓库中的综合数据出从数据仓库中的综合数据出发,提供面向分析的多维模型,并使用多维分析发,提供面向分析的多维模型,并使用多维分析的方法从多个角度、多个层次对多维数据进行分的方法从多个角度、多个层次对多维数据进行分析,使决策者能够以更加自然的方式来分析数据。析,使决策者能够以更加自然的方式来分析数据。数据挖掘则以数据仓库和多维数据库中的数据为数据挖掘则以数据仓库和多维数据库中的数据为基础,发现数据中的潜在模式和进行预测。因此,基础,发现数据
17、中的潜在模式和进行预测。因此,数据仓库的功能是支持管理层进行科学决策,而数据仓库的功能是支持管理层进行科学决策,而不是事务处理。不是事务处理。数据仓库的技术要求数据仓库的技术要求n大量数据的组织和管理:包含了大量的历史数据,大量数据的组织和管理:包含了大量的历史数据,它是从数据库中提取得来的,不必关心它的数据安它是从数据库中提取得来的,不必关心它的数据安全性和数据完整性。全性和数据完整性。n复杂分析的高性能体现:涉及大量数据的聚集、综复杂分析的高性能体现:涉及大量数据的聚集、综合等,在进行复杂查询时经常会使用多表的联接、合等,在进行复杂查询时经常会使用多表的联接、累计、分类、排序等操作。累计、
18、分类、排序等操作。n对提取出来的数据进行集成:数据仓库中的数据是对提取出来的数据进行集成:数据仓库中的数据是从多个应用领域中提取出来的,在不同的应用领域从多个应用领域中提取出来的,在不同的应用领域和不同的数据库系统中都有不同的结构和形式,所和不同的数据库系统中都有不同的结构和形式,所以如何对数据进行集成也是构建数据仓库的一个重以如何对数据进行集成也是构建数据仓库的一个重要方面。要方面。n对进行高层决策的最终用户的界面支持:提供各种对进行高层决策的最终用户的界面支持:提供各种分析应用工具。分析应用工具。操作数据库与数据仓库的区别n操作数据库系统的主要任务是联机事务处理OLTPn数据仓库在数据分析
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 数据仓库 OLAP 技术
限制150内