数据仓库的开发设计过程44494.docx
《数据仓库的开发设计过程44494.docx》由会员分享,可在线阅读,更多相关《数据仓库的开发设计过程44494.docx(42页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、数据仓库之路FAQFAQ目录一、与数据仓仓库有关的几几个概念21.1目录2二、数据仓库库产生的原因因6三、数据仓库库体系结构图图7四、数据仓库库设计84.1数据仓仓库的建模84.2数据仓仓库建模的十十条戒律:9五、数据仓库库开发过程95.1数据模模型的内容95.2数据模模型转变到数数据仓库105.3数据仓仓库开发成功功的关键11六、数据仓库库的数据采集集116.1后台处处理126.2中间处处理126.3前台处处理136.4数据仓仓库的技术体体系结构136.5数据的的有效性检查查156.6清除和和转换数据156.7简单变变换166.8清洁和和刷洗176.9集成186.10聚集集和概括206.11
2、移动动数据20七、如何建立立数据仓库227.1数据仓仓库设计227.2数据抽抽取模块237.3数据维维护模块24一、 与数据仓库有关关的几个概念念1.1 目录 Datawarrehousse Datamarrt OLAP ROLAP MOLAP ClientOOLAP DSS ETL Adhocquuery EIS BPR BI Dataminning CRM MetaDatta Data wwarehoouse本世纪80年代代中期,“数据仓库之之父”Williiam H.Inmonn先生在其建建立数据仓库库一书中定定义了数据仓仓库的概念,随随后又给出了了更为精确的的定义:数据据仓库是在企企业
3、管理和决决策中面向主主题的、集成成的、与时间间相关的、不不可修改的数数据集合。与与其他数据库库应用不同的的是,数据仓仓库更像一种种过程,对分分布在企业内内部各处的业业务数据的整整合、加工和和分析的过程程。而不是一一种可以购买买的产品。 Data mmart即数据集市,或或者叫做“小数据仓库库”。如果说数数据仓库是建建立在企业级级的数据模型型之上的话。那那么数据集市市就是企业级级数据仓库的的一个子集,他他主要面向部部门级业务,并并且只面向某某个特定的主主题。数据集集市可以在一一定程度上缓缓解访问数据据仓库的瓶颈颈。 OLAP联机分析处理(OLAP)的概念最早早是由关系数数据库之父EE.F.Coo
4、dd于19993年提出出的。当时,Codd认认为联机事务务处理(OLLTP)已不不能满足终端端用户对数据据库查询分析析的需要,SSQL对大数数据库进行的的简单查询也也不能满足用用户分析的需需求。用户的的决策分析需需要对关系数数据库进行大大量计算才能能得到结果,而查询的结结果并不能满满足决策者提提出的需求。因因此Coddd提出了多维维数据库和多多维分析的概概念,即OLLAP。Coodd提出OOLAP的112条准则来来描述OLAAP系统:准则1 OLAP模模型必须提供供多维概念视视图准则2 透明性准则则准则3 存取能力推推测准则4 稳定的报表表能力准则5 客户/服务务器体系结构构准则6 维的等同性
5、性准则准则7 动态的稀疏疏矩阵处理准准则准则8 多用户支持持能力准则准则9 非受限的跨跨维操作准则10 直直观的数据操操纵准则11 灵活的报表表生成准则12 不不受限的维与与聚集层次 ROLAP基于Codd的的12条准则则,各个软件件开发厂家见见仁见智,其其中一个流派派,认为可以以沿用关系型型数据库来存存储多维数据据,于是,基基于稀疏矩阵阵表示方法的的星型结构(sstarscchema)就就出现了。后后来又演化出出雪花结构。为为了与多维数数据库相区别别,则把基于于关系型数据据库的OLAAP称为Reelatioonal OOLAP,简简称ROLAAP。代表产产品有Infformixx Metaa
6、cube、MMicrossoft SSQL SeerverOLAP Seervicees. MOLAP严格遵照Coddd的定义,自自行建立了多多维数据库,来来存放联机分分析系统数据据的Arboor Sofftwaree,开创了多多维数据存储储的先河,后后来的很多家家公司纷纷采采用多维数据据存储。被人人们称为MuuiltDiimensiion OLLAP,简称称MOLAPP,代表产品品有Hypeerion(原Arboor sofftwaree) Esssbase、SShowcaase STTRATEGGY等。 Clientt OLAPP相对于Servver OLLAP而言。部部分分析工具具厂家建
7、议把把部分数据下下载到本地,为为用户提供本本地的多维分分析。代表产产品有Briio Dessignerr, Bussinesss Objeect. DSS决策支持系统(DDecisiion Suupportt systtem),相相当于基于数数据仓库的应应用。决策支支持就是在收收集所有有关关数据和信息息,经过加工工整理,来为为企业决策管管理层提供信信息,为决策策者的决策提提供依据。 ETL数据抽取(Exxtractt)、转换(TTransfform)、清清洗(Cleeansinng)、装载载(Loadd)的过程。构构建数据仓库库的重要一环环,用户从数数据源抽取出出所需的数据据,经过数据据清洗,
8、最终终按照预先定定义好的数据据仓库模型,将将数据加载到到数据仓库中中去。 Ad hocc querry即席查询,数据据库应用最普普遍的一种查查询,利用数数据仓库技术术,可以让用用户随时可以以面对数据库库,获取所希希望的数据。 EIS领导信息系统(EExecuttive IInformmationn Systtem),指指为了满足无无法专注于计计算机技术的的领导人员的的信息查询需需求,而特意意制定的以简简单的图形界界面访问数据据仓库的一种种应用。 BPR业务流程重整(BBusineess Prrocesss Reenngineeering),指利用数据据仓库技术,发发现并纠正企企业业务流程程中的
9、弊端的的一项工作。数数据仓库的重重要作用之一一。 BI商业智能(Buusinesss Inttelliggence),指数据仓库库相关技术与与应用的通称称。指利用各各种智能技术术,来提升企企业的商业竞竞争力。 Data mminingg数据挖掘,Daata Miining是是一种决策支支持过程,它它主要基于AAI、机器学学习、统计学学等技术,高高度自动化地地分析企业原原有的数据,作作出归纳性的的推理,从中中挖掘出潜在在的模式,预预测客户的行行为,帮助企企业的决策者者调整市场策策略,减少风风险,作出正正确的决策CRM客户关系管理(CCustommer Reelatioonshipp manaag
10、emennt),数据据仓库是以数数据库技术为为基础但又与与传统的数据据库应用有着着本质区别的的新技术,CCRM就是基基于数据仓库库技术的一种种新应用。但但是,从商业业运作的角度度来讲,CRRM其实应该该算是一个古古老的应用用了。比如如,酒店对客客人信息的管管理,如果某某个客人是某某酒店的老主主顾,那么该该酒店很自然然地会知道这这位客人的某某些习惯和喜喜好,如是否否喜欢靠路边边,是否吸烟烟,是否喜欢欢大床,喜欢欢什么样的早早餐,等等。当当客人再次光光临时,不用用客人自己提提出来,酒店店就会提供客客人所喜欢的的房间和服务务。这就是一一种CRM. Meta DData 元数据据,关于数据据仓库的数据
11、据,指在数据据仓库建设过过程中所产生生的有关数据据源定义,目目标定义,转转换规则等相相关的关键数数据。同时元元数据还包含含关于数据含含义的商业信信息,所有这这些信息都应应当妥善保存存,并很好地地管理。为数数据仓库的发发展和使用提提供方便。二、 数据仓库产生的的原因事务处理环境不不适宜DSSS应用的原因因主要有以下下五条: (1)事事务处理和分分析处理的性性能特性不同同。 在事务务处理环境中中,用户的行行为特点是数数据的存取操操作频率高而而每次操作处处理的时间短短;在分析处处理环境中,用用户的行为模模式与此完全全不同,某个个DSS应用程程序可能需要要连续几个小小时,从而消消耗大量的系系统资源。将
12、将具有如此不不同处理性能能的两种应用用放在同一个个环境中运行行显然是不适适当的。 (2)数数据集成问题题。 DSSS需要集成的的数据。全面面而正确的数数据是有效的的分析和决策策的首要前提提,相关数据据收集得越完完整,得到的的结果就越可可靠。当前绝绝大多数企业业内数据的真真正状况是分分散而非集成成的。造成这这种分散的原原因有多种,主主要有事务处处理应用分散散、“蜘蛛网”问题、数据据不一致问题题、外部数据据和非结构化化数据。 (3)数数据动态集成成问题。 静态集集成的最大缺缺点在于,如如果在数据集集成后数据源源中数据发生生了变化,这这些 变化将不能能反映给决策策者,导致决决策者使用的的是过时的数数
13、据。集成数数据必须以一一定的周期(例例如24小时)进进行刷新,我我们称其为动动态集成。显显然,事务处处理系统不具具备动态集成成的能力。 (4)历历史数据问题题。 事务处处理一般只需需要当前数据据,在数据库库中一般也是是存储短期数数据,切不同同数据的保存存期限也不一一样,即使有有一些历史数数据保存下来来了,也被束束之高阁,未未得到充分利利用。但对于于决策分析而而言,历史数数据是相当重重要的,许多多分析方法必必须一大量的的历史数据为为依托。没有有历史数据的的详细分析,是是难以把握企企业的发展趋趋势的。DSSS对数据在在空间和时间间的广度上都都有了更高的的要求,而事事务处理环境境难以满足这这些要求。
14、 (5)数数据的综合问问题。 在事务务处理系统中中积累了大量量的细节数据据,一般而言言,DSS并不对对这些细节数数据进行分析析。在分析前前,往往需要要对细节数据据进行不同程程度的综合。而而事务处理系系统不具备这这种综合能力力,根据规范范化理论,这这种综合还往往往因为是一一种数据冗余余而加以限制制。要提高分析和决决策的效率和和有效性,分分析型处理及及其数据必须须与操作型处处理及其数据据相分离。必必须把分析型型数据从事务务处理环境中中提取出来,按按照DSS处理的的需要进行重重新组织,建建立单独的分分析处理环境境,数据仓库库正是为了构构建这种新的的分析处理环环境而出现的的一种数据存存储和组织技技术。
15、三、 数据仓库体系结结构图四、 数据仓库设计4.1 数据仓库的建模模 数据模型1) 所有的实体都是是平等关系。2) 仅仅从数据模型型的角度来着着手设计数据据仓库会产生生一种“平面”效应。 星型连接1) 事实表:位于星星型连接的中中央,它是被被大量载入数数据的实体。2) 维表:周围的其其它实体。3) 在很多情况下:文本数据与与数值数据是是分离开的。通过数据预连接接和建立有选选择的数据冗冗余,设计者者为访问和分分析过程大大大简化了数据据。星型连接应用于于设计数据仓仓库中很大的的实体,而数数据模型则应应用于数据仓仓库中较小的的实体。4.2 数据仓库建模的的十条戒律:1) 必须回答紧迫的的问题;2)
16、必须有正确的事事实表;3) 将有正确的维表表,描述必须须按最终用户户的业务术语语表达;4) 必须理解数据仓仓库所影响的的公司过程或或影响数据仓仓库的公司过过程;5) 对于事实表,应应该有正确的的“粒度”;6) 根据需要存储正正确长度的公公司历史数据据;7) 以一种对于公司司有意义的方方式来集成所所有必要的数数据;8) 创建必要的总结结表;9) 创建必要的索引引;10) 能够加载数据仓仓库数据库并并使它以一种种适宜的方式式可用。五、 数据仓库开发过过程 建立或获得企业业的数据模型型; 定义记录系统; 设计数据仓库并并按主题领域域进行组织; 设计和建立操作作型环境中的的记录系统和和数据仓库之之间的
17、接口,这这些接口能保保证数据仓库库的载入工作作能有序的进进行; 开始载入第一个个主题领域,进进入载入和反反馈过程,数数据仓库中的的数据在此过过程中也在不不断地改变。5.1 数据模型的内容容 标识主要主题领领域。 各个主要主题之之间的各种关关系。 清晰地定义模型型的边界。 把原始数据和导导出数据分离离。 每个主题领域需需要标识 键码 属性 属性分组之间的的关系 多重出现的数据据 数据的类型5.2 数据模型转变到到数据仓库 如果原先没有时时间元素的话话,时间元素素必须加入到到键码结构中中 必须清除所有的的纯操作型数数据 需要将参照完整整性关系转换换成“人工关系” 将经常需要用到到的到处数据据假如到
18、设计计中 对数据的结构进进行调整 增加数据阵列 增加数据冗余 在合适的情况下下进一步分离离数据 在合适的时候合合并数据表 需要做数据的稳稳定性分析5.3 数据仓库开发成成功的关键关键:是数据体体系结构设计计者和DSSS分析者之间间的反馈循环环。有几点观观察结果对数数据仓库环境境的成功建立立是至关重要要的问题: DSS分析人员员一定要严格格遵循“给我我所要要的东西,然然后我能告诉诉你我真正需需要的东西”的工作模式式; 反馈循环的周期期越短,越有有可能成功; 需要调整的数据据量越大,反反馈循环所需需要的周期就就越长六、 数据仓库的数据据采集许多部件构成了了数据仓库系系统。这个系系统从现有的的操作系
19、统开开始,一部分分为支持数据据仓库而设的的后台处理,以以访问和运用用数据仓库内内数据的用户户工具而结束束。在中间是是个分散过程程,它使数据据以一种局部部而不是集中中的方式来支支持用户。至至于其他系统统,则是覆盖盖这些处理过过程技术的基基础,如安全全系统,它不不仅控制着在在终端数据仓仓库的输入过过程,还控制制着用户在数数据仓库的前前台访问能力力。数据仓库库处理的部件件如图: 后置处理理中间处理前置处理安全处理用户查询操作系统数据存储器数据的转换和清理数据仓库部门数据中心多维数据中心6.1 后台处理数据仓库系统统的后台处理理利用了操作作系统的数据据存储器,以以进入数据仓仓库内占有活活动区域:这这个
20、处理包括括以下几个部部分: 数据处理为数数据仓库收集集数据的过程程是从当前操操作系统开始始的。该数据据仓库的后台台处理需要被被分成可管理理的几个处理理模块。操作作系统生成必必须处理和输输入到数据仓仓库的事务。在在数据仓库系系统的结构内内必须有一种种方法来截取取和收集那些些在操作系统统内已改变的的数据,主要要用于数据仓仓库的输入处处理。 数据采集在收收集到操作数数据存储器内内的变化后,数数据仓库的后后台处理必须须采集所有同同以前收集的的事务相关的的数据。数据据采集过程通通常仅仅获取取驱动数据采采集过程的关关键信息。数据制备成成事务库并用用它来更新和和供给数据仓仓库系统。这这个过程在整整个数据仓库
21、库系统中是最最复杂的,因因为用户正处处理多种遗留留数据源。这这些数据源中中的一些较为为容易使用,而而大部分则不不是这样。6.2 中间处理数据仓库系统统的中间处理理利用了一个个登台区域来来完成在数据据仓库中对用用户游泳的数数据。登台区区域有时被叫叫正式地指定定为操作数据据存储器。 数据清理在收收集到所有从从操作系统存存储器得来的的相关信息后后,数据必须须在放入数据据仓库之前进进行清理,以以获得一个适适当的统一的的格式和定义义。 数据的放置和分分发当完成数据据清理后,数数据就必须放放置到数据仓仓库中。 标准报表的编译译和索引在数据已放放入数据仓库库数据存储器器之后,对包包含于数据仓仓库系统内的的标
22、准报表必必须进行编译译和索引。在在这个过程结结束后,报表表很像数据仓仓库内的原始始数据,将让让用户在线有有用,不必用用纸张的形式式发送。中间处理更新新了数据仓库库中登台区域域的数据,并并使之成为可可供最终客户户,也就是数数据仓库系统统的用户使用用的信息库。6.3 前台处理前台处理过程程涉及到允许许用户对数据据仓库所包含含的信息进行行正确的访问问,及提供用用户工具集所所需的目录和和中间数据信信息。大多数数数据仓库项项目的目标应应当是驱使这这一过程进入入强大的用户户领域,并脱脱离信息系统统空间。然而而,需要构造造几个关键的的应用程序以以用于经验不不足的数据仓仓库用户。该该过程的任务务包括用新的的信
23、息内容来来更新访问数数据仓库的应应用程序,通通过适当的用用户工具组内内的视图或分分类定义来提提高访问能力力。6.4 数据仓库的技术术体系结构虽然普遍认为为数据仓库系系统能够改善善最终用户查查询、报表生生成和DSSS能力,而且且能帮助组织织投入公司数数据以获取市市场竞争优势势,但在数据据仓库系统构构成方面看法法却不尽相同同。数据仓库库的技术体系系结构如下图图:源数据外部数据信息目录模块数据仓库之元数据数据管理员模块数据仓库之数据数据获取模块数据传递模块中间件模块数据访问模块设计模块管理模块外部元数据 设计模块:用于于设计数据仓仓库数据库 数据获取模块:用于从源文文件和源数据据库中获取数数据,并进
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 开发 设计 过程 44494
限制150内