论述数据仓库的建立。

题目
问答题
论述数据仓库的建立。
如果没有搜索结果或未解决您的问题,请直接 联系老师 获取答案。
相似问题和答案

第1题:

数据仓库是企业为进行决策分析而专门建立的数据管理环境。()


正确答案:√

第2题:

由于公司业务的扩展,管理层需要更多类型的报表以支持决策,公司决定建立数据仓库来支持决策支持系统。试用300字以内文字,简要论述数据仓库的基本特征。


正确答案:(1)面向主题:数据仓库是面向主题的而传统联机事务处理环境是面向应用的。 (2)集成:数据仓库是集成的数据仓库中的数据是从多个不同的数据源传送来的当数据进入数据仓库时就需要进行转换、重新格式化、重新排列及汇总等以得到具有单一映像的数据。 (3)非易失性:传统联机事务处理环境中的数据一般是按一次一条记录的方式进行的而且数据一般也是必须更新的但数据仓库中的数据通常是以批量的方式进行载人与访问的而且数据仓库中的数据并不进行一般意义上的更新。 (4)时变性:数据仓库中的每个数据单元都只是在某一时间点是准确的仓库中的记录都包含了时间戳以说明数据在哪一时间是准确的。 简述数据仓库的基本特征。 第二步:根据问题要点仔细阅读正文找出相应段落 (1)抽取程序它的作用就是根据用户给定的搜索条件搜索指定的数据库或者文件将满足条件的数据传送到另一个数据库或文件中。 (2)“不同的部门可以根据自己的需求来选取数据”这是一个解决数据可信性问题的一个关键线索。 (3)支持多级抽取在抽取数据的过程中一个职能部门也可以从另外一个职能部门抽取的结果中进行第二次抽取。 (4)数据仓库技术的应用背景。由于公司业务的扩展管理层需要更多类型的报表以支持决策公司决定建立数据仓库来支持决策支持系统。 第三步:分析试题的内容构思答案的要点
(1)面向主题:数据仓库是面向主题的,而传统联机事务处理环境是面向应用的。 (2)集成:数据仓库是集成的,数据仓库中的数据是从多个不同的数据源传送来的,当数据进入数据仓库时,就需要进行转换、重新格式化、重新排列及汇总等,以得到具有单一映像的数据。 (3)非易失性:传统联机事务处理环境中的数据一般是按一次一条记录的方式进行的,而且数据一般也是必须更新的,但数据仓库中的数据通常是以批量的方式进行载人与访问的,而且数据仓库中的数据并不进行一般意义上的更新。 (4)时变性:数据仓库中的每个数据单元都只是在某一时间点是准确的,仓库中的记录都包含了时间戳,以说明数据在哪一时间是准确的。 简述数据仓库的基本特征。 第二步:根据问题要点,仔细阅读正文,找出相应段落 (1)抽取程序,它的作用就是根据用户给定的搜索条件,搜索指定的数据库或者文件,将满足条件的数据传送到另一个数据库或文件中。 (2)“不同的部门可以根据自己的需求来选取数据”,这是一个解决数据可信性问题的一个关键线索。 (3)支持多级抽取,在抽取数据的过程中,一个职能部门也可以从另外一个职能部门抽取的结果中进行第二次抽取。 (4)数据仓库技术的应用背景。由于公司业务的扩展,管理层需要更多类型的报表以支持决策,公司决定建立数据仓库来支持决策支持系统。 第三步:分析试题的内容,构思答案的要点 解析:[问题1]
抽取程序是一个简单的程序,它通过搜索整个文件或数据库,使用某些标准选择合乎限定的数据,并把数据传到其他文件或数据库中。由于以下2个方面的原因,使得抽取程序很快就变得十分流行起来。
(1)因为用抽取程序能够将数据从高性能联机事务处理方式中转移出来,所以在需要总体分析数据时不与联机事务性能发生冲突。
(2)当用抽取程序将数据从操作型事务处理范围内转移出时,数据的控制方式就发生了转变,最终用户一旦开始控制数据,他就最终“拥有”了这些数据。
从上面的描述中,应试者不难总结出使用数据抽取程序的优点。
[问题2]
由于数据抽取可以多级进行,起初只是抽取,随后是抽取之上的抽取,接着是在此基础上的再次抽取,因此将形成抽取处理的蜘蛛网结构。显然,这种被称为“自然演化体系结构”的抽取过程是很容易失控的。
这种自然演化的体系结构带来的最大问题包括数据可信性、生产率和数据转化为信息的不可行性。下面分别介绍。
(1)数据缺乏可信性
正如题目中所述,数据抽取可能会出现“2个职能部门向管理层提交报表,一个部门认为公司业绩下降了5%,另一个部门认为公司业绩上升了20%”的现象,而且无法协调,到底是谁的数据可信呢?造成这一现象的主要原因是什么呢?
①数据无时基:例如,某个部门进行数据抽取时采用的数据是上周末的数据,而另一个部门却是基于本周四的数据进行数据抽取,这必然导致差异的存在。而且由于企业的数据实时在变化,多个抽取过程所基于的数据是不可能一致的。
②数据算法上的差异:在数据分析时所采用的算法上,不同的抽取过程可能不同。例如,一个部门对所有老顾客进行分析,而另一个部门则是基于大顾客进行的分析,那么结果出现不同的话,完全在情理之中。
③抽取的多层次:每次新的抽取结束时,由于抽取时间和采用的算法不同,因而产生的抽取结果也就不相同。在公司中,从数据进入公司系统到决策者准备好分析所采用的数据,经常需要经过很多次的抽取,8~9层的抽取也是十分常见的,因此最后产生的差异将显然地被放大。
④外部数据问题:由于利用当今的计算机技术、网络技术,是很容易从外部数据源取得数据的。如果分析者采用了不同的外部数据源,那么抽取出来的结果产生差异也在情理之中。
⑤无起始公共数据源:另外,由于在企业中数据源很多,如果执行抽取的人采用的数据源不相同的话,那么产生这种差异也是十分正常的。
由于这5个方面的原因,在企业或机构中,使用这种自然演化体系结构的数据抽取过程差生不可信的数据将成为很正常的现象。这也是产生数据仓库技术的重要原因之一。
(2)生产率问题
数据的可信性还不是自然演化体系结构中惟一的主要问题。当需要查询机构数据时,生产率是不可预测的,而且通常是很低的。由于企业在经营过程中经常会积累海量信息,因此在以下几个方面将存在着很大工作量。
①定位报表需要的数据并分析数据:要进行数据定位,必须分析很多文件和数据布局,但由于在企业数据库,同一个数据元素可能存在于多个数据库、多张表中,除非对数据进行分析和“合理化”处理,否则报表终将产生更大的混乱。
②为报表编辑数据:一旦数据定位完成,就需要进行数据编辑,但通常要写大量的定制的程序,而且这些程序通常涵盖了公司拥有的所有技术。
此外,要考虑公司为这项工作组织合适的人员的开销。
(3)从数据转化为信息的不可行性
该体系存在的第三个重要缺陷是抽取出来的还是数据,而不是信息(或称为知识)。由于该体系产生的数据缺乏集成性,应该没有办法提升到信息的高度,还需要决策者通过经验进行分析。这也是产生数据挖掘技术的重要原因之一。
通过上面的分析,可以充分地了解到数据抽取技术的不足与缺陷,理解这些缺陷产生的原因,应试者不难从中总结出问题2的答案。
[问题3]
从上面的分析中可以发现,自然演化体系结构的存在方式确实不足以满足日益发展的需求。因此体系结构需要转变,从而发展出了以数据仓库为核心的体系结构设计环境。体系结构设计环境的核心是意识到存在着2种基本数据:原始数据和导出数据。
(1)原始数据:即公司与机构每天操作运行所用的细节性数据,通常是以重复方式运行的过程操作。
(2)导出数据;即统计出来的或计算出来的满足公司管理者需要的数据,通常是由非重复地启发式地运行的程序操作。
现在数据仓库技术已经是决策支持系统处理的基础。数据仓库技术通过构建单一的集成的数据资源,使得数据可以访问。与传统数据环境相比,在该基础上决策支持处理系统分析员的工作要容易得多。
什么是数据仓库呢?著名的数据仓库专家W.H.Inmon在其著作Building the Data Warehouse一书中给予如下描述:数据仓库(data warehouse)是一个面向主题的(subjeet oriented)、集成的(integrate)、非易失的(non-volatile)且随时间变化的(time variant)的数据集合,用于支持管理决策。
(1)面向主题。操作型数据库的数据组织面向事务处理任务(面向应用),各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。例如,一个保险公司进行的事务处理(应用问题)可能包括汽车保险、人寿保险、健康保险和意外保险等,而公司的主要主题范围可能是顾客、保险单、保险费和索赔等。
(2)集成的。在数据仓库的所有特性中,这是最重要的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。表6-1说明当数据由面向事务处理的操作型数据向数据仓库传送时所进行的集成。有4个不同的应用系统,系统中对人的性别的标识如表6-1所示。

那么,在将4个系统的性别信息向数据仓库导人时就涉及集成问题,例如,可以统一将性别信息表示为m,f。
(3)相对稳定性(非易失性)。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。如图6-4说明了数据仓库的非易失性、相对稳定性。

图6-4说明了操作型数据环境下,是正规地一次访问和处理一个记录,可以对数据进行修改和更新。数据仓库中的数据却表现出不同的特性:数据通常是被一起载入和访问的,而且在数据仓库环境中并不进行一般意义上的数据更新操作。
(4)反映历史变化或者说是随着历史变化。操作型数据库主要关心当前某个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时间点 (如开始应用数据仓库的时间点)到目前的各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
数据仓库专家w.H.Inmon所给出的定义刻画出了数据仓库的主要特点,问题3的解答可以根据上述讨论整理出来。

第3题:

在数据仓库建立过程中,对数据进行纠正和预处理的过程称为数据__________ 。


正确答案:
清理
【解析】在数据仓库建立过程中,对数据进行纠正和预处理的过程称为数据清理。

第4题:

阅读以下关子数据仓库的叙述,回答问题1、问题2和问题3。

随着计算机应用的不断普及,某集团公司先后建立了生产、销售、财务、人事管理等应用系统,并积累了大量的数据。面对日益激烈的市场竞争,公司领导希望建立一个分析环境,对积累的数据进行再加工,以支持高层决策。

公司技术部门的王总工程师提出建立一个数据仓库系统。他认为数据仓库能够将企业内部分散的、跨平台的数据重新组织与加工,建立数据仓库的最终目标是建立一个全面、完善的信息应用平台,利用该信息平台,进行数据分析和数据挖掘,支持公司高层的决策分析。

经过讨论,大家认为目前建立数据仓库需要完成的基础工作有:

(1)明确数据仓库的目的,了解公司的业务现状,特别要弄清数据源所在的系统和其中的数据状况。

(2)收集决策者的需求。分析领导的决策取向和当前最主要的工作目标,并初步建立系统的逻辑模型。

(3)构建数据仓库。包括数据仓库的设计、组织和管理以及决策信息的展示。

(4)数据仓库的应用推广和人员的培训。

(5)引进必要的产品和工具。

在讨论中,有些工程师提出了不同的意见。有人认为由于缺乏经验,应该先建立小规模的数据集市,然后再升级到完整的数据仓库系统。

(1)请用150字以内文字,简要叙述与数据仓库相比,数据集市具有哪些特点。

(2)请用100字以内文字,简要说明这种开发方法的优缺点。


正确答案:[解答要点] (1)与数据仓库相比数据集市具有以下特点: ▲ 规模小灵活可以按照多种方式来组织数据如按特定的应用、部门、地域、主题等。 ▲ 开发工作可由业务部门定义、设计、实施、管理和维护。 ▲ 能够快速实现代价较低投资回收期短风险小。 ▲ 工具集的紧密集成。 ▲ 有利于升级到完整的数据仓库或形成分布式数据仓库。 (2)这种方法花费低、灵活性高并能快速回报投资;但是将分散的数据集市集成起来形成一个一致的企业仓库可能很困难。
[解答要点] (1)与数据仓库相比,数据集市具有以下特点: ▲ 规模小,灵活,可以按照多种方式来组织数据,如按特定的应用、部门、地域、主题等。 ▲ 开发工作可由业务部门定义、设计、实施、管理和维护。 ▲ 能够快速实现,代价较低,投资回收期短,风险小。 ▲ 工具集的紧密集成。 ▲ 有利于升级到完整的数据仓库或形成分布式数据仓库。 (2)这种方法花费低、灵活性高,并能快速回报投资;但是将分散的数据集市集成起来,形成一个一致的企业仓库可能很困难。 解析:传统的数据库系统中缺乏决策分析所需的大量历史数据信息,因为传统的数据库一般只保留当前或近期的数据信息。尽管传统的数据库技术在联机事务处理(OLTP)中获得了成功,但是无法满足随着市场竞争的加剧而带来的管理人员对决策分析数据提供的要求。为了满足中高层管理人员预测、决策分析的需要,在传统数据库的基础上产生了能够满足预测、决策分析需要的数据环境——据仓库(Data arehouse)。
传统的数据库系统主要是面向事务的处理,数据仓库则是面向分析的处理。面向事务处理的传统数据库系统在系统的响应、数据的集成、数据动态更新、历史数据整理、决策操作等方面存在诸多问题,已不再适应新形势下管理决策分析的需要。
因此,预测、决策分析需要一个能够不受传统事务处理的约束,高效率处理决策分析数据的支持环境,数据仓库就是满足这一要求的数据存储和数据组织技术。
第一步:总结出问题的要点
从联机事务处理应用到决策支持系统应用的转变,也使得“数据仓库”、“数据挖掘”等一系列技术得到了广泛的重视。也日益成为近几年考试的重点,因此应试者应该对其全面地理解和掌握。
[问题1]
本问题主要是要求应试者能够理解“数据仓库”与小规模“数据集市”之间的概念区别,并且要求说明先建立数据集市再升级到数据仓库的开发方法的优缺点。
[问题2]
本问题主要是要求应试者能够理解现在常用的增量的、演进的方式开发数据仓库系统的整个过程与步骤。
[问题3]
本问题主要集中在“DB-ODS-DW”模式与“DB-DW'’模式之间的区别上,要求应试者能够准确地说明ODS与DW有什么主要区别。
第二步:根据问题要点,仔细阅读全文,找出相应的段落
(1)在题目的前两段主要是引出建设数据仓库系统的需求,也说明了其目标在于:“将企业内部分散的、跨平台的数据重新组合与加工,建立数据仓库的最终目标是建立一个较全面、完善的信息应用平台,利用该信息平台,进行数据分析和数据挖掘,支持公司高层的决策分析”。
(2)另外,题目中还总结出建立数据仓库需要完成以下工作:明确数据仓库目的、收集决策者的需求、构建数据仓库、应用推广和人员培训、引进必要的产品和工具。
(3)在问题1中,题目中直接说到“有人认为由于缺少经验,应该先建立小规模的数据集市,然后再升级到完整的数据仓库系统。”的意见,这也是构思数据集市与数据仓库之间区别的重要信息。
其他的信息主要都是常见的描述信息,对构思答案并没有太大帮助,因此关键还在于考生平时对相关概念的理解情况。
第三步:分析试题的内容,构思答案要点

第5题:

在1993年发表的《建立数据仓库》中,谁给出了数据仓库的定义? ( )

A.E.F.Codd

B.EES.Chen

C.S.R.Navathe

D.W.H.Inmon


正确答案:D
解析:W.H.Imnon在《建立数据仓库》著作中指出,数据仓库是面向主题的、集成的、稳定的、随时间变化的数据的集合,用以支持经营管理中的决策制定过程。

第6题:

数据仓库的工程是巨大的,对于企业来说也不是必须的,但是如果只是想进行数据挖掘,就必须要专门建立数据仓库。()

此题为判断题(对,错)。


参考答案:错误

第7题:

在1993年发表的《建立数据仓库》中,谁给出了数据仓库的定义? ( )

A.E.F.Codd

B.P.P.S.Chen

C.S.R.Navathe

D.W.H.Inmon


正确答案:D
解析:H.Inmon在《建立数据仓库》著作中指出,数据仓库是面向主题的、集成的、稳定的、随时间变化的数据的集合,用以支持经营管理中的决策制定过程。

第8题:

简述建立数据仓库的基本步骤。


正确答案:(1)系统分析,确定主题;(2)选择满足数据仓库系统要求的软件平台;(3)建立数据仓库的逻辑模型;(4)逻辑数据模型转化为数据仓库数据模型;(5)数据仓库数据模型优化;(6)数据清洗转换和传输;(7)开发数据仓库的分析应用;(8)数据仓库的管理

第9题:

通常,实施商业智能(BI)的步骤依次是:需求分析→(3)→用户培训和数据模拟测试→系统改进和完善。

A.建立BI分析报表→数据抽取→数据仓库建模

B.数据抽取→建立BI分析报表→数据仓库建模

C.建立BI分析报表→数据仓库建模→数据抽取

D.数据仓库建模→数据抽取→建立BI分析报表


正确答案:D
解析:实施商业智能系统是一项复杂的系统工程,整个项目涉及企业管理、运作管理、信息系统、数据仓库、数据挖掘和统计分析等众多门类的知识,因此用户除了要选择合适的商业智能软件工具外,还必须遵循正确的实施方法才能保证项目得以成功。通常,实施商业智能(BI)的步骤依次是:需求分析→数据仓库建模→数据抽取→建立BI分析报表→用户培训和数据模拟测试→系统改时和完善。

第10题:

实施商业智能系统是一项复杂的系统工程。用户除了要选择合适的商业智能软件工具外.还必须遵循正确的实施方法才能保证项目得以成功。通常,实施商业智能(BI)的步骤依次是:需求分析一__________一用户培训和数据模拟测试一系统改进和完善。 A.建立Bl分析报表一数据抽取一数据仓库建模 B.数据抽取一建立81分析报表一数据仓库建模 C.建立Bl分析报表一数据仓库建模一数据抽取 。 D.数据仓库建模一数据抽取一建立Bl分析报表


正确答案:D
要点解析:实施商业智能系统是一项复杂的系统工程,整个项目涉及企业管理、运作管理、信息系统、数据仓库、数据挖掘和统计分析等众多门类的知识,因此用户除了要选择合适的商业智能软件工具外,还必须遵循正确的实施方法才能保证项目得以成功。通常,实施商业智能(BI)的步骤依次是:需求分析一数据仓库建模一数据抽取一建立81分析报表一用户培训和数据模拟测试一系统改进和完善。