目录
《Building the Data Warehouse》第二章 数据仓库环境
词汇表
简称 | 含义 |
---|---|
DSS | 决策支持系统 |
DASD | 直接存取设备 |
DBMS | 数据库管理系统 |
数据仓库的特性
数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策。
结构
不同的细节级——早期细节级(备用的、批量的存储)、当前细节级、轻度综合数据集(数据集市)、高度综合数据集。
面向主题
数据仓库是面向在数据模型中已定义好的公司的主要主题领域的。典型的主题领域例如:
- 顾客。
- 产品。
- 事务或活动。
- 保险单。
- 索赔。
- 帐目。
在数据仓库中,主要主题领域是以一组相关的表来具体实现的。
有的数据存储在直接存取DASD上,有的数据存储在磁带上。数据存储在不同介质上意味着在数据仓库中可能有多个DBMS对数据进行管理,或者某些数据根本没有被某个DBMS管理。不能仅仅因为数据存储在磁带上,就认为它不是数据仓库的一部分。
随时间变化
建立数据仓库是进化性的——数据仓库只能一次一步地进行设计和载入数据。由于建立数据仓库的成本,数据仓库的建立要采用有序地反复和一次一步地方式。
粒度——第一个主要涉及问题
粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;反之则反。
粒度是主要的设计问题——数据仓库的数据量大小和查询的详细程度的权衡——它深深地影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答的查询类型。
粒度的例子
暂时还不太理解
粒度的双重级别
当一个企业或组织的数据仓库中拥有大量数据时,在数据仓库的细节部分考虑双重 (或多重)粒度级是很有意义的。事实上,需要多个粒度级而不是一个粒度级的需求,是因为粒度级设计采用双重级别应该是几乎每个机构默认的选择。
分隔问题——第二个主要设计问题
如果粒度和分隔做得很好,则数据仓库的设计和实现的几乎所有其他问题都容易解决。
数据分隔是把数据分散到各自的物理单元中去,它们能独立地处理。分隔问题的焦点是如何去进行分隔。
样本数据库
数据仓库的一种特殊形式,只是真实档案数据或轻度综合数据的子集。
在人口统计分析等情况下,样本数据库是非常有用的,其最大好处是存取效率非常高。一个分析员可能花24小时来浏阅与分析一个大数据库,而浏览与分析一个样本数据库则可能只需10分钟。在进行启发式分析中,周转时间对可以进行的分析而言是至关重要的。
但是其存在一些苛刻的限制,假如设计者知道这些限制,否则就不应该创建这种数据库作为数据仓库的一部分。
数据分割——不同于数据分隔
问题:如何对当前细节数据进行分割。
准确含义:当结构相同的数据被分成多个数据物理单元时,数据便被分割了。此外,任何给定的数据单元属于且仅属于一个分割。
总体目的:把数据划分成小的物理单元。
重要性:因为小的物理单元能为操作者和设计者在管理数据时提供比对大的物理单元更大的灵活性。
数据库放在大的物理单元,不容易实现的——重构、自由索引、顺序扫描、重组、恢复、监控。
数据仓库的本质之一就是灵活地访问数据。如果是大块的数据,就达不到这一要求。
常见的数据分隔的标准有:时间、商业线、地理位置、组织单位等等
主要问题之一:在系统层上还是在应用层上对数据进行分割
数据仓库中的数据组织
简单堆积结构——最简单最常见
轮转综合数据存储——简单~的一种变种
上面的对比
简单直接文件
连续文件
创建的两种方法
- 依据两个或更多的简单直接文件能生成一种连续文件
- 通过把一个快照追加到一个以前生成的连续文件上来创建