目录
《Building the Data Warehouse》第一章 决策支持系统的发展
词汇表
简称 | 含义 |
---|---|
DSS | 决策支持系统 |
DASD | 直接存取存储设备 |
DBMS | 数据库管理系统 |
MIS | 管理信息系统 |
DSS处理演化
创建运行于主文件上的单个应用
- 顺序访问。所有数据被访问,只有5%或更少真正需要。
- 主文件和磁盘的使用迅速膨胀。大量冗余文件。
直接存取存储设备的产生
- 直接读取
- 产生DBMS。使得程序员能在DASD上方便存储和访问数据。
- 产生“数据库”思想——所有处理工作的单一数据源
个人计算机/第四代编程语言技术
- 除了对高性能联机事务处理,对数据进行更多处理。
- MIS 或称 DSS——产生管理决策的处理过程
- 产生新思想体系——一个单一数据库既可以用作操作型的高性能事务处理,同时有用作DSS分析处理。
进入抽取程序
- 简单,作用——搜索整个文件或数据库,使用某些标准选择合乎限制的数据,并把数据传到其他文件或数据库中。
- 为什么?
- 性能——将数据从高性能联机事务处理方式(?)中转移,与联机事务处理性能不冲突
- 控制——数据可以被用户控制
蜘蛛网
- 背景:抽取过多过频繁
- 由失控的抽取过程产生的结构被称为“自然演化体系结构”
自然演化体系结构的问题
问题1:数据缺乏可行性
- 数据无时基
- 算法上的差异——例如不同部门对同一个指标的算法的差异
- 前两个理由的扩展问题——(与具体业务有关,暂时不理解)
- 由外部数据引起的问题——分析人员在取得的数据来自外界,无法明确其准确性
- 没有公共的起始数据源——不同部门的文件或数据库之间业务关系怎样,都不存在数据同步或数据共享。
问题2:生产率问题
什么是生产率?——经济学术语,是指由原材料变成产品的过程中的效能和效率表现,是每单位投入的产出。生产率的提高是由于资本或劳动力效率的提高,但将资本生产率和劳动生产率分开计算常常不可能的,通常情况下,生产率这一概念一般限于劳动生产率。
- 生成企业报表花费大量资源——数据定位、数据编辑
- 时间代价不是一次性的,前面生成的企业报表非常不可能为后面的报表降低时间代价
问题3:从数据到信息的不可行性
- 发现相关数据很困难
- 应用程序中缺少足够的历史数据以满足DSS分析员的需求
- 自然演化系统结构中建立的系统对信息需求的支持不充分
问题4:方法的变迁
原始数据——公司每天操作运行所用的细节性数据
导出数据——统计出来或计算出来满足公司管理者需要的数据
体系结构设计环境
层次
- 操作层
- 原子(数据仓库)层——保存原始数据并服务于高性能事务处理领域
- 部分层
- 个体层
集成
数据从操作型环境载入到数据仓库环境,一定要集成才有意义。
数据的企业视图是体系结构设计环节的本质之一。
用户
DSS分析员——商务人员(先)、技术人员(后)
DSS分析员的想法和他们对使用数据仓库的理解很重要
开发生命周期
- 实现数据仓库
- 集成数据
- 检验偏差
- 针对数据编程
- 设计DSS系统
- 分析结果
- 理解需求
硬件利用模式
数据仓库环境是利用的二元模式——要么全部利用,要么都不用。
重建工程
从生产环境中移走大量数据——大部分为档案数据
- 生产环境易于纠错
- 生产环境易于重构
- 生产环境易于监控
- 生产环境易于索引
从生产环境中移走信息性处理
- 更小
- 更简单
- 更集中
监控数据仓库环境
- 识别发生了什么增长,增长发生在什么地方,增长以什么速率发生。
- 识别正在使用什么数据。
- 估算最终用户得到的响应时间。
- 确定谁在实际使用数据仓库。
- 说明正在使用数据仓库中的多少数据。
- 精确指出数据仓库何时被使用。
- 识别数据仓库的多少数据被使用。
- 检查使用数据仓库的层次