数据仓库(一)

目录

《Building the Data Warehouse》第一章 决策支持系统的发展

词汇表

简称 含义
DSS 决策支持系统
DASD 直接存取存储设备
DBMS 数据库管理系统
MIS 管理信息系统

DSS处理演化

创建运行于主文件上的单个应用

  • 顺序访问。所有数据被访问,只有5%或更少真正需要。
  • 主文件和磁盘的使用迅速膨胀。大量冗余文件。

直接存取存储设备的产生

  • 直接读取
  • 产生DBMS。使得程序员能在DASD上方便存储和访问数据。
  • 产生“数据库”思想——所有处理工作的单一数据源

个人计算机/第四代编程语言技术

  • 除了对高性能联机事务处理,对数据进行更多处理。
  • MIS 或称 DSS——产生管理决策的处理过程
  • 产生新思想体系——一个单一数据库既可以用作操作型的高性能事务处理,同时有用作DSS分析处理

进入抽取程序

  • 简单,作用——搜索整个文件或数据库,使用某些标准选择合乎限制的数据,并把数据传到其他文件或数据库中。
  • 为什么?
    • 性能——将数据从高性能联机事务处理方式(?)中转移,与联机事务处理性能不冲突
    • 控制——数据可以被用户控制

蜘蛛网

  • 背景:抽取过多过频繁
  • 失控的抽取过程产生的结构被称为“自然演化体系结构”

自然演化体系结构的问题

问题1:数据缺乏可行性

  • 数据无时基
  • 算法上的差异——例如不同部门对同一个指标的算法的差异
  • 前两个理由的扩展问题——(与具体业务有关,暂时不理解)
  • 由外部数据引起的问题——分析人员在取得的数据来自外界,无法明确其准确性
  • 没有公共的起始数据源——不同部门的文件或数据库之间业务关系怎样,都不存在数据同步或数据共享。

问题2:生产率问题

什么是生产率?——经济学术语,是指由原材料变成产品的过程中的效能和效率表现,是每单位投入的产出。生产率的提高是由于资本或劳动力效率的提高,但将资本生产率和劳动生产率分开计算常常不可能的,通常情况下,生产率这一概念一般限于劳动生产率。

  • 生成企业报表花费大量资源——数据定位、数据编辑
  • 时间代价不是一次性的,前面生成的企业报表非常不可能为后面的报表降低时间代价

问题3:从数据到信息的不可行性

  • 发现相关数据很困难
  • 应用程序中缺少足够的历史数据以满足DSS分析员的需求
  • 自然演化系统结构中建立的系统对信息需求的支持不充分

问题4:方法的变迁

原始数据——公司每天操作运行所用的细节性数据

导出数据——统计出来或计算出来满足公司管理者需要的数据

体系结构设计环境

层次

  • 操作层
  • 原子(数据仓库)层——保存原始数据并服务于高性能事务处理领域
  • 部分层
  • 个体层

集成

数据从操作型环境载入到数据仓库环境,一定要集成才有意义

数据的企业视图是体系结构设计环节的本质之一。

用户

DSS分析员——商务人员(先)、技术人员(后)

DSS分析员的想法和他们对使用数据仓库的理解很重要

开发生命周期

  • 实现数据仓库
  • 集成数据
  • 检验偏差
  • 针对数据编程
  • 设计DSS系统
  • 分析结果
  • 理解需求

硬件利用模式

数据仓库环境是利用的二元模式——要么全部利用,要么都不用。

重建工程

  • 从生产环境中移走大量数据——大部分为档案数据

    • 生产环境易于纠错
    • 生产环境易于重构
    • 生产环境易于监控
    • 生产环境易于索引
  • 从生产环境中移走信息性处理

    • 更小
    • 更简单
    • 更集中

监控数据仓库环境

  • 识别发生了什么增长,增长发生在什么地方,增长以什么速率发生。
  • 识别正在使用什么数据。
  • 估算最终用户得到的响应时间。
  • 确定谁在实际使用数据仓库。
  • 说明正在使用数据仓库中的多少数据。
  • 精确指出数据仓库何时被使用。
  • 识别数据仓库的多少数据被使用。
  • 检查使用数据仓库的层次

本文标题:数据仓库(一)

文章作者:松子

发布时间:2019年04月09日 - 10:04

最后更新:2022年03月26日 - 02:03

博文链接:https://songzi.info/post/83a80715/

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。

0%