数据仓库(四)

目录

《Building the Data Warehouse》第四章 粒度

数据仓库开发者要解决的重要的设计问题是粒度确定

粗略估算

起点——粗略估算数据仓库中将来的数据行数和所需DASD(直接存取存储设备)数——关于数量级的估计。

例子

估计数据仓库环境中的行数/空间大小

  1. 对每一个已知的表:

    ​ 计算一行所占字节数的

    ​ 最大估计值

    ​ 最小估计值

    对一年内:

    ​ 最大行数可能是多少?

    ​ 最小行数可能是多少?

    对五年内:

    ​ 最大行数可能是多少?

    ​ 最小行数可能是多少?

    对表的每个键码:

    ​ 该键码的大小(按字节)是多少;

    ​ 一年总的最大空间=最大行大小 * 一年内最大行数

    ​ 一年总的最小空间=最小行大小 * 一年内最小行数

    ​ 累加索引空间

  2. 对所有已知的表重复第1步

粒度划分过程的输入

估计的行数DASD数作为粒度划分过程的输入

空间估算、行估算

  • 需要多少DASD?排序的引导时间估计是多少?
  • 需要双重粒度吗?

选择双重还是单一的粒度

确定粒度的级别

对于轻度汇总的数据要确定合适的粒度级别,唯一可行的方法是将数据拿到最终用户面前。

反馈循环技巧(不是很懂)

粒度级别——银行环境

《Building the Data Warehouse》第五章 数据仓库与技术

数据仓库在技术上的需求

技术需求

1. 管理大量数据——最重要

具体方法:

  • 寻址
  • 索引
  • 数据的外延
  • 有效的溢出管理

两方面——

  • 能够管理大量数据的能力
  • 能够管理好的能力

2. 管理多介质

在处理大量数据时满足高效率合理的费用

层次划分

存储方式 访问速度 存储费用
主存 非常快 非常贵
扩展内存 非常快
高速缓存 非常快
DASD 适中
光盘 不慢 不贵
缩微胶片 便宜

处理数据仓库技术应该能管理多种存储介质上的数据。

3. 索引/数据监视

数据仓库——灵活性对数据会进行不可预测的访问——要能对数据进行快速和方便的访问

索引——有用的、建立和应用的费用不能太高

数据监视——费用不能太高过程不能太复杂在需要时随时运行

监视数据仓库中数据的理由

  • 决定是否应数据重组
  • 决定是否应数据重组。
  • 决定索引是否建立得不恰当。
  • 决定是否有太多数据溢出。
  • 决定数据的统计成份。
  • 决定剩余的可用空间。

4. 多种技术的接口

能够用各种不同的技术获得和传送数据

接口不仅要高效,还要便于使用,并能够在批模式下运行

本文标题:数据仓库(四)

文章作者:松子

发布时间:2019年04月13日 - 20:04

最后更新:2022年03月26日 - 02:03

博文链接:https://songzi.info/post/498d51fa/

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。

0%