目录
《Building the Data Warehouse》第四章 粒度
数据仓库开发者要解决的重要的设计问题是粒度确定。
粗略估算
起点——粗略估算数据仓库中将来的数据行数和所需DASD(直接存取存储设备)数——关于数量级的估计。
例子
估计数据仓库环境中的行数/空间大小
对每一个已知的表:
计算一行所占字节数的
最大估计值
最小估计值
对一年内:
最大行数可能是多少?
最小行数可能是多少?
对五年内:
最大行数可能是多少?
最小行数可能是多少?
对表的每个键码:
该键码的大小(按字节)是多少;
一年总的最大空间=最大行大小 * 一年内最大行数
一年总的最小空间=最小行大小 * 一年内最小行数
累加索引空间
对所有已知的表重复第1步
粒度划分过程的输入
估计的行数和DASD数作为粒度划分过程的输入
空间估算、行估算
- 需要多少DASD?排序的引导时间估计是多少?
- 需要双重粒度吗?
选择双重还是单一的粒度
确定粒度的级别
对于轻度汇总的数据要确定合适的粒度级别,唯一可行的方法是将数据拿到最终用户面前。
反馈循环技巧(不是很懂)
粒度级别——银行环境
《Building the Data Warehouse》第五章 数据仓库与技术
数据仓库在技术上的需求
技术需求
1. 管理大量数据——最重要
具体方法:
- 寻址
- 索引
- 数据的外延
- 有效的溢出管理
两方面——
- 能够管理大量数据的能力
- 能够管理好的能力
2. 管理多介质
在处理大量数据时满足高效率和合理的费用
层次划分
存储方式 | 访问速度 | 存储费用 |
---|---|---|
主存 | 非常快 | 非常贵 |
扩展内存 | 非常快 | 贵 |
高速缓存 | 非常快 | 贵 |
DASD | 快 | 适中 |
光盘 | 不慢 | 不贵 |
缩微胶片 | 满 | 便宜 |
处理数据仓库技术应该能管理多种存储介质上的数据。
3. 索引/数据监视
数据仓库——灵活性、对数据会进行不可预测的访问——要能对数据进行快速和方便的访问
索引——有用的、建立和应用的费用不能太高
数据监视——费用不能太高、过程不能太复杂、在需要时随时运行
监视数据仓库中数据的理由
- 决定是否应数据重组
- 决定是否应数据重组。
- 决定索引是否建立得不恰当。
- 决定是否有太多数据溢出。
- 决定数据的统计成份。
- 决定剩余的可用空间。
4. 多种技术的接口
能够用各种不同的技术获得和传送数据
接口不仅要高效,还要便于使用,并能够在批模式下运行