第四章 数据仓库中的粒度
正在加载中...
资料简介:
数据仓库开发者需要解决的最重要的单一设计问题是数据仓库中的粒度确定。当数据仓
库的粒度合理确定后,设计和实现的其他问题就会非常容易地解决,相反如果没有合理地确
定粒度的话,就会影响其他每个方面。
对选择合适级别的粒度的权衡—像我们在以前已讨论过的—将集中讨论在高粒度级别
上管理大量数据和存储数据,数据的细节的用法将不被考虑。
4.1 粗略估算
确定合适的粒度级的起点,是粗略估算数据仓库中将来的数据行数和所需D A S D(直接存
取存储设备)数。毫无疑问,即使在最好的情况下我们也仅能做一下估计。但在建立数据仓库
之初,所需的只是一个数量级上的估计。
有一个计算数据仓库所占的空间的算法,如图
4 - 1所示。第一步是确定数据仓库中将要创建的所
有表。然后,估计每张表中的行的大小。确切大
小可能难以知道,估计一个下界和一个上界就可
以了。
接下来,估计一年内表中的最少行数和最多
行数。这是设计者所要解决的最大问题。比方说
一个顾客表,就应该估计在一定的商业环境和该
公司的商业计划影响下的当前的顾客数;如果当
前没有业务,就估计为总的市场业务量乘以市场
份额;如果市场份额不可知的话,就用竞争对手
的业务量来估计。总之,要从一方或多方收集顾
客的合理估算信息开始。
如果数据仓库是用来存放业务活动的话,就要
估计顾客数量,以及估计每个时间单位内业务活
动量。同样,可用相同的方法分析当前的业务量、
竞争对手的业务量、经济学家的预测报告,等等。
一旦估计完一年内数据仓库中数据单位的数量(用上下限推测的方法),就用同样的方法对
五年内的数据进行估计。
粗略数据估计完后,就要计算一下索引数据所占的空间。对每张表(对表中的每个键码)确
定键码的长度和原始表中每条数据是否存在键码。
现在将各表中行数可能的最大值和最小值分别乘以数据的最大长度和最小长度。另外,
还要将索引项的数目与键码的长度的乘积累加到总的数据量中去。
估计数据仓库环境中的行数/空间大小
1. 对每一个已知的表:
计算一行所占字节数的
-最大估计值
-最小估计值
对一年内:
最大行数可能是多少?
最小行数可能是多少?
对五年内:
最大行数可能是多少?
最小行数可能是多少?
对表
库的粒度合理确定后,设计和实现的其他问题就会非常容易地解决,相反如果没有合理地确
定粒度的话,就会影响其他每个方面。
对选择合适级别的粒度的权衡—像我们在以前已讨论过的—将集中讨论在高粒度级别
上管理大量数据和存储数据,数据的细节的用法将不被考虑。
4.1 粗略估算
确定合适的粒度级的起点,是粗略估算数据仓库中将来的数据行数和所需D A S D(直接存
取存储设备)数。毫无疑问,即使在最好的情况下我们也仅能做一下估计。但在建立数据仓库
之初,所需的只是一个数量级上的估计。
有一个计算数据仓库所占的空间的算法,如图
4 - 1所示。第一步是确定数据仓库中将要创建的所
有表。然后,估计每张表中的行的大小。确切大
小可能难以知道,估计一个下界和一个上界就可
以了。
接下来,估计一年内表中的最少行数和最多
行数。这是设计者所要解决的最大问题。比方说
一个顾客表,就应该估计在一定的商业环境和该
公司的商业计划影响下的当前的顾客数;如果当
前没有业务,就估计为总的市场业务量乘以市场
份额;如果市场份额不可知的话,就用竞争对手
的业务量来估计。总之,要从一方或多方收集顾
客的合理估算信息开始。
如果数据仓库是用来存放业务活动的话,就要
估计顾客数量,以及估计每个时间单位内业务活
动量。同样,可用相同的方法分析当前的业务量、
竞争对手的业务量、经济学家的预测报告,等等。
一旦估计完一年内数据仓库中数据单位的数量(用上下限推测的方法),就用同样的方法对
五年内的数据进行估计。
粗略数据估计完后,就要计算一下索引数据所占的空间。对每张表(对表中的每个键码)确
定键码的长度和原始表中每条数据是否存在键码。
现在将各表中行数可能的最大值和最小值分别乘以数据的最大长度和最小长度。另外,
还要将索引项的数目与键码的长度的乘积累加到总的数据量中去。
估计数据仓库环境中的行数/空间大小
1. 对每一个已知的表:
计算一行所占字节数的
-最大估计值
-最小估计值
对一年内:
最大行数可能是多少?
最小行数可能是多少?
对五年内:
最大行数可能是多少?
最小行数可能是多少?
对表
2013-08-07
浏览7199
下载164
已下载用户的评价7.89分
您还未下载该资料,不能发表评价;
查看我的 待评价资源
查看我的 待评价资源