第七章数据仓库应用与管理

本资料无预览

如感兴趣请购买后下载

立即下载

资料简介:
7.1数据仓库用户
7.2数据仓库应用案例
7.3数据仓库的运行技术管理
7.4数据仓库的元数据管理
7.5数据仓库应用中的法律问题
7.6数据仓库的成本与效益分析
练习

7.1  数据仓库用户
7.1.1  数据仓库的用户——信息使用者与知识挖掘者
信息的使用者以一种可以预计的、重复的方式使用数据仓库
对数据仓库进行有规律的信息访问
观察一些概括性数据或聚集数据
知识的挖掘者对数据仓库的使用不规则
对仓库中的海量数据进行挖掘
要求数据仓库进行一些复杂的数据处理

7.1.2  信息使用者的数据仓库使用方式
在战术管理层上利用数据仓库监控企业战略实施的效果
往往只涉及到数据仓库的业务运行领域
希望在很短的时间内就能够得到响应
提交的查询大多是一些预先定义好的查询
在数据仓库的设计过程中就要知道这些预定义查询的需求、预定义查询的数据结构和数据内容
常常使用一些概括性的数据

7.1.3  知识挖掘者的数据仓库使用方式
两个方面:一是对从不知晓的企业运营的内在知识进行挖掘,希望挖掘出隐含在企业数据内部的一些商业知识、一些商业模式,为制定企业的发展战略、培养企业的核心竞争力提供帮助。另一是针对企业过去的成功或失败,探索成功或失败的原因,使企业能够继续保持成功或免蹈覆辙。
使用数据仓库的一般过程主要有:概况分析、数据抽取、建模分析和分类处理。

7.2   数据仓库应用案例
7.2.1  分层决策体系
某大型超市在全国各地拥有上百家子公司,各子公司拥有相当大的自主权
公司总部需要集成各地子公司的经营信息
子公司不但数量多,而且经营模式也不尽相同
各子公司也希望能对各自的经营状况进行分析
采用分布式数据仓库方案
各子公司先建立各自的局部数据仓库。然后公司总部再在此基础上建设全局的数据仓库

7.2.2  数据抽样分析
产出率来评价每次化学产品生产的效率
每炉产品有50,000个变量会影响到产品的产出率
50,000个变量中,有的对产品质量影响很大,有的却不显著
最高层是按照专家意见选出最重要的200个变量
下一层是4,000个变量
最低一级存储了所有50,000个变量的数据



7.2.3  发挥历史数据的经济效益
远程函购销售,需要定期向外散发商品目录单
建立一个数据仓库包含各种对零售商有用的集成历史信息方便用户的信息查询
数据仓库的数据直接来自该公司多年的业务活动记录
向客户进行有针对性的销售,可以向客户推销他喜欢的产品
开发成本极低,但是所获取的效益却不可小觑

7.2.4  回扣分析
旅行社每订出一张机票,将获得一定回扣
回扣太低,旅行社就会转向和别的航空公司进行交易
回扣太高,又会降低航空公司的利润
需要两条信息——该航班的当前订票情况和历史订票情况
折衷方案是周期地扫描数据仓库,然后进行统计、汇总,把结果存入数据仓库以备分析之用
制定某个合理回扣比率时,就可方便而快捷地调出当前汇总数据和历史汇总数据进行比较和计算

7.2.5  客户关系管理   
1.维护客户基础
必须避免那些重要客户的流失
不断进行客户的细分工作,发现谁是最好的客户,谁是最好的潜在客户
能够发现竞争对手在哪些地区很活跃,在哪些层次上很敏感
帮助制定非常成功的客户保留计划,针对客户的具体情况提供新的服务协议来赢回客户

7.2.5  客户关系管理   
2.管理的收益
一对一销售的市场营销理念
迅速准确地预期客户需求,提高盈利能力
统一的数据仓库可以将客户服务系统和CRM进行有机集成
为客户提供多层次、个性化、多样化的服务
保持现有的客户、发现潜在客户
对已积累的客户信息,进行深度分析挖掘,产生客户分类模式及行为模式

3.企业的营销策略管理
现有的客户可能会带来取得新的收益机会,利用交叉销售或提升销售可以使企业获得销售的增长。通常企业的业务处理数据是一种特定的信息源,一般仅适用于本企业。如果将业务处理数据与统计数据结合,可以产生一个特定的信息库,利用它可以更好地了解客户,例如客户的购买方式、产品包装、服务需求等方面。具有这些源于数据仓库的经验后,可以制定能带来大量利润或吸引顾客的市场营销策略。

4.改变竞争的基础
从数据仓库中的历史数据中收集关于客户的知识,并通过对实际运行结果的快速反馈而加强这些客户知识。这些知识可能会造就一种可行的、更快和更新的业务运营方式,以便更精确、更全面地满足顾客的需要。例如,市场定位系统可以将更适当的产品、合适的特征,在恰当时间推出,这将使客户更加满意,从而改变企业的竞争基础。
2011-12-19
浏览1739
下载0

已下载用户的评价

您还未下载该资料,不能发表评价;
查看我的 待评价资源
DW数据仓库DW数据仓库数据仓库架构设计师1112011-12-19
没用
7.4 数据仓库的元数据管理 7.4.1 元数据的存储、管理与维护 1.元数据的存储 (1)使用商业或数据仓库信息目录 (2)使用元数据库/数据字典 2.元数据的管理 (1)将元数据组织为易于理解的分类方案 (2)效果分析和查找有效范围的能力 (3)将设计和开发元数据与运作元数据分隔成各自独立的功能 (4)反映修改历史的元数据版本信息 3.元数据的维护 7.4.2 元数据的用户与使用方法 1.元数据的数据仓库开发用户 数据源的物理结构、企业数据模型和数据仓库数据模型 2.元数据的数据仓库维护用户 利用元数据研究这些变化所产生的影响:对数据抽取、清理、加载等程序所带来的影响;保持数据仓库的完整性和正确性 3.元数据的数据仓库最终用户 了解数据仓库中有什么数据,这些数据是从什么地方来的。利用已经存在的查询信息 4.元数据的使用方法 元数据与分析数据同时各自显示、元数据作为分析数据帮助、元数据的直接查询、元数据与分析数据的联动。 7.4.3 元数据管理模型 [attach]14935[/attach] [attach]14936[/attach] 7.5 数据仓库应用中的法律问题 7.5.1 数据的隐私权问题 客户的隐私问题是数据仓库管理中一个背景问题,在建立和管理数据仓库的过程中,对于收集、运用、分发和管理客户信息以及对信息的选择,都需要建立一系列明确的政策、措施和指导方针。客户不仅是保护客户隐私权义务,更重要的是不要使企业陷入因保护客户隐私不当而带来的诉讼泥淖中。 1980年由OECD(经合组织)颁布《隐私保护管理指导方针》对个人隐私数据的收集与处理作了一些规定。 个人数据必须符合实际情况,能够准确、完整地反映个人实际情况。个人应该可以访问自己的数据,可以就有关自己数据的真实性提出质疑。应该能够知道关于个人数据的发展、使用状况和有关政策等信息。 7.5.2 数据隐私权的处理 1.数据隐私的处理 需要让客户了解客户数据收集的目的,客户数据应用的权利,客户数据的认可与客户数据的安全保护。 2.数据隐私控制框架 (1)增强逻辑数据模型 (2)用隐私视图支持限制性访问、选退和匿名 (3)为个人数据管理提供交互式客户服务界面 (4)提供报告验证是否遵守隐私 7.6 数据仓库的成本与效益分析 7.6.1 数据仓库的投资回报的定量分析 投资回报率(ROI,Return On Investment)、回报周期(Payback Period)、净现值(Net Present Value)和内部回报率(Internal Rate of Return)等。 7.6.2 数据仓库投资回报的定性分析 1.为客户提供更好的服务 2.建立企业内部的合作关系 3.对市场机会快速反应 4.既能够管理宏观数据也能够管理微观数据 5.改善管理能力 练习 1.对本章1.4节中的航空公司对旅行社机票回扣案例进行分析,这一数据仓库的体系结构应该具备什么特点? 2.某一银行有一个数据仓库与数据挖掘系统,该系统通过对你的信用卡使用模式研究,注意到你与一家房地产公司有一数额较大的交易,银行主动向你提供了关于房屋装修特别贷款的信息。讨论这种行为是否与你的隐私权发生冲突?能否给出其它的关于数据仓库应用中所发生的隐私权侵犯的问题。能否给出一个在数据仓库应用中既能够锁定促销目标又不侵犯客户隐私权的处理模式 3.数据仓库的开发应用成本/效益分析应该如何进行? 4.数据仓库的开发管理除本章所介绍的一些内容以外,你认为还应该包含哪些管理?
DW数据仓库DW数据仓库数据仓库架构设计师1112011-12-19
没用
7.4 数据仓库的元数据管理 7.4.1 元数据的存储、管理与维护 1.元数据的存储 (1)使用商业或数据仓库信息目录 (2)使用元数据库/数据字典 2.元数据的管理 (1)将元数据组织为易于理解的分类方案 (2)效果分析和查找有效范围的能力 (3)将设计和开发元数据与运作元数据分隔成各自独立的功能 (4)反映修改历史的元数据版本信息 3.元数据的维护 7.4.2 元数据的用户与使用方法 1.元数据的数据仓库开发用户 数据源的物理结构、企业数据模型和数据仓库数据模型 2.元数据的数据仓库维护用户 利用元数据研究这些变化所产生的影响:对数据抽取、清理、加载等程序所带来的影响;保持数据仓库的完整性和正确性 3.元数据的数据仓库最终用户 了解数据仓库中有什么数据,这些数据是从什么地方来的。利用已经存在的查询信息 4.元数据的使用方法 元数据与分析数据同时各自显示、元数据作为分析数据帮助、元数据的直接查询、元数据与分析数据的联动。 7.4.3 元数据管理模型 [attach]159409[/attach] [attach]14936[/attach] 7.5 数据仓库应用中的法律问题 7.5.1 数据的隐私权问题 客户的隐私问题是数据仓库管理中一个背景问题,在建立和管理数据仓库的过程中,对于收集、运用、分发和管理客户信息以及对信息的选择,都需要建立一系列明确的政策、措施和指导方针。客户不仅是保护客户隐私权义务,更重要的是不要使企业陷入因保护客户隐私不当而带来的诉讼泥淖中。 1980年由OECD(经合组织)颁布《隐私保护管理指导方针》对个人隐私数据的收集与处理作了一些规定。 个人数据必须符合实际情况,能够准确、完整地反映个人实际情况。个人应该可以访问自己的数据,可以就有关自己数据的真实性提出质疑。应该能够知道关于个人数据的发展、使用状况和有关政策等信息。 7.5.2 数据隐私权的处理 1.数据隐私的处理 需要让客户了解客户数据收集的目的,客户数据应用的权利,客户数据的认可与客户数据的安全保护。 2.数据隐私控制框架 (1)增强逻辑数据模型 (2)用隐私视图支持限制性访问、选退和匿名 (3)为个人数据管理提供交互式客户服务界面 (4)提供报告验证是否遵守隐私 7.6 数据仓库的成本与效益分析 7.6.1 数据仓库的投资回报的定量分析 投资回报率(ROI,Return On Investment)、回报周期(Payback Period)、净现值(Net Present Value)和内部回报率(Internal Rate of Return)等。 7.6.2 数据仓库投资回报的定性分析 1.为客户提供更好的服务 2.建立企业内部的合作关系 3.对市场机会快速反应 4.既能够管理宏观数据也能够管理微观数据 5.改善管理能力 练习 1.对本章1.4节中的航空公司对旅行社机票回扣案例进行分析,这一数据仓库的体系结构应该具备什么特点? 2.某一银行有一个数据仓库与数据挖掘系统,该系统通过对你的信用卡使用模式研究,注意到你与一家房地产公司有一数额较大的交易,银行主动向你提供了关于房屋装修特别贷款的信息。讨论这种行为是否与你的隐私权发生冲突?能否给出其它的关于数据仓库应用中所发生的隐私权侵犯的问题。能否给出一个在数据仓库应用中既能够锁定促销目标又不侵犯客户隐私权的处理模式 3.数据仓库的开发应用成本/效益分析应该如何进行? 4.数据仓库的开发管理除本章所介绍的一些内容以外,你认为还应该包含哪些管理?
DW数据仓库DW数据仓库数据仓库架构设计师1112011-12-19
没用
7.3数据仓库的运行技术管理 7.3.1 数据加载的一些问题 1.数据准备区 数据准备区的临时数据库,专门用于数据抽取、清理和加载的操作 设置数据抽取、清理和加载的重新启动机制 2.数据加载方式选择 数据加载的方式一般考虑批处理。因为数据的加载活动涉及到的系统资源较多,需要数据源和数据仓库的处理期、内存和外部存储设备。而大多数数据源作为业务处理系统,在白天需要为用户提供实时服务,因此数据仓库的数据加载往往选择在节假日或夜间进行。这就需要数据加载处理与其它的业务处理系统协调好。 3.大批量数据加载的处理 有的数据源禁止单纯的大容量数据加载 大量数据加载往往会导致数据的刷新 大量数据的加载与刷新活动只在数据仓库刚建立好后的第一次数据加载活动中进行 以后的数据加载往往需要采用增量数据加载方法 设置一个影子关键列表 ,包含了所要抽取数据的关键列与业务处理系统中对应变化信息的记录。 大批量数据加载可以采用数据复制技术实现 7.3.2 故障恢复管理 在故障恢复管理中可以采用这样一些步骤。 ·停止包括操作系统(OS)在内的服务器。 ·重新安装和重新配置操作系统。 ·重新标定驱动器。 ·重新安装和重新配置关系数据库系统、监控程序和中间件。 ·对数据重新加载和重新索引。 7.3.3 访问控制与安全管理 1.数据仓库应用的公开性与安全的矛盾 数据仓库主要用于公开收集企业的数据。将这些数据用于决策支持,可以帮助分析者和操作人员改善操作,获取企业战略上的和持久的竞争优势。但是数据仓库的安全性控制则要求限制数据运行的公开化。这就形成了一对鲜明的矛盾。 2.用户的不同访问要求 在数据仓库的操作中,用户按照不同的概括度访问数据仓库内的数据。某一用户可以从高度概括的数据入手,然后不断“细剖”详细的数据。而其他用户则可以在另一概括度上进行操作。这样在安全控制上很难管理每一用户对数据表的访问。 3.知识发现过程对安全的影响 大多数用户通过“知识发现过程”来使用数据仓库。由于用户需进行深入的探索,安全控制就与这一过程发生矛盾。 泄露企业的秘密和战略方向 安全性必须对细剖能力进行限制,并对特定的概括数据表和运作的详细内容提供访问控制,并且还需要限制对数据源的使用,如创建临时表和即席查询等。 一些不怀好意的用户可能会使大量的资源处于停顿状态,从而使数据仓库无法使用。 7.3.4 数据增长的管理 1.概括技术 大量使用概括技术可以明显地减少数据量。当用户把非常详细的信息转化为高度概括的信息时,可以大幅度地减少所需的存储量。 2.对细剖数据的控制 控制细剖的程度可以大大减少数据量。尽管用户往往会提出“我需要所有的数据”,但最终用户一般可以用比实际需要更少的详细数据来管理他们的任务,应提供对细剖数据的访问路径,以满足对低粒度数据的偶然需要。 3.历史数据的限制 限制必须存储到数据仓库中历史数据的长度。由于经济活动与企业的经营管理往往具有一种周期性,在一定的时间内是周期性或者重复性发生的。把存储的历史信息限制到上一个商业周期可能比分析具有边缘值的数据更有价值。 4.数据使用范围的限制 利用能够改变收集数据环境的商业事件知识来限制必须管理的数据范围。例如,当两个公司合并时,它们各自的历史数据价值可往往是不一样的,在数据仓库中可以选择存储具有较大价值的历史数据,而对无价值的数据可以抛弃。 5.睡眠数据的移出 虽然在数据仓库的应用中应该根据历史情况删除不再使用的详细数据。但是用户往往还会过高估计历史数据保存的年限,可能提出了实际上对决策分析没有什么价值的数据,使这些无用的数据在数据仓库中大量地积存下来,不少数据在数据仓库中长期无人使用。造成了数据仓库中有大量的睡眠数据。 解决办法就是找出并移出查询时很少用到的数据。将这些很少使用的数据移出数据仓库,或减少存储量,可以提高查询处理的效率。或采用邻线存储系统的二级存储模式。所谓邻线存储系统就是一种处于在线和离线之间的存储系统,这种系统虽然不是在线联机状态,但是可以为用户提供一个合理的访问时间。由于其价格比在线式的存储系统要低廉,因此适合睡眠数据的存储。
DW数据仓库DW数据仓库数据仓库架构设计师1112011-12-19
没用
7.3数据仓库的运行技术管理 7.3.1 数据加载的一些问题 1.数据准备区 数据准备区的临时数据库,专门用于数据抽取、清理和加载的操作 设置数据抽取、清理和加载的重新启动机制 2.数据加载方式选择 数据加载的方式一般考虑批处理。因为数据的加载活动涉及到的系统资源较多,需要数据源和数据仓库的处理期、内存和外部存储设备。而大多数数据源作为业务处理系统,在白天需要为用户提供实时服务,因此数据仓库的数据加载往往选择在节假日或夜间进行。这就需要数据加载处理与其它的业务处理系统协调好。 3.大批量数据加载的处理 有的数据源禁止单纯的大容量数据加载 大量数据加载往往会导致数据的刷新 大量数据的加载与刷新活动只在数据仓库刚建立好后的第一次数据加载活动中进行 以后的数据加载往往需要采用增量数据加载方法 设置一个影子关键列表 ,包含了所要抽取数据的关键列与业务处理系统中对应变化信息的记录。 大批量数据加载可以采用数据复制技术实现 7.3.2 故障恢复管理 在故障恢复管理中可以采用这样一些步骤。 ·停止包括操作系统(OS)在内的服务器。 ·重新安装和重新配置操作系统。 ·重新标定驱动器。 ·重新安装和重新配置关系数据库系统、监控程序和中间件。 ·对数据重新加载和重新索引。 7.3.3 访问控制与安全管理 1.数据仓库应用的公开性与安全的矛盾 数据仓库主要用于公开收集企业的数据。将这些数据用于决策支持,可以帮助分析者和操作人员改善操作,获取企业战略上的和持久的竞争优势。但是数据仓库的安全性控制则要求限制数据运行的公开化。这就形成了一对鲜明的矛盾。 2.用户的不同访问要求 在数据仓库的操作中,用户按照不同的概括度访问数据仓库内的数据。某一用户可以从高度概括的数据入手,然后不断“细剖”详细的数据。而其他用户则可以在另一概括度上进行操作。这样在安全控制上很难管理每一用户对数据表的访问。 3.知识发现过程对安全的影响 大多数用户通过“知识发现过程”来使用数据仓库。由于用户需进行深入的探索,安全控制就与这一过程发生矛盾。 泄露企业的秘密和战略方向 安全性必须对细剖能力进行限制,并对特定的概括数据表和运作的详细内容提供访问控制,并且还需要限制对数据源的使用,如创建临时表和即席查询等。 一些不怀好意的用户可能会使大量的资源处于停顿状态,从而使数据仓库无法使用。 7.3.4 数据增长的管理 1.概括技术 大量使用概括技术可以明显地减少数据量。当用户把非常详细的信息转化为高度概括的信息时,可以大幅度地减少所需的存储量。 2.对细剖数据的控制 控制细剖的程度可以大大减少数据量。尽管用户往往会提出“我需要所有的数据”,但最终用户一般可以用比实际需要更少的详细数据来管理他们的任务,应提供对细剖数据的访问路径,以满足对低粒度数据的偶然需要。 3.历史数据的限制 限制必须存储到数据仓库中历史数据的长度。由于经济活动与企业的经营管理往往具有一种周期性,在一定的时间内是周期性或者重复性发生的。把存储的历史信息限制到上一个商业周期可能比分析具有边缘值的数据更有价值。 4.数据使用范围的限制 利用能够改变收集数据环境的商业事件知识来限制必须管理的数据范围。例如,当两个公司合并时,它们各自的历史数据价值可往往是不一样的,在数据仓库中可以选择存储具有较大价值的历史数据,而对无价值的数据可以抛弃。 5.睡眠数据的移出 虽然在数据仓库的应用中应该根据历史情况删除不再使用的详细数据。但是用户往往还会过高估计历史数据保存的年限,可能提出了实际上对决策分析没有什么价值的数据,使这些无用的数据在数据仓库中大量地积存下来,不少数据在数据仓库中长期无人使用。造成了数据仓库中有大量的睡眠数据。 解决办法就是找出并移出查询时很少用到的数据。将这些很少使用的数据移出数据仓库,或减少存储量,可以提高查询处理的效率。或采用邻线存储系统的二级存储模式。所谓邻线存储系统就是一种处于在线和离线之间的存储系统,这种系统虽然不是在线联机状态,但是可以为用户提供一个合理的访问时间。由于其价格比在线式的存储系统要低廉,因此适合睡眠数据的存储。

贡献者

DW数据仓库数据仓库架构设计师,111
X社区推广