作者·2010-11-20 18:47
·

浅谈:数据挖掘在数据仓库中的成功应用

字数 3447阅读 2034评论 0赞 0
与商业智能相关的词汇有例如数据仓库,数据装载(ETL),数据挖掘(Data Mining), 客户关系管理(CRM),SAS,PeopleSoft, SAP等。理清他们之间的关系才能准确制订个人职业发展规划。

  到上个世纪九十年代,以数据存储为目的的联机分析处理系统(OLTP)已经发展得相当成熟,关系型数据库的应用已经非常普及,大型企业或部门积累了大量原始数据。这些数据是按照关系型结构存储,在更新,删除,有效存储(少冗余数据)方面表现出色,但在复杂查询方面效率却十分低下。为充分利用已有数据,提供复杂查询,提供更好的决策支持,出现了数据仓库(Data Warehouse)。数据仓库与数据库(这里的数据库指关系型数据库)的区别在于,数据仓库以方便查询(称为主题)为目的,打破关系型数据库理论中标准泛式的约束,将数据库的数据重新组织和整理,为查询,报表,联机分析等提供数据支持。数据仓库建立起来后,定期的数据装载(ETL)成为数据仓库系统一个主要的日常工作。

  在数据仓库发展的同时,一项从大量数据中发现隐含知识的技术也在学术领域兴起,这就是数据挖掘。数据挖掘也称为数据库知识发现(Knowledge Discovery in Databases, KDD),就是将高级智能计算技术应用于大量数据中,让计算机在有人或无人指导的情况下从海量数据中发现潜在的,有用的模式(也叫知识)。最初的数据挖掘应用一般需要从组织数据做起,经历算法设计(建模),挖掘,评价,改进等步骤。其中组织整理数据占据大部分时间,大约占到整个数据挖掘项目80%的时间。

  数据挖掘是近年来信息爆炸推动下的新兴产物,是从海量数据中提取有用知识的热门技术。传统的交易型系统,九十年代兴起的互连网技术及ERP系统在越来越廉价的存储设备配合下,产生了大量的数据。但与之相配合的数据分析和知识提取技术在相当长一段时间里没有大的进展,使得存储的大量原始数据没有被充分利用,转化成指导生产的“知识”,形成“数据的海洋,知识的荒漠”这样一种奇怪的现象。

  数据挖掘(Data Mining)就是从大量数据中发现潜在规律、提取有用知识的方法和技术。因为与数据库密切相关,又称为数据库知识发现(Knowledge Discovery in Databases,KDD)。数据挖掘不但能够学习已有的知识,而且能够发现未知的知识;得到的知识是“显式”的,既能为人所理解,又便于存储和应用,因此一出现就得到各个领域的重视。从80年代末的初露头角到90年代末的广泛应用,以数据挖掘为核心的商业智能(BI)已经成为IT及其它行业中的一个新宠。目前数据挖掘技术在零售业的货篮数据(Basket data)分析、金融风险预测、产品产量、质量分析、分子生物学、基因工程研究、Internet站点访问模式发现以及信息搜索和分类等许多领域得到了成功的应用。如果你访问著名的亚马逊网上书店(www.amazon.com),会发现当你选中一本书后,会出现相关的推荐数目“Customers who bought this book also bought”,这背后就是数据挖掘技术在发挥作用。

  数据挖掘的真正普及是建立在数据仓库的成功应用之上。一个设计完善的数据仓库已经将原始数据经过了整理和变换,在此基础上再进行深入挖掘就是顺理成章的事情。数据挖掘渗透到某些行业,产生了一些特定的应用,比如现在经常会听到的客户关系管理(Customer Relationship Management, CRM)。客户关系管理的概念由来已久,但现代的客户关系管理一般指以客户数据为处理对象的一类商业智能应用。通过挖掘客户信息,发现潜在的消费趋势或动向。比如电信公司通过分析用户通话模式(通话时间,时段,通话量等),制订不同的计费方案,满足用户的同时也提高自己的利润。同其它应用一样,客户关系管理发展到一定阶段,会出现相应的系统供应商。据2003年1月的一项调查,CRM市场的领先者从高到低依次为PeopleSoft, Seibel, Oracle, SAP. 微软公司也将加入CRM市场。
 
从上可以看出,商业智能的应用领域非常广泛。它通常以数据仓库为基础,以数据挖掘为核心,演变出类似CRM这样的应用。一个商业智能系统的开发涉及到很多知识和技能,能够从事商业智能系统开发,那当然是最好不过的。如果没有这样的机会,对于想进入商业智能领域的朋友,应该如何规划自己的职业发展?

  首先,根据自己想从事的应用领域,比照该行业商业智能应用所需的知识和经验,找出自己的长处和不足。比如已经有零售业,医药业,制造业的工作经验,或熟悉数据库,编程,人工智能,统计学等。然后补充自己的不足。通过与该领域有经验人士交流,查阅资料,自学或参加相关培训或选修大学课程都是弥补自己不足的手段。当你对将要从事的工作心中有数后,可以开始尝试申请入门级职位。不要编造经历,但要展示你对所申请职位所具备的相关经验(如 business方面的)和知识(会用到的技术,名词, 清晰的概念)。在得到入门级职位后,要留心更高级职位用到的技术,软件等。然后利用业余时间继续补充相关知识。一旦内部有更高级职位的空缺,你又能够展示你具备的相关知识,就具有很强的竞争里,因为一般情况下公司都会愿意给内部职员一个尝试的机会的。

  如果既没有business背景,又没有数据挖掘方面经验,该如何寻求突破呢?下面的例子不是唯一的道路,有心的朋友应该能得到启发。

  一般正规的呼叫中心(这里指呼出服务)的工作方式是这样的:每天分析员根据现阶段的任务,从大量客户数据中筛选出响应可能性高的客户名单,交给业务代表;业务代表根据下达的客户名单做电话推销,对每个电话的结果做相应记录;根据客户实际响应情况,分析员调整筛选算法,选出第二天的客户名单;分析客户响应或不响应的原因。这就是一个典型的客户关系管理在呼叫中心应用的例子。

  取得一个呼叫中心客户代表的职位并不难。难的是有没有看到做客户代表除每小时11,12元工资外潜在的价值。通过做客户代表,应该对该中心使用的客户关系管理系统有了应用经验,通过与主管或分析员的交流,应该了解交到你手里的客户名单是怎么分析出来的。心中有数后,就是等待时机的出现了。一个客户筛选算法的改进建议,一个内部分析员职位的空缺,就是展示自己商业智能方面能力的机会。这时的你,已经具备了其他应聘者所不具备的优势:有相关工作背景知识,熟悉应用环境和内部主管,提前知道空缺消息…

  规划个人职业发展的时候,在众多考虑因素中有两个是非常重要的:所要投入的技术所处的发展阶段和能否结合已有专业知识。

  一种技术从提出到广泛应用(或失败被抛弃)有一定的发展周期,称为科学技术的生命周期(Technological life cycle)。该周期大致分为创新(Innovators),早期成长(Early adopters),分歧点(Chasm),早期流行(Early majority),晚期流行(Late majority)和衰退阶段(Laggards)。对于应用型技术人员来说,早期流行阶段是进入一个新技术领域的最佳时机, 因为该技术已经通过分歧点的考验,又处于上升阶段,风险最小,竞争最少,更容易脱颖而出。数据挖掘技术现在就处在这样一个早期流行阶段。

  数据挖掘的对象是某一专业领域中积累的数据;挖掘过程是一个人机交互、多次反复的过程;挖掘的结果要应用于该专业。因此数据挖掘的整个过程都离不开应用领域的专业知识。“Business First, technique second”是数据挖掘的特点。因此学习数据挖掘不意味着丢弃原有专业知识和经验。相反,有其它行业背景是从事数据挖掘的一大优势。如有销售,财务,机械,制造,call center等工作经验的,通过学习数据挖掘,可以提升个人职业层次,在不改变原专业的情况下,从原来的事务型角色向分析型角色转变。

  我们正处于一个信息爆炸的年代,能够在第一时间内获得或者找到最有价值的信息和资源,则成为企业在激烈地竞争中取胜的重要的因素,所以, 商业智能(Business Intelligence)应运而生,而与之相关的技术和工具如Data Warehouse、 Data Mining、SAS则以惊人的速度得到快速、蓬勃的发展。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关问题

相关资料

X社区推广