对于数据ETL,怎样实现高效的数据清洗?

目前各行中的数据分发平台(ODS\MDS等)底层都是基于传统关系型数据库实现,而大数据平台的数据来源怎样保证其数据来源的可靠及有效?需要如何对数据分发平台(ODS\MDS等类似系统)进行改造?
参与10

5同行回答

tongxiaojuntongxiaojun技术总监北京红象云腾系统技术有限公司
分布式ETL,现在已经发展成为 ELT技术。先分布式抽取,加载到Hadoop HDFS等系统中,在分布式平台上做转换,整个数据在HDFS流转。现在ETL,在抽取(E),转换(T)上都会遇到单机瓶颈。显示全部
分布式ETL,现在已经发展成为 ELT技术。先分布式抽取,加载到Hadoop HDFS等系统中,在分布式平台上做转换,整个数据在HDFS流转。现在ETL,在抽取(E),转换(T)上都会遇到单机瓶颈。收起
互联网服务 · 2015-07-03
浏览2826
wang_fengwang_feng软件架构设计师威海市商业银行
我在实际应用中对大数据数据来源是通过统一的数据交换目录,各源系统来卸载数据文件,分布导出到各自的数据目录,通过网络共享存储来进行数据交换。其可靠性和有效性,目前大部分依赖于源系统。如果有ODS,可以考虑由ODS来完成数据有效性和可靠性检查,然后由ODS导出数据文件,个人一...显示全部
我在实际应用中对大数据数据来源是通过统一的数据交换目录,各源系统来卸载数据文件,分布导出到各自的数据目录,通过网络共享存储来进行数据交换。其可靠性和有效性,目前大部分依赖于源系统。如果有ODS,可以考虑由ODS来完成数据有效性和可靠性检查,然后由ODS导出数据文件,个人一点见解。收起
银行 · 2015-07-03
浏览2832
尘世随缘尘世随缘技术总监上海某互联网金融公司
个人见解:这种东西不能一蹴而就,应该是分布是实现。可以先将数据分发平台部分数据割接到大数据中大数据的用途主要是用来预测,所以不能100%保证数据的可靠,使用大数据需要容忍一定的错误概率。...显示全部
个人见解:
这种东西不能一蹴而就,应该是分布是实现。
可以先将数据分发平台部分数据割接到大数据中
大数据的用途主要是用来预测,所以不能100%保证数据的可靠,使用大数据需要容忍一定的错误概率。收起
互联网服务 · 2015-07-03
浏览2845
hongyehongyehongyehongye数据库管理员哈尔滨银行
多谢大家交流!显示全部
多谢大家交流!收起
银行 · 2015-07-03
浏览2794
michaelhugangmichaelhugang产品总监星环科技
数据ETL,高效数据清洗,例如电网的数据质量管理,设定数据质量规则, 完全可以分布式的,性能可以比ORACLE快几倍。但要看你瓶颈在哪里?如果瓶颈在计算,那ETL用原来的传统系统也够用了。上大数据是为了解决痛点,如果原来的系统也可以解决问题,那就不折腾了。...显示全部
数据ETL,高效数据清洗,例如电网的数据质量管理,设定数据质量规则, 完全可以分布式的,性能可以比ORACLE快几倍。但要看你瓶颈在哪里?如果瓶颈在计算,那ETL用原来的传统系统也够用了。上大数据是为了解决痛点,如果原来的系统也可以解决问题,那就不折腾了。收起
软件开发 · 2015-07-03
浏览2829

提问者

hongyehongye
数据库管理员哈尔滨银行
擅长领域: 服务器存储数据库

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2015-07-03
  • 关注会员:2 人
  • 问题浏览:6696
  • 最近回答:2015-07-03
  • X社区推广