美国队长

美国队长

研发工程师Alibaba

动态

2017-04-25 · 回答了问题

Hadoop没有事务，那如果有需求是否还是要用传统数据库

hadoop是大部分用在进行数据仓库构造中，数据仓库的数据应该不是经常变化的，经常变化的应该还是用传统的数据库，所以按照这个逻辑，使用hadoop的时候就不应该出现要求事务的情况...

赞同
2017-04-24 · 回答了问题

新建大数据平台时数据主题区如何建设？

根据不同业务，举个例子，阿里分为淘宝天猫等，然后淘宝数据又按照不同业务，最后根据数据仓库建模，形成不同的主题

赞同 2
2017-04-24 · 回答了问题

hadoop平台组件如何选型--技术框架层面

没有完全规定的模式，我个人理解的有数据压入，如sqoop，flume等，模型处理我理解成就是数据清洗这个一步方法多种多样考虑到后面还有数据汇总跟数据输出，如果是规范性输入比如a|b|c等通过制定分隔符进行分割的，可以考虑使用hi...

赞同
2017-04-24 · 回答了问题

请问为啥现在是spark时代还要用hadoop

spark跟hadoop用在不同的场景，spark用在实时吃内存，如果项目小或者考虑成本再加上对数据查询速度要求不高，就可以用hadoop，成本低，配置不要求搞

赞同
2017-04-24 · 回答了问题

数据冗余到hbase还是hive比较好

你这个问题标题跟你的内容不怎么相合，我解释一下，你的内容问题，hive跟hbase其实都只是提供数据查询跟数据管理的框架，底层的数据存储还是hdfs，所有实质是利用hdfs进行数据冗余是可以的，既然是冗余在乎的是存储的安全性，而不...

赞同 2
2017-04-21 · 回答了问题

关于阿里的同步工具Datax

这个是Datax的官网可以看一下我简单介绍一下，datax支持从oracle mysql，postgresql，hdfs等相互之间同步，他只需要你配置一个json文件，这个json文件的格式就是在我刚刚发的url中，最后利用datax的框架执行一个python 命令就能...

赞同 1
2017-04-21 · 发布了问题

关于阿里的同步工具Datax

关注 1

回答问题

浏览8823

回答1
2017-04-21 · 回答了问题

请教一下oracle rac 和 hadoop的分布式集群的真正区别在哪儿？

oraclc rac是通过创建实例来实现集群化，其他不是真正意义的分布式而hadoop真正做到了一个task几台机器同时进行计算

赞同
2017-04-21 · 回答了问题

到底在什么情况下采用hadoop的生态框架，比如hdfs，mapreduce等？

hdfs：对于海量的数据比如几十G以上的数据进行存储mapreduce：比如你想对你的数据，每一行进行数据规整，比如时间格式，字符串提取等，前提是你的数据文件中的数据是由特殊符号间隔的...

赞同
2017-04-21 · 回答了问题

Oracle转Hadoop，存储过程怎么转mapreduce？

我觉得首先你要理解mapreduce的运行原理，可以查看一下wordcount的代码讲解，然后对oracle的存储过程进行抽象化转成mapreduce处理数据的模式

赞同

关于美国队长

用户名：美国队长
职位：研发工程师
公司： Alibaba
行业：互联网服务
社区声望：2162
荣誉等级：0

关注TA的人

更多关注TA的人 >>

最近来访

关于TWT 使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们
© 2024 talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30

X社区推广