尘世随缘

尘世随缘

技术总监上海某互联网金融公司

回答

软件开发数据库 Hadoop 部署配置
回答于 · 2015-05-15

hadoop 部署配置core-site.xml的疑问

这个是nameNode的IP，每个dataNode需要和NameNode通信的。

赞同
互联网服务数据库 Hadoop nosql
回答于 · 2015-05-15

Hbase RegionServer宕机快速恢复方案

其实你这个问题很有代表性，当有海量数据的时候RegionServer宕机了重启启动的确需要比较多的时间。建议你从以下几个方面考虑问题：1、如果条件允许增加RegionServer的数量，分担每个RegionServer管理的region数量2、为了防

赞同
金融其它数据库 Hadoop 数据建模
回答于 · 2015-05-15

基于hadoop的数据建模

hadoop是一个分布式计算框架，核心是MapReduce和HDFS，用来处理和存放海量数据，它只是一个框架，并不涉及到业务本身。建模方式应该根据业务需要，hadoop可以通过MapReduce或者hive来统计分析数据。

赞同
互联网服务数据库 storm netty
回答于 · 2015-05-15

实时计算，Storm的Spout怎样采用netty作为数据接入端

不管采用哪种框架模型，storm前端一定要有一个消息队列，因为消息产生的速度远远大于处理消息的速度，增加一个消息队列用来做消息的缓冲。可以通过netty将数据放入消息队列（metaq或者kafka都可以），然后在和spout集成。

赞同
软件开发海量数据数据库 Hadoop
回答于 · 2015-05-15

Hbase的rowkey涉及原则和示例

在海量数据的背景下Rowkey设计必须考虑如下条件：1、数据分布均衡，以免产生region热点问题2、Rowkey的内容要尽可能短小，例如存放日期201505151357如果按字符串再转成字节存放的话，需要12个字节。实际上8个字节可以存

赞同1
软件开发数据库 Hadoop hdfs
回答于 · 2015-05-15

hive和hbase数据互通

hive可以访问hbase的表，同时hbae也可以访问hive的表。因为都是基于hdfs的文件访问。因此数据只有一份，存放于hdfs上。目前用的最多的是hive去访问hbase的表，因为hbase的rowkey是经过特殊优化的，以提高访问速率。反过来的

赞同1
金融其它数据库 hive 优化策略
回答于 · 2015-05-15

HIVE的优化策略

HIVE的数据倾斜一般不好处理，优化可以从以下几方面考虑：1、设置合理的Map数量2、设置合理的Reduce数量3、考虑采用中间表的方式做数据过度，以减少多个MapReduce作业。同时还需要考虑优化hadoop的架构。总之，优化是一门大

赞同1
软件开发数据库 Hadoop eclipse
回答于 · 2015-05-15

传文件到hdfs上效率为何很慢？

eclipse上的hadoop插件的用途是用来做开发和调试使用，如果在eclipse上去调优上传的速度这个没有任何实际意义。现实生产环境中，如果希望调优上传的速度，可以从以下几个方面考虑问题：1、网络：交换机调整为万兆交换机2、网络

赞同2
软件开发数据库 Hadoop 数据分析
回答于 · 2015-05-15

hbase数据分析工具怎么选择

对于HBASE里面的数据，可以使用2种方式分析1、MapReduce 当然这个需要JAVA基础2、可以通过HBASE和HIVE集成，通过HQL执行相关count，group by，join操作 HIVE是一个数据仓库，也可以理解为一个统计分析的工具，他讲HQL转化为MapR

赞同2
互联网服务数据库 Hadoop hbase
回答于 · 2015-05-13

MapReduce向Hbase存数据

如果在集群环境里面，需要把jar包也放到集群里面，否则会报找不到类的。

赞同

关于尘世随缘

用户名：尘世随缘
职位：技术总监
公司：上海某互联网金融公司
行业：互联网服务
社区声望：3400
荣誉等级：0

关注TA的人

更多关注TA的人 >>

关于TWT 使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们
© 2024 talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30

X社区推广