尘世随缘

尘世随缘

技术总监上海某互联网金融公司

回答

互联网服务 MongoDB hbase 大量小文件存储
回答于 · 2015-10-14

大量小文件存储，如何选择存储方案？Hbase，Mongodb，阵列那个合适？

第一：你所谓的小文件是指多大的文件呢？一个10M，5M还是？多少？如果是类似百度文库一样的文件，可以参考淘宝的fastdfs来使用。第二：保证随机读写，你是需实时低延迟的读写吗？还是仅仅读到文件即可？

赞同1
科研院所存储方案微博数据分析
回答于 · 2015-10-14

微博数据分析数据存储方案选择

微博的话，最佳解决方案就是HBase+Redis来结合。HBase存放微博的中的互动数据，比如留言，图片地址等Redis用来存储一些应用关系，比如A关注了B，B关注了C（当然这些关系也可以存储在HBase中）

赞同
互联网服务大数据 Hadoop 数据处理
回答于 · 2015-10-14

离线数据处理中，hadoop相比传统的数据库有哪些优势？

hadoop和传统的数据库没什么直接的联系，hadoop用来分布式存储，并提供分布式计算的框架。你问题的问题不够清晰。

赞同
互联网服务 Hadoop 应用场景
回答于 · 2015-10-14

不同的应用场景如何选用不同的hadoop的生态圈成员？

这个得看你具体的业务了，总之hadoop是必须选择的，其次是如果是要实时查询就要用HBase了。实时计算的话，那么Storm就要考虑了。

赞同
电信运营商大数据 Hadoop
回答于 · 2015-10-14

在Hadoop的版本选择上有什么考量？

各有千秋，如果预算充足，可以购买商业版本，毕竟他提供了更方便的部署、维护。如果预算有限，那就使用开源的免费版本了。

赞同2
软件开发大数据医疗自然语言
回答于 · 2015-09-25

如何应用大数据技术对电子病历文档内容的深度挖掘

其实数据挖掘的核心是针对大数据根据一定的规则做聚类分析，这个一般是通用做法。所以根据这个核心描述，我们要准备的首要事情：1、病患的基本信息要和病历的保存到系统中2、通过这些数据的分析来预测一些情况的发生让医生

赞同2
电信运营商 Hadoop 集群优化集群规划
回答于 · 2015-08-21

企业级Hadoop集群如何规划？

企业集群规划从以下几方面入手：1、你想利用集群做什么事情，如果是分析统计，那么多部署几台hadoop，使用hive或者编写MR来分析统计2、如果你是想存储数据，那么多部署几台HBase，增加数据查询处理的速度3、网络情况根据你的数据

赞同
互联网服务 Hadoop hbase ZooKeeper
回答于 · 2015-08-21

请问以下情况下，集群如何优化？

根据目前的配置来看，假如每台机器最多同时运行8个Task，并行的话最多同时32个Task（4*8=32）。MR去读HBase的Region来统计数据的时候，默认每个region会产生一个Map。累计产生的Task数量为：800个Map+指定数量的Reduce个，但是只能

赞同1
互联网服务 Hadoop 集群优化 block优化
回答于 · 2015-08-21

块大小优化

hadoop2.0默认是128M，这个值是经过多次摸索后得到的结果，一般不需要调整。512M的块调整为128M的块对HBase原有数据不会有影响，建议调整后重新执行一次大合并，HBase会根据调整后的块大小重新划分新块。

赞同1
互联网服务 Hadoop hdfs 集群优化
回答于 · 2015-08-21

hadoop streaming MR程序集群下比单机慢很多

我建议你把配置差的那个节点先移出集群在做测试。

赞同

关于尘世随缘

用户名：尘世随缘
职位：技术总监
公司：上海某互联网金融公司
行业：互联网服务
社区声望：3400
荣誉等级：0

关注TA的人

更多关注TA的人 >>

关于TWT 使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们
© 2024 talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30

X社区推广