hdfs - 主题 - twt企业IT交流平台

问题
热度排序 时间排序

互联网服务hdfs·2015-11-11

hadoop httpfs搭建错误

美国队长 · Alibaba　擅长领域：大数据, 大数据平台, 数据库

512 会员关注

日志中的出现提示是你的log4j。xml里面没有配置appender相应的参数，但是这个不是必须配置的，至于你说的jdk目录修改是否跟nullpoint有关，需要把你的提示Nullpoint的全部异常贴出来才能具体分析是啥原因...

赞同1

回答1

关注2

银行spark·2015-11-06

使用大数据事件处理池需要HDFS做优化处理吗

尘世随缘 · 上海某互联网金融公司　擅长领域：云计算, 云原生, 微服务

86 会员关注

HDFS适合存放一次写入多次读取的方式，不适合实时读。所以大数据事件处理池一般建议队列+流式处理，例如kakfa+storm的方式来执行。

赞同

回答2

关注3

互联网服务Hadoop·2015-10-14

为什么说hadoop在电信行业中占据了非常高的地位

heguangwu · 芒果TV　擅长领域：大数据, 大数据平台, 分布式系统

3 会员关注

这个问题没有标准答案，我是胡言乱语几句纯粹看热闹的心态：1、Hadoop有良好的生态圈，包含的东西是应有尽有，分布式文件系统有HDFS，内置分布式处理MapReduce其它还加上Tez、spark，Nosql有HBase和Cassandra，机器学习有mahout，上层有Hive、Pig等，良好的生态圈就意味着出了问题有人问，可...

赞同9

回答4

关注7

软件开发spark·2015-10-14

数据引擎分析，hadoop和spark 如何选择？

美国队长 · Alibaba　擅长领域：大数据, 大数据平台, 数据库

512 会员关注

mapreduce适用于数据量比较大这个跟其底层的实现有关因为他并不是完全依赖于内存，而spark拼的就是内存，如果响应速度要快而且数据量不是很大的时候，可以考虑使用spark，互联网行业中一般离线的数据会考虑MR去跑，实时采用spark...

赞同7

回答4

关注5

互联网服务streaming mr·2015-08-21

hadoop streaming MR程序集群下比单机慢很多

美国队长 · Alibaba　擅长领域：大数据, 大数据平台, 数据库

512 会员关注

数据量如果少就直接改调本地模式，因为hadoop启动还是要花点时间滴，这里包括资源轮询，任务分配等等

赞同1

回答3

关注3

银行Hadoop·2015-08-05

hadoop架构是否适合于历史数据存放场景？

haizdl · 大连　擅长领域：灾备, 存储, 服务器

1235 会员关注

比较有创意，先搭个架子出来讨论讨论。。。

赞同

回答2

关注1

互联网服务数据库·2015-06-23

Apache Avro 将数据上传至HDFS后，Hbase如何解析?

如题, 在理解这个组件的过程中有些疑惑, 我在本地使用Avro序列化一组对象后,将序列化后的数据保存至远程HDFS上, 那么现在我需要使用Hbase去获取这组数据,并且将数据保存至HBASE中的一张表里, 这是一个怎么样的过程呢？...(more)

回答

关注1

互联网服务spark·2015-06-04

spark如果要使用hdfs的话，是不是还要自己部署hadoop?

haorengoodman · ooxx　擅长领域：大数据, 分布式系统, 大数据平台

spark的数据来源大致上分为两种一种是分布式存储系统，例如hdfs 另一种是从已有的数据集合转换得到，SparkContext.parallelize（集合）。如果是初学者的话，第一种还需要搭建hadoop平台，难度可能稍微大了些...

赞同1

回答3

关注1

互联网服务数据库·2015-05-28

如何从HBase和HDFS同时读取数据到一个Reducer？

liutie5 · xiaomi　

已经解决,参考：http://stackoverflow.com/questio ... able-and-hdfs-files

赞同1

回答1

关注1

IT咨询服务数据库·2015-05-15

Hadoop平台怎么存储结构化数据与非结构数据

尘世随缘 · 上海某互联网金融公司　擅长领域：云计算, 云原生, 微服务

86 会员关注

hadoop平台提供海量数据的存储，你可以通过不同的文件夹来做分类，具体的还得看你业务使用场景。比如/user/hadoop/log/usr/hadoop/moveusr/lhadoop/other你完全可以当做一个本地文件系统。

赞同

回答1

关注1

描述

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的...(more)

16 会员关注

165 会员贡献

21 关系主题

问题热度排序时间排序

描述

主题组织结构热门关系主题

问题
热度排序时间排序