hdfs
hdfs
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的...(more)
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。

问题

互联网服务hdfs·2015-11-11
美国队长 · Alibaba 擅长领域:大数据, 大数据平台, 数据库
512 会员关注
日志中的出现提示是你的log4j。xml里面没有配置appender相应的参数,但是这个不是必须配置的,至于你说的jdk目录修改是否跟nullpoint有关,需要把你的提示Nullpoint的全部异常贴出来才能具体分析是啥原因...
银行spark·2015-11-06
尘世随缘 · 上海某互联网金融公司 擅长领域:云计算, 云原生, 微服务
86 会员关注
HDFS适合存放一次写入多次读取的方式,不适合实时读。所以大数据事件处理池一般建议队列+流式处理,例如kakfa+storm的方式来执行。
互联网服务Hadoop·2015-10-14
heguangwu · 芒果TV 擅长领域:大数据, 大数据平台, 分布式系统
3 会员关注
这个问题没有标准答案,我是胡言乱语几句纯粹看热闹的心态:1、Hadoop有良好的生态圈,包含的东西是应有尽有,分布式文件系统有HDFS,内置分布式处理MapReduce其它还加上Tez、spark,Nosql有HBase和Cassandra,机器学习有mahout,上层有Hive、Pig等,良好的生态圈就意味着出了问题有人问,可...
软件开发spark·2015-10-14
美国队长 · Alibaba 擅长领域:大数据, 大数据平台, 数据库
512 会员关注
mapreduce适用于数据量比较大这个跟其底层的实现有关因为他并不是完全依赖于内存,而spark拼的就是内存,如果响应速度要快而且数据量不是很大的时候,可以考虑使用spark,互联网行业中一般离线的数据会考虑MR去跑,实时采用spark...
互联网服务streaming mr·2015-08-21
美国队长 · Alibaba 擅长领域:大数据, 大数据平台, 数据库
512 会员关注
数据量如果少就直接改调本地模式,因为hadoop启动还是要花点时间滴,这里包括资源轮询,任务分配等等
银行Hadoop·2015-08-05
haizdl · 大连 擅长领域:灾备, 存储, 服务器
1235 会员关注
比较有创意,先搭个架子出来讨论讨论。。。
互联网服务数据库·2015-06-23
如题, 在理解这个组件的过程中有些疑惑, 我在本地使用Avro序列化一组对象后,将序列化后的数据保存至远程HDFS上, 那么现在我需要使用Hbase去获取这组数据,并且将数据保存至HBASE中的一张表里,  这是一个怎么样的过程呢?...(more)
浏览1778
互联网服务spark·2015-06-04
spark的数据来源大致上分为两种 一种是分布式存储系统,例如hdfs  另一种是从已有的数据集合转换得到,SparkContext.parallelize(集合) 。如果是初学者的话,第一种还需要搭建hadoop平台,难度可能稍微大了些...
互联网服务数据库·2015-05-28
liutie5 · xiaomi 
已经解决,参考:http://stackoverflow.com/questio ... able-and-hdfs-files
IT咨询服务数据库·2015-05-15
尘世随缘 · 上海某互联网金融公司 擅长领域:云计算, 云原生, 微服务
86 会员关注
hadoop平台提供海量数据的存储,你可以通过不同的文件夹来做分类,具体的还得看你业务使用场景。比如/user/hadoop/log/usr/hadoop/moveusr/lhadoop/other你完全可以当做一个本地文件系统。

描述

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的...(more)
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。
X社区推广
  • 提问题