大数据分析
大数据分析
该主题还没有描述

文章

Hadoop·2015-07-30
humidy · 某公司 擅长领域:大数据, 商业智能, 数据库
113 会员关注
编写者胡旻     版权所有 转载请注明 对于写过WordCount的MapReduce程序的同学来说。会感受到这是Hadoop中数据处理的低层次实现,实际上直接编写MapReduce程序只是Hadoop中数据处理的一种方式,而且其实用性比较有限。 Hive就是设计出来简化H...(more)
浏览6214
大数据·2015-07-30
lihe · 华夏证券 擅长领域:大数据, 商业智能, 数据库
185 会员关注
数据整理是数据分析过程中最重要的环节,在大数据分析过程中也是如此。在小数据时代,数据整理包括数据的清洗、数据转换、归类编码和数字编码等过程,其中数据清洗占据最重要的位置,就是检查数据一致性,处理无效值和缺失值等操作。在大数据时代,这些工作被弱化了,在有些大数据的算...(more)
浏览837
大数据·2015-07-29
yinxin · 某金融机构 擅长领域:数据库, 服务器, 云计算
979 会员关注
IBM日前宣布,将大力推进Apache Spark项目,并称该项目是在以数据为主导的,未来十年最为重要的新的开源项目。这一承诺的核心是将Spark嵌入IBM业内领先的分析和商务平台,并将Spark作为一项服务,在IBM Bluemix平台上提供给客户。IBM还将投入超过3500名研究和开发人员在全球10余个...(more)
浏览1213
hive·2015-07-28
humidy · 某公司 擅长领域:大数据, 商业智能, 数据库
113 会员关注
胡旻整理        转载请注明Hadoop生态系统系统组件在当前的Hadoop生态系统中: HDFS是主要的存储,在此之上,我们可以使用Snappy、RCFile、Parquet和ORCFile来优化存储。   Hadoop的MapReduce发布了2.0版本,在YARN上运行。有更好的...(more)
浏览2698
大数据·2015-07-14
yinxin · 某金融机构 擅长领域:数据库, 服务器, 云计算
979 会员关注
6月15日,IBM 宣布计划大规模投资 Spark 相关技术,此项声明会促使越来越多的工程师学习 Spark 技术,并且大量的企业也会采用 Spark 技术。Spark 投资的良性循环会使 Spark 技术发展更加成熟,并且可以从整个大数据环境中获益。然而,Spark 的快速增长给人们一个奇怪且固执的误解:S...(more)
浏览931
Hadoop·2015-07-04
humidy · 某公司 擅长领域:大数据, 商业智能, 数据库
113 会员关注
编写:胡旻    版权所有 Hadoop是一个免费开源的分布式存储和计算平台。它被用来实现在商用硬件上以集群模式存储和计算海量数据。在过去的几年中,Hadoop成为了大数据项目的实时标准。接下来我们要讨论几个主题1.选择和规划Hadoop集群的硬件2.Hadoop版...(more)
浏览8018
spark·2015-06-19
lihe · 华夏证券 擅长领域:大数据, 商业智能, 数据库
185 会员关注
本文综合了Hortonworks、Cloudera、MapR三家主要的Hadoop发行版供应商的Hadoop应用案例,真是各有神通,不服来辩。Cloudera:加速数据分析Edo Interactive是一家美国市场营销公司,帮助广告主连接线上广告和线下数据,提供数据驱动的个性化推荐服务。不过几年前,Edo遇到了这样的问...(more)
浏览1149
cloudera·2015-06-19
lihe · 华夏证券 擅长领域:大数据, 商业智能, 数据库
185 会员关注
本文综合了Hortonworks、Cloudera、MapR三家主要的Hadoop发行版供应商的Hadoop应用案例,真是各有神通,不服来辩。Cloudera:加速数据分析Edo Interactive是一家美国市场营销公司,帮助广告主连接线上广告和线下数据,提供数据驱动的个性化推荐服务。不过几年前,Edo遇到了这样的问...(more)
浏览1499
数据库·2015-06-18
asd456 · JF 擅长领域:数据库, 关系型数据库, 数据库系统改造
1 会员关注
 IBM近日宣布,将大力推进Apache Spark项目,并称该项目为:在以数据为主导的,未来十年最为重要的新的开源项目。IBM计划将Spark嵌入其分析和商务平台,并将Spark作为一项服务,在IBMBluemix云平台上提供给客户。IBM还将投入超过3500名研究和开发人员在全球十余个实验室开展与S...(more)
浏览882
数据库·2015-06-17
yinxin · 某金融机构 擅长领域:数据库, 服务器, 云计算
979 会员关注
Hadoop集群中有三种作业调度算法,分别为FIFO,公平调度算法和计算能力调度算法先来先服务(FIFO)Hadoop中默认的调度器FIFO,它先按照作业的优先级高低,再按照到达时间的先后选择被执行的作业。FIFO 比较简单,hadoop中只有一个作业队列,被提交的作业按照先后顺序在作业队列中排队,新...(more)
浏览934
X社区推广
  • 提问题