大数据平台
大数据平台
大数据平台是为了计算,现今社会所产生的越来越大的数据量。以存储、运算、展现作为目的的平台。
大数据平台是为了计算,现今社会所产生的越来越大的数据量。以存储、运算、展现作为目的的平台。

文章

Flink·2017-08-18
哈杜普 · 百度 擅长领域:大数据, 大数据处理, 数据库
30 会员关注
1.jpg前言说起大数据处理,一切都起源于Google公司的经典论文:《MapReduce:SimpliedDataProcessingonLargeClusters》。在当时(2000年左右),由于网页数量急剧增加,Google公司内部平时要编写很多的程序来处理大量的原始数据:爬虫爬到的网页、网页请求日志;计算各种类型的派生数据:倒...(more)
浏览7853
机器学习·2017-08-14
阿童木 · 某移动 擅长领域:服务器, 大数据, 人工智能
39 会员关注
本文调查分析了多个分布式机器学习平台所使用的设计方法,并提出了未来的研究方向。机器学习,特别是深度学习(DL),最近已经在语音识别、图像识别、自然语言处理、推荐/搜索引擎等领域获得了成功。这些技术在自主驾驶汽车、数字卫生系统、CRM、广告、物联网等方面都存在着非常有...(more)
浏览3381
大数据存储·2017-08-08
silencely · 阿里 擅长领域:云计算, 大数据, 数据库
89 会员关注
HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,适用于结构化的存储,底层依赖于Hadoop的HDFS,利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群。因此HBase被广泛使用在大数据存储的解决方案中。为何使用HBaseHBase的优点:列可以动态增加,并且列为...(more)
浏览1923
评论2
Hadoop·2017-08-03
王磊磊 · 移动 擅长领域:服务器, 存储, 数据库
235 会员关注
NamenodeHA原理详解社区hadoop2.2.0release版本开始支持NameNode的HA,本文将详细描述NameNodeHA内部的设计与实现。为什么要NamenodeHA?NameNodeHighAvailability即高可用。NameNode很重要,挂掉会导致存储停止服务,无法进行数据的读写,基于此NameNode的计算(MR,Hive等)也无法完成...(more)
浏览2863
性能优化·2017-07-31
王磊磊 · 移动 擅长领域:服务器, 存储, 数据库
235 会员关注
介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是mapreduce作业初始化的时间是比较长的。sum,count,m...(more)
浏览1337
大数据·2017-07-31
美国队长 · Alibaba 擅长领域:大数据, 大数据平台, 数据库
512 会员关注
Hadoop是一个由Apache基金会所开发的分布式系统基础架构,他从0.x版本到现在的3.0版本,经历了各种变化。但是变化中有不变的是他的主要功能就是Hdfs(分布式文件存储),Mapreduce(分布式并行计算框架)。其中,Hdfs主要是用来进行文件的存储,他涉及文件存储不同压缩方式,文件存储在各个...(more)
专栏: 活动总结
浏览4733
机器学习·2017-07-25
王磊磊 · 移动 擅长领域:服务器, 存储, 数据库
235 会员关注
本文将简要介绍Spark机器学习库(SparkMLlib’sAPIs)的各种机器学习算法,主要包括:统计算法、分类算法、聚类算法和协同过滤算法,以及各种算法的应用。你不是一个数据科学家。“根据科技和商业媒体报道,机器学习将防止全球变暖”,显然只有中国的新闻媒体才会发布类似的虚假新闻,可...(more)
浏览1304
spark·2017-07-21
建奎生 · 长安 擅长领域:大数据, 人工智能, 大数据处理
109 会员关注
ApacheSpark的高性能一定程度上取决于它采用的异步并发模型(这里指server/driver端采用的模型),这与Hadoop2.0(包括YARN和MapReduce)是一致的。Hadoop2.0自己实现了类似Actor的异步并发模型,实现方式是epoll+状态机,而ApacheSpark则直接采用了开源软件Akka,该软件实现了Actor模型...(more)
浏览1462
Hadoop·2017-07-11
江南无烟雨 · 某券商 擅长领域:服务器, 大数据, 存储
14 会员关注
Common一组由分布式文件系统和通用I/O的组件与接口(序列化,JavaRPC,持久化数据结构)。Avro一种支持高效、跨语言的RPC以及永久化存储数据的序列化系统。MapReduce分布式数据处理模型和执行环境,运行于大型的商用机集群。HDFS分布式文件系统,运行于大型的商用机集群。Pig一...(more)
浏览1821
大数据·2017-07-07
gossipyboy · 某城市商业银行 擅长领域:大数据, 服务器, 分布式系统
发个牢骚,搞大数据的也得建设数据仓库吧。而且不管是传统行业还是现在的互联网公司,都需要对数据仓库有一定的重视,而不是谈一句自己是搞大数据的就很厉害了。数据仓库更多代表的是一种对数据的管理和使用的方式,它是一整套包括了etl、调度、建模在内的完整的理论体系。现在...(more)
浏览2306

描述

大数据平台是为了计算,现今社会所产生的越来越大的数据量。以存储、运算、展现作为目的的平台。
大数据平台是为了计算,现今社会所产生的越来越大的数据量。以存储、运算、展现作为目的的平台。
X社区推广
  • 提问题