mapreduce - 主题 - twt企业IT交流平台

文章
热度排序 时间排序

大数据·2020-08-25

48 会员关注

作者：农行研发中心孟洋--1.问题描述当前，我们通过编写HadoopMapReduce程序对来自上游的源数据文件进行贴源预处理加工。源数据文件发到Hadoop集群后，我们的预处理程序会对源数据进行编码转换、数据去重、加时间拉链、数据清洗、错误数据处理等操作，生成贴源的ODS层数据，供上层...(more)

赞同

spark·2017-07-21

mapreduce采用多进程与spark采用多线程比较

建奎生 · 长安　擅长领域：大数据, 人工智能, 大数据处理

109 会员关注

ApacheSpark的高性能一定程度上取决于它采用的异步并发模型（这里指server/driver端采用的模型），这与Hadoop2.0（包括YARN和MapReduce）是一致的。Hadoop2.0自己实现了类似Actor的异步并发模型，实现方式是epoll+状态机，而ApacheSpark则直接采用了开源软件Akka，该软件实现了Actor模型...(more)

赞同4

mapreduce·2017-07-13

MongoDB 聚合操作

landyz · wy　擅长领域：数据库, 数据库系统改造, 关系型数据库

2 会员关注

来源：VicLiuwww.cnblogs.com/ljhdo/p/5019837.html在MongoDB中，有两种方式计算聚合：Pipeline和MapReduce。Pipeline查询速度快于MapReduce，但是MapReduce的强大之处在于能够在多台Server上并行执行复杂的聚合逻辑。MongoDB不允许Pipeline的单个聚合操作占用过多的系统内存，如...(more)

赞同2

Hadoop·2017-07-11

Hadoop大家庭有哪些？Hadoop家族主要成员关系

江南无烟雨 · 某券商　擅长领域：服务器, 大数据, 存储

14 会员关注

Common一组由分布式文件系统和通用I/O的组件与接口(序列化,JavaRPC,持久化数据结构)。Avro一种支持高效、跨语言的RPC以及永久化存储数据的序列化系统。MapReduce分布式数据处理模型和执行环境，运行于大型的商用机集群。HDFS分布式文件系统，运行于大型的商用机集群。Pig一...(more)

赞同1

大数据·2017-07-04

大数据处理平台技术产品选型探讨

美国队长 · Alibaba　擅长领域：大数据, 大数据平台, 数据库

512 会员关注

提起“大数据”就不得不提起有关数据的处理，虽然有人说过大数据在数据质量方面的要求不比传统数据的要求那么严格，当然这也是分场景的断言，但是无论何时数据处理在大数据的生态中始终处于不可缺少的地位，因为数据处理的时效性行，准确性直接影响数据的分析与挖掘，分析的最终结果...(more)

赞同9

数据库·2015-05-25

Apache Hive 1.0.1/1.1.1 发布，数据仓库平台

yinxin · 某金融机构　擅长领域：数据库, 服务器, 云计算

980 会员关注

Apache Hive 1.0.1/1.1.1 发布，两个版本都修复了一个有关 LDAP 身份验证提供者实施漏洞的问题，并且两个版本都改善了 Hive 的连接服务。两个版本具体更新信息如下：Apache Hive 1.0.1 发行页面。Apache Hive 1.1.1 发行页面。下载页面如下：https://hive.apache.org/downloads....(more)

赞同

数据库·2015-05-20

《Hadoop核心技术》作者翟周伟：我与Hadoop的不解之缘

yinxin · 某金融机构　擅长领域：数据库, 服务器, 云计算

980 会员关注

翟周伟，资深Hadoop技术专家，专注于Hadoop&大数据，数据挖掘，自然语言处理领域，目前就职于百度。2009年，利用Hadoop构建商业级大数据系统，是国内该领域最早的一批人之一；负责设计多个基于Hadoop的大数据平台和分析系统；2011年合著出版《Hadoop开源云计算平台》，并在自然语言处理...(more)

赞同

数据库·2015-05-14

我是如何向老婆解释MapReduce的

yinxin · 某金融机构　擅长领域：数据库, 服务器, 云计算

980 会员关注

昨天，我在Xebia印度办公室发表了一个关于MapReduce的演说。演说进行得很顺利，听众们都能够理解MapReduce的概念（根据他们的反馈）。我成功地向技术听众们（主要是Java程序员，一些Flex程序员和少数的测试人员）解释了MapReduce的概念，这让我感到兴奋。在所有辛勤的工作之后，我们在Xebi...(more)

赞同

数据库·2015-05-05

举例说明：Hadoop vs. NoSql vs. Sql vs. NewSql

yinxin · 某金融机构　擅长领域：数据库, 服务器, 云计算

980 会员关注

Hadoop 是一个完全不同的物种。它实际上是一个文件系统而非数据库。Hadoop 的根是基于互联网搜索引擎的。虽然 Hadoop 和伙伴（Hbase，Mapreduce，Hive，Pig，Zookeeper）已经使它变成一个很强大的数据库，但 Hadoop 依旧是一个可容错、可扩展、廉价的分布式文件系统。Hadoop 当下的特...(more)

赞同

数据库·2015-04-29

HADOOP2 mapreduce配置（转）

asd456 · JF　擅长领域：数据库, 关系型数据库, 数据库系统改造

1 会员关注

MapReduce相关配置参数分为两部分，分别是JobHistory Server和应用程序参数，Job History可运行在一个独立节点上，而应用程序参数则可存放在mapred-site.xml中作为默认参数，也可以在提交应用程序时单独指定，注意，如果用户指定了参数，将覆盖掉默认参数。以下这些参数全部在mapred-s...(more)

赞同

描述

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归约）函数，用来保...(more)

1 会员关注

49 会员贡献

15 关系主题