大数据(Big Data),是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。...(more)
来自主题:Hadoop · 2天前
呱呱爱吃瓜银行 擅长领域:Hadoop
1.先进先出调度器( FIFO ) Hadoop中默认的调度器,也是一种批处理调度器。它先按照作业的优先级高低,再按照到达时间的先后选择被执行的作业 2.容量调度器( Capacity Scheduler) 支持多个队列,每个队列可配置一定的资源量,每个队列采用 FIFO 调度策略,为了防止同一个用户的作业独...(more)
浏览518
回答1
来自主题:Hadoop · 2天前
呱呱爱吃瓜银行 擅长领域:Hadoop
DataNode 也是一个通常在 HDFS 实例中的单独机器上运行的软件 。 Hadoop 集群包含一个 NameNode 和大量 DataNode 。 DataNode 通常以机架的形式组织,机架通过一个交换机将所有系统连接起来。 Hadoop 的一个假设是:机架内部节点之间的传输速度快于机架间节点的传输速度 。 ...(more)
浏览546
回答1
来自主题:Hadoop · 2天前
priestNone 擅长领域:Redis, MySQL, MongoDB
12 会员关注
浏览511
回答2
来自主题:Hadoop · 2天前
呱呱爱吃瓜银行 擅长领域:Hadoop
(1)、 combiner有时一个 map 可能会产生大量的输出, combiner 的作用是在 map 端对输出先做一次合并,以减少网络传输到 reducer 的数量。注意: mapper 的输出为 combiner 的输入, reducer 的输入为 combiner 的输出。 (2)、 partition把 map 任务输出的中间结果按照 key 的范...(more)
浏览560
回答1
来自主题:Redis · 2020-02-21
lxue某互联网公司 擅长领域:数据库, Redis, MongoDB
35 会员关注
涉及多个 key 的操作通常不会被支持。 例如你不能对两个集合求交集, 因为他们可能被存储到不同的 Redis 实例(实际上这种情况也有办法, 但是不能直接使用交集指令)。 同时操作多个 key, 则不能使用 Redis 事务 . 分区使用的粒度是 key ,不能使用一个非常长的排序 key 存储一个...(more)
浏览1552
回答2
来自主题:Redis · 2020-02-21
priestNone 擅长领域:Redis, MySQL, MongoDB
12 会员关注
主要基于以下几点:1、数据结构层面:红黑树的操作(查找、插入及删除)逻辑较复杂,对子树产生一定影响; 而redis的跳跃表skiplist的相关操作简单又快速。2、算法实现层面: redis的跳跃表 skiplist相比红黑树要简单得多3、资源使用角度层面: redis的跳跃表 skiplist相比红黑树更有优...(more)
浏览1354
回答2
来自主题:Redis · 2020-02-21
lxue某互联网公司 擅长领域:数据库, Redis, MongoDB
35 会员关注
一般来说,就是如果你的系统不是严格要求缓存 + 数据库必须一致性的话,缓存可以稍微的跟数据库偶尔有不一致的情况,最好不要做这个方案,读请求和写请求串行化,串到一个内存队列里去,这样就可以保证一定不会出现不一致的情况 串行化之后,就会导致系统的吞吐量会大幅度的降低,用比...(more)
浏览1727
回答3
来自主题:数据治理 · 2020-02-21
麻烦大家有没数据治理的普通实施方法提供,谢谢
浏览904
来自主题:Redis · 2020-02-20
lxue某互联网公司 擅长领域:数据库, Redis, MongoDB
35 会员关注
Redis 为了达到最快的读写速度将数据都读到内存中,并通过异步的方式将数据写入磁盘。所以 redis 具有快速和数据持久化的特征。如果不将数据放在内存中,磁盘 I/O 速度为严重影响 redis 的性能。...(more)
浏览1676
回答2
来自主题:Redis · 2020-02-20
lxue某互联网公司 擅长领域:数据库, Redis, MongoDB
35 会员关注
一次请求 / 响应服务器能实现处理新的请求即使旧的请求还未被响应。这样就可以将多个命令发送到服务器,而不用等待回复,最后在一个步骤中读取该答复。这就是管道( pipelining ),是一种几十年来广泛使用的技术。例如许多 POP3 协议已经实现支持这个功能,大大加快了从服务器下载...(more)
浏览1588
回答2
来自主题:Redis · 2020-02-20
lxue某互联网公司 擅长领域:数据库, Redis, MongoDB
35 会员关注
Redisson 是一个高级的分布式协调 Redis 客服端,能帮助用户在分布式环境中轻松实现一些 Java 的对象 (Bloom filter, BitSet, Set, SetMultimap, ScoredSortedSet, SortedSet, Map, ConcurrentMap, List, ListMultimap, Queue, BlockingQueue, Deque, BlockingDeque, Sema...(more)
浏览1584
回答2
来自主题:Redis · 2020-02-20
lxue某互联网公司 擅长领域:数据库, Redis, MongoDB
35 会员关注
有 A , B , C 三个节点的集群 , 在没有复制模型的情况下 , 如果节点 B 失败了,那么整个集群就会以为缺少 5501-11000 这个范围的槽而不可用 。
浏览1180
回答2
来自主题:Redis · 2020-02-20
lxue某互联网公司 擅长领域:数据库, Redis, MongoDB
35 会员关注
作为缓存系统都要定期清理无效数据,就需要一个主键失效和淘汰策略 . 在 Redis 当中,有生存期的 key 被称为 volatile 。在创建缓存时,要为给定的 key 设置生存期,当 key 过期的时候(生存期为 0 ),它可能会被删除。 1 、影响生存时间的一些操作生存时间可以通过使用 DEL 命...(more)
浏览1500
回答1
来自主题:hbase · 2020-02-18
空kong某单位 擅长领域:hbase
1 会员关注
在 hbase 中每当有 memstore 数据 flush 到磁盘之后,就形成一个 storefile ,当 storeFile 的数量达到一定程度后,就需要将 storefile 文件来进行 compaction 操作。 Compact 的作用: 1>. 合并文件 2>. 清除过期,多余版本的数据 3>. 提高读写数据的效率 HBase 中实现...(more)
浏览849
回答1
来自主题:hbase · 2020-02-18
空kong某单位 擅长领域:hbase
1 会员关注
一个集群是否健康,大体可以从以下几个方面来判断1 、单 region 的 storefile 数量是否合理2 、 memstore 是否得到合理的利用,此项指标与 hlog 的数量和大小相关3 、 compact 和 flush 的流量比值是否合理,如果每天仅 flush 1G 却要 compact 几十上百 G 就是明显的浪费4 、 ...(more)
浏览834
回答2
来自主题:hbase · 2020-02-18
空kong某单位 擅长领域:hbase
1 会员关注
读写请求大量出错的现象主要有两类: 1 、大量出现服务端 exception 2 、大量超时。其中第一种有异常信息较好判断问题所在。1 、大量服务端 exception 一般是 region 不在线导致的,可能是 region 在 split 但是时间很长超过预期,或是 meta 数据错误导致客户端获取 region lo...(more)
浏览1133
回答5
来自主题:hbase · 2020-02-12
空kong某单位 擅长领域:hbase
1 会员关注
检索 habse 的记录首先要通过 row key 来定位数据行 , 当大量的 client 访问 hbase 集群的一个或少数几个节点, 造成少数 region server 的读 / 写请求过多、负载过大,而其他 region server 负载却很小,就造成了 “ 热点 ” 现象 . 大量访问会使热点 region 所在的单个主机...(more)
浏览1993
回答1
来自主题:hbase · 2020-02-12
空kong某单位 擅长领域:hbase
1 会员关注
rowKey 最好要创建有规则的 rowKey ,即最好是有序的。 HBase 中一张表最好只创建一到两个列族比较好,因为 HBase 不能很好的处理多个列族。
浏览1379
回答1
来自主题:hbase · 2020-02-12
空kong某单位 擅长领域:hbase
1 会员关注
Hlog 是存储在磁盘上面的,不是内存型存储不需要淘汰策略,要解决的就是磁盘存满之后怎么办?磁盘满了肯定是存不进去了,一般情况下我们都会有磁盘利用率的检测工具,在磁盘到达一定程度之后进行通知, HDFS 是可以无限扩容的,就是多加台服务器的事情。...(more)
浏览2589
回答1