Hadoop存储海量数据没有问题,但是如何能够做到海量数据的实时检索?

参与5

2同行回答

尘世随缘尘世随缘技术总监上海某互联网金融公司
hadoop的hdfs能做到了海量存储,但是实时检索是需要多久实时呢?如果是KV型的实时检索,那么可选择HBASE如果是ad-hoc需求,那么impala,prestore、driud都可以如果是应用服务的实时,那么ES可以考虑下。...显示全部

hadoop的hdfs能做到了海量存储,但是实时检索是需要多久实时呢?
如果是KV型的实时检索,那么可选择HBASE
如果是ad-hoc需求,那么impala,prestore、driud都可以
如果是应用服务的实时,那么ES可以考虑下。

收起
互联网服务 · 2020-04-29
浏览1405
呱呱爱吃瓜呱呱爱吃瓜数据仓库工程师银行
1, 可以结合开源的搜索引擎 Apache Lucene , Solr 或 ElasticSearch 2, 海量数据的实时检索可以考虑 HBase ,建议可以使用 hadoop 将数据构建成以查询 key 为键的数据集,然后将 集合写入 Hbase 表中, Hbase 会自动以 key 为键进行索引,在数十亿甚至以上的级别下,查询 key ...显示全部

1, 可以结合开源的搜索引擎 Apache Lucene , Solr 或 ElasticSearch
2, 海量数据的实时检索可以考虑 HBase ,建议可以使用 hadoop 将数据构建成以查询 key 为键的数据集,然后将 集合写入 Hbase 表中, Hbase 会自动以 key 为键进行索引,在数十亿甚至以上的级别下,查询 key 的 value 响应时间也估计再 10 毫秒内。
如果检索条件是多个组合的情况下,可以适当的设计多个 hbase 表格,这样的检索也是很快的,同时 Hbase 也是支持二级索引。在符合条件下查询, Hbase 也是支持 MapReduce 的,如果对响应时间要求不高的情况下,可以考虑将 hive 和 Hbase 系统结合来使用。
如果数据量不是很大的情况下也可以考虑支持类似 SQL 的 NOSLQ 系统。

收起
银行 · 2020-03-05
浏览2195

提问者

Tamic
数据库架构师某保险

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2020-03-05
  • 关注会员:3 人
  • 问题浏览:3863
  • 最近回答:2020-04-29
  • X社区推广