保险海量数据存储 Hadoop 大数据检索

Hadoop存储海量数据没有问题，但是如何能够做到海量数据的实时检索？

关注3

参与5

2同行回答
全部行业
全部行业 银行 互联网服务
|
按赞同排序
按时间排序

尘世随缘技术总监上海某互联网金融公司

hadoop的hdfs能做到了海量存储，但是实时检索是需要多久实时呢？
如果是KV型的实时检索，那么可选择HBASE
如果是ad-hoc需求，那么impala，prestore、driud都可以
如果是应用服务的实时，那么ES可以考虑下。

收起

互联网服务 · 2020-04-29

呱呱爱吃瓜数据仓库工程师银行

1, 可以结合开源的搜索引擎 Apache Lucene ， Solr 或 ElasticSearch
2, 海量数据的实时检索可以考虑 HBase ，建议可以使用 hadoop 将数据构建成以查询 key 为键的数据集，然后将集合写入 Hbase 表中， Hbase 会自动以 key 为键进行索引，在数十亿甚至以上的级别下，查询 key 的 value 响应时间也估计再 10 毫秒内。
如果检索条件是多个组合的情况下，可以适当的设计多个 hbase 表格，这样的检索也是很快的，同时 Hbase 也是支持二级索引。在符合条件下查询， Hbase 也是支持 MapReduce 的，如果对响应时间要求不高的情况下，可以考虑将 hive 和 Hbase 系统结合来使用。
如果数据量不是很大的情况下也可以考虑支持类似 SQL 的 NOSLQ 系统。

收起

银行 · 2020-03-05

Hadoop存储海量数据没有问题，但是如何能够做到海量数据的实时检索？

2同行回答
全部行业
全部行业 银行 互联网服务
|
按赞同排序
按时间排序

提问者

相关问题

相关资料

相关文章

问题状态

Hadoop存储海量数据没有问题，但是如何能够做到海量数据的实时检索？

2同行回答全部行业全部行业银行互联网服务|按赞同排序按时间排序

提问者

相关问题

相关资料

相关文章

问题状态

2同行回答
全部行业
全部行业银行互联网服务
|
按赞同排序
按时间排序