准实时数据如何高效存储,比如增量如何处理,存量如何存储?

准实时数据如何高效存储,比如增量如何处理,存量如何存储,即保证时效性,又保证准确性,防重防漏

参与7

2同行回答

gengyanggengyang数据仓库工程师民生银行
既然是需要实时接入的数据应用场景也都是对实效性要求较高,再考虑的可用性和负载要求所以对实时中间数据最好用类似kafka这样的分布式消息中间件,对于加工后的结果数据可以放到mysql hbase,redis,hbase,redis或者hbase,redis,hbase,redis或者kafka本身,这个就需要根据具体应用场景...显示全部

既然是需要实时接入的数据应用场景也都是对实效性要求较高,再考虑的可用性和负载要求所以对实时中间数据最好用类似kafka这样的分布式消息中间件,对于加工后的结果数据可以放到mysql hbase,redis,hbase,redis或者hbase,redis,hbase,redis或者kafka本身,这个就需要根据具体应用场景和容量进行评估。

收起
银行 · 2019-09-04
浏览1488
jamieejamiee数据库架构师某股份制银行
我也提了一个类似的问题,考虑到目前业务系统现状,很难配合进行实时数据采集的改造,很多场景是采用网络旁路或者OGG等方式进行数据采集,对于数据的业务状态和数据丢失无法完全保证。我自己的想法是应该结合应用场景,有些场景需要强一致性,有些不需要,如果技术手段上无法保证防重...显示全部

我也提了一个类似的问题,考虑到目前业务系统现状,很难配合进行实时数据采集的改造,很多场景是采用网络旁路或者OGG等方式进行数据采集,对于数据的业务状态和数据丢失无法完全保证。我自己的想法是应该结合应用场景,有些场景需要强一致性,有些不需要,如果技术手段上无法保证防重防漏,可以业务手段兜底。我举两个应用场景的例子。
一是在营销的场景中,用实时数仓计算的指标和一些规则进行实时的营销决策,决策结果用于推荐用户购买某个产品,由于推荐规则本身也存在准确性的问题,是否能防重防漏,对业务流程和推荐结果并大的影响,这种场景可以不用熬了防重防漏的问题,数据来了就收、漏了就不要了。
另一个场景同样是营销,不过这个场景是通过指标计算和营销活动规则判断是否给用户返送无门槛购物券。这类场景如果数据一致性出差错,比如遗漏了数据可能导致该送券没送券用户会投诉,导致不该送券的送了券,被薅了羊毛。这种场景要么技术上做数据一致性的保障,比如数据采集时要避免使用网络旁路方式,在数据加工时要进行主键判断避免数据重复,另外在业务流程上要进行调整,业务系统要增加用户投诉受理和差错处理的接口给客服处理一次情况。

收起
银行 · 2019-08-31
浏览1550

提问者

gw880626
商业智能工程师中国太平洋保险
擅长领域: cognos大数据联机分析处理

问题来自

问题状态

  • 发布时间:2019-08-27
  • 关注会员:3 人
  • 问题浏览:2488
  • 最近回答:2019-09-04
  • X社区推广