金融行业如何针对结构化与非结构化数据,进行分布式存储的选型?

金融行业如何针对结构化与非结构化数据,进行分布式存储的选型?尤其像客服中心语音数据与信贷类交易系统的影像文件等非结构化数据,如何既经济又安全地选择市场上高口碑和好评的分布式存储进行对接?...显示全部

金融行业如何针对结构化与非结构化数据,进行分布式存储的选型?尤其像客服中心语音数据与信贷类交易系统的影像文件等非结构化数据,如何既经济又安全地选择市场上高口碑和好评的分布式存储进行对接?

收起
参与19

查看其它 2 个回答qsg0720的回答

qsg0720qsg0720CTO深圳市杉岩数据技术有限公司

首先,我建议非结构化数据存储与结构化数据的存储要独立来考虑,不要期望一个产品能够满足两种业务的需求。One size fit all 的方案存在,但绝对做不到两个的最优解。

从硬件的选型角度,两者也很难统一在一套硬件上。
结构化数据侧重时延,数据 IO 相对比较小,数据容量的需求一般不是很大,数据的单位价值密度高。所以硬件往往配置相对好一些,如缓存 SSD 更大一些,更多采用 PCEI/Nvme 接口,提高性能; 数据盘的单磁盘容量更小一下( <=4TB ,普遍 2TB ),甚至采用 SAS 磁盘,或者全闪存。

非结构化数据侧重在吞吐,并发性,而且一般容量需求比较大,数据的单位价值密度不高,所以硬件上往往配置相对低一点,如缓存一般采用 SATA SSD 即可,数据盘基本采用大容量的 HDD 磁盘,高密度服务。

其次,对于非结构化数据存储,在一般读写场景,非结构化数据的读写时延往往要求没那么敏感,各厂家之间差别有但对业务基本无感知。

最容易体现差异的地方,在于管理海量小文件的性能,特别是信贷类业务的影像系统,文件大小在几十 KB ~百 KB 之间,特别有些影像系统做过图像压缩 / 灰度优化的,可能更小,文件数量又非常大,中大型商业银行文件数量在数亿甚至数十亿文件。

对于这个场景,我们一般建议客户增加海量(接近 10 亿)级别的持续写入和读取性能测试,来评估底层架构的优劣性,这点各厂家的差异性很容易体现出来。比如持久 24 小时写入的性能平稳性, 空集群与 80% 以上集群的性能下降幅度。

另外,对于信贷类交易系统,还涉及到非结构化数据的元数据,如批次号的管理,建议考察分布式存储是否具备元数据检索功能,保证业务的平滑迁移。

软件开发 · 2020-05-11
浏览1949

回答者

qsg0720
CTO深圳市杉岩数据技术有限公司

qsg0720 最近回答过的问题

回答状态

  • 发布时间:2020-05-11
  • 关注会员:4 人
  • 回答浏览:1949
  • X社区推广