jampg
作者jampg·2018-05-30 16:47
系统运维工程师·某大型保险

保险企业非结构化数据对象存储最佳实践

字数 3327阅读 5798评论 1赞 8

一、背景和原因

对象存储(Object Storage),也叫做基于对象的存储,是用来描述解决和处理离散单元的方法的通用术语,这些离散单元被称作为对象。早在2006年,亚马逊推出Amzaon S3(Simple Storage Service),随后各大厂商均推出各种形态的类似产品,均称为对象存储。

当前,保险公司对海量非结构化数据的管理逐渐力不从心,各方面的问题扑面而来:

1、业务的需求。随着业务监管要求的明确以及业务量的增长,非结构化数据的访问需求不断增多,一个是存储的量,另外一个是业务并发的量。

2、技术的需求。海量的文件数量,直接导致了检索效率的降低,从而影响业务体验。 
3、备份的需求。传统存储架构无法满足数据量快速增长带来的备份需求,备份效率低。
4、容灾的需求。随着保险公司业务规模的不断扩大,分公司影像系统的单点架构风险太大,容灾能力差。
5、成本的需求。随着分公司设备老化严重,传统存储的采购和维保费用高昂。

面对上述问题,我们需要更加积极主动的优化非结构化数据的存储和管理,寻求技术上的革新,构建新一代存储架构,以分公司为试点,积极探索适合保险公司业务发展的新型对象存储平台。

二、预期效果

通过使用分布式对象存储架构替换传统的IP存储架构,能够解决海量非结构化数据的集中存储及访问问题,提升非结构化文件存取效率,解决分公司影像系统单点问题。分布式对象存储能够保证不丢失数据、不中断服务、提供良好的用户体验,解决存储扩容复杂问题。由于分布式对象存储采用扁平化的数据组织方式,所以目录架构扩展性强,耦合性低,增删节点时所需迁移的数据少。整体而言,在业务系统、IT性能以及运维方面都带了本质的提升。

业务系统方面,当前分公司影像系统面临升级架构改造,双录系统需求日趋增多,分公司对网盘的呼声也日渐高涨。通过采用对象存储,提升对海量非结构化数据的访问效率,满足影像系统和双录系统的需求,提升系统访问效率,从而使得系统能够高效工作,直接提升客户满意度。

在访问效率方面,传统IP存储超过亿级文件后就会出现普遍的性能下降,甚至达到秒级响应。而对于分布式对象存储来讲,分布式的线性扩展能力使得超过百亿的数据访问依然可以稳定在毫秒级响应。

在试验环境下,选择成本基本相同的NAS存储和对象存储, 对2000万文件数量、128k大小的数据进行测试,得出以下结果:

微信截图_20180530163925.png

微信截图_20180530163925.png

对10亿文件数量、128k大小的数据进行测试,得出以下结果:

微信截图_20180530164039.png

微信截图_20180530164039.png

通过上述实验结果可以看出,对于海量小文件的检索,对象存储存在巨大优势。分析其主要原因,除了NAS元数据内容多且采用树形结构检索导致的访问速率慢以外,还有很大一部分原因是因为NAS存储目录层级。如果是三级目录,那么每一个文件的访问都至少会有三次目录的打开操作和获取权限操作,加上最后的文件访问操作,客户端和服务端总计会有不少于四次的交互操作,而对象存储只需要一次。

与此同时,分布式对象存储是基于x86平台硬件,对硬件无明显要求,使用通用的x86硬件即可,而传统存储则需要选购专用硬件。在同等质量和可靠性条件下,对象存储即使加上存储软件后的成本,较传统存储也有一定优势。整体结合运维、可靠性和扩展性等各方面的使用成本来考虑,TCO(Total Cost of Ownership )下降约为20%以上。

分布式对象存储对运维也产生了巨大的改变,主要体现在以下几个方面:

设备老化替换、业务调整、扩容等带来的数据迁移无需通过专业的迁移工具或者迁移服务来完成,分布式对象本身即可通过分布式纠删、自动数据均衡技术完成数据从老旧设备到新设备的迁移,全程无需人为干预,可靠性强。以目前每年不少于10次、迁移数据约3PB、总计约15亿文件的现状,全年整个迁移过程需要300+人天。使用分布式对象存储后,预计可减少迁移工作200人天,效率提升近300%。

传统备份技术采用了逐个文件读取进行备份的方式,影像类业务的海量文件造成备份无法按时备份完成,恢复时间又过长的问题无法解决。对象存储通过底层复制技术化零为整进行备份,备份和恢复效率提升10倍。通过使用对象的多版本功能,可以实现文件粒度的精细化备份管理。总体来讲,成本上节省了备份软件、备份网络的建设以及大量备份的容量许可,约合每TB节省10000元。

对象存储中存储与服务器间半永久链接维护的消除,减少了由于半永久链接带来的IP地址变更、挂载路径的变更、版本升级的变更、负载均衡的调整等方面的不便。基于HTTP方式的对象访问方式,共享性和可维护性更好。

三、风险揭示与管理

作为运维部门,最关心的就是存储的可靠性、可用性、时延以及数据的一致性。那么在使用对象存储时,可能给我们带来怎样的麻烦呢?

首先,应用改造带来的稳定性风险。如果将存储由传统的存储设备更新为分布式对象存储,将会涉及修改应用系统的存储访问接口。对于追求稳定性的存储来说,应用的任何修改都需要将其视为巨大风险,但是经过严谨的开发测试过程,该风险是可以避免的。

其次,在改造过程中,需要将海量的历史数据进行迁移。对于任何一家想要进行对象存储改造的企业来说,其历史数据都是海量的。以某保险公司中等业务规模的省分公司为例,影像系统历史存量超过50TB,且均为小文件。在实施过程中,遇到的最大问题是,在如何保证数据一致性的前提下实现数据的迁移。

最后,对象存储使用的硬件平台为通用的x86服务器,降低成本的同时也带来了兼容性和稳定性风险。对象存储的线性扩展,虽然能够带来性能和容量的方便扩展,但是超大的集群也会带来巨大的系统性风险。
因此,在任何架构面临改造时,都应该考虑清楚到底要什么,什么是能够接受的,什么是不能接受的。风险无处不在,在风险和收益之间博弈,选择适合自己的才是最优解。

四、技术选型

结合保险公司现状,分析主流存储技术,选择适合自身业务发展的技术。因此我们分别对分布式文件系统、分布式NAS、分布式对象进行分析对比。

表4-1 文件系统、NAS、对象优劣势对比

微信截图_20180530164257.png

微信截图_20180530164257.png

可选的技术路线太多,反而会让大家无所适从,不知道如何选择。对于公司的技术选型来讲,并不存在普适的标准,如果一定要定标准的话,那就是满足自身业务特点的需求。保险公司的影像系统改造、双录系统建设迫在眉睫,结合上述各存储技术的特点,最终选择分布式对象存储帮助改造分公司影像系统后端存储、双录系统存储建设。

五、方案设计

评价一个方案的好坏,一定需要结合具体业务,能够解决当前问题,满足业务需求才是关键。通过对分公司影像系统的现状梳理和双录系统的建设需求梳理,拟采用华为FusionStorage 6.0进行方案设计。

表5-1 对象存储需求分析

微信截图_20180530164404.png

微信截图_20180530164404.png

FusionStorage6.0是华为公司自主研发的,基于x86通用硬件平台构建的具有极强扩展能力的分布式存储平台,该产品将HDD、SSD等硬件存储介质通过分布式技术组织成大规模存储资源池,为上层应用和客户端提供工业界标准接口,按需提供对象存储服务能力。用户只需要在标准X86硬件之上部署FusionStorage6.0软件,即可获得业务所需的任意类型的存储服务,而无需提前采购大量的专用存储设备,实现存储服务类型免规划。

微信图片_20180530164451.png

微信图片_20180530164451.png

图5-1 对象存储部署拓扑图

为了验证FusionStorage6.0能够有效支撑影像系统、双录系统和企业网盘,对FusionStorage6.0分别进行了全面的功能测试和性能测试。

结合测试结果,就保险公司具体情况,确定其对象存储配置情况为:

微信截图_20180530164557.png

微信截图_20180530164557.png

六、当前阶段

通过对FusionStorage6.0进行通过性测试,55个测试项全部通过,尤其是对象存储的基本功能、可管理性、性能、可靠性、多集群容灾和多集群的统一监控等都已测试通过,满足实际要求。在下一步中,我们将在FusionStorage6.0中部署影像系统数据,结合影像系统的业务场景,进行全面的功能测试和性能测试。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

8

添加新评论1 条评论

pobirdpobird系统架构师新网银行
2018-06-15 19:00
非常好的报告啊
Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

作者其他文章

相关文章

相关问题

相关资料

X社区推广