Garyy
作者Garyy2019-03-04 09:10
系统工程师, 某保险

保险行业对象存储需求分析及架构规划实践

字数 13371阅读 3842评论 1赞 5

物联网 (IoT) 的蓬勃发展推动了结构化/非结构化数据的空前增长,给企业带来了发掘新客户、创造新收入来源的巨大机会。对于IT部门来说,需要在满足海量数据增长的同时,还必须提供存储方式以及其访问方式的多样性。需要IT部门同时能够对于传统环境以及云环境提供技术支持。因此,数据密集型企业的 IT 组织必须重新评估如何管理日益分散的异构数据和应用程序环境。
软件定义存储SDS(Software Define Storage)可以保障系统的存储访问能在一个精准的水平上更灵活地管理。软件定义存储是从硬件存储钟抽象出来的,这也意味着它可以编程一个不受物理系统限制的共享池,以便于最有效地利用资源。它还可以通过软件和管理进行部署和供应,也可以通过基于策略的自动化管理进一步简化。作为IT基础架构云化不可或缺的一环,软件定义存储(SDS)解决方案因其灵活性、敏捷性、自动化、高成本效率、高度可拓展性等关键优势,近年来也愈发受到业界关注。
对象存储与熟悉的块和文件存储略有不同。它将数据整理到可灵活调整大小的数据容器中,也就是对象。这些对象存储在可能跨多个位置的平面命名空间中。每个对象都包含数据(未解释的字节序列)和元数据(独一无二的 ID 再加上描述该对象的一组可扩展属性)。

在2月27日的线上活动交流中,基于金融行业对象存储需求分析和架构规划实践,围绕对象存储的使用场景,对象存储技术方案,对象存储在金融行业的应用等方面的问题进行了充分的讨论,得到了各位专家的支持。大家针对对象存储需求和实践的相关问题,体现出了高度的参与热情。在此,对大家关注的问题以及针对这些问题各位专家的观点总结如下:

问题分类解答

一、对象存储使用场景分析

Q1: 对象存储在目前的生产环境中主要可应用在哪些场景中?
A1:
对象存储与熟悉的块和文件存储略有不同。它将数据整理到可灵活调整大小的数据容器中,也就是对象。这些对象存储在可能跨多个位置的平面命名空间中。每个对象都包含数据(未解释的字节序列)和元数据(独一无二的 ID 再加上描述该对象的一组可扩展属性)。
此方式的优势在于,可以基于任何属性引用和查询数据。此外,不同于很容易放错地方的纸质停车票据,您可以通过多种方式找到正确的“票据”,而且还可以根据需要采用安全或简单的方式使用票据。标识符标记支持大量文件索引,高出文件系统几个数量级,因而对象存储成为分布在各地并且包含几十亿个文件的企业存储的理想选择。
以下三大趋势促使人们越来越关注对象存储:
• 非结构化数据的持续增长要求采用新方式来存储和保护数据。支持对象的数据管理有助于智能数据放置,可满足广泛的性能、持久性、可用性、位置和长期性要求。
• 越来越多的企业需要应对日趋分散的数据创建和使用所带来的问题。“主数据中心加灾难恢复数据中心”这种模式正逐渐被多站点方式所取代。在多站点方式中,用户、工作负载和数据的联系越来越紧密。
• 混合云提供了可平衡成本和性能的新选项,并且 IT 团队希望找到合理利用内部存储和基于云的存储的最佳方式
企业对云对象存储的需求主要来自业务系统和存储运维管理两方面。其中业务系统方面的需求主要包括影像系统后端存储的升级改造、双录系统存储建设。而运维对云对象存储的需求则更倾向于存储安全性、容量和性能扩展性以及存储管理便捷性等方面。 需求分析如下
➢ 业务发生在白天6-8小时,上传和查询比为1:3;
➢ 平均每交易产生10个文件,文件平均大小100~200KB;
➢ 要求查询一批文件的时间小于3秒;
➢ 上传业务以突发性(有一定周期性)写为主(文件写操作,有一定量的写合并),4K和128K占较大比例;
➢ 下载业务以持续较随机读为主,IO大小4K~32K。
➢ 特性需求:WORM、一体化备份、快照、远程复制。
➢ 业务挑战:海量非结构化小文件,在线存储成本高,容量有限,备份和恢复效率要求高。
在线票据影像场景主要处理小文件,实时性能要求高,目前以集中式NAS建设为主;票据影像归档场景处理海量文件的归档,性能要求不高,容量增长快,目前以存放到SDS对象存储为主。

Q2: 大型企业中,SDS对象存储是否可替代集中式NAS存储?
A2:
传统的NAS存储在传统企业中目前仍占据很大的地位,但是由于互联网大数据的兴起,非结构化数据越来越占据主导地位,所以传统NAS无论在scaleout扩展方面,还是运维的方便性,还是使用者的易用性方面,都无法和对象存储相比。
云对象存储的实施给企业现有的集中式 SAN 和 NAS 存储带来了更多的活力,是对传统存储架构的有效补充,增强了企业存储系统应对日益变化的前端业务需求的灵活性。
由于云对象存储产品普遍采用了商用 x86 硬件的分布式架构,因此较之于传统集中式的存储解决方案,这种新的平台可以有更灵活的横向在线扩展能力,从而可以轻松应对业务规模、数据量骤增带来的后端存储压力。
另外在云对象存储平台解决了企业海量非结构化数据存储需求的同时,通过其分布式架构天然具有的容灾特性可以轻松构建跨多站点的灾备方案。
再者,借助云对象存储对文件多版本的支持以及比传统存储更高的可用性、可靠性和可维护性指标, 云对象存储平台同时也成为了一个免备份的数据保护平台,从而可以进一步降低企业 IT 系统的 TCO。

Q3: 哪些类型的文件适合放入对象存储?
A3:
企业对云对象存储的需求主要来自业务系统和存储运维管理两方面。其中业务系统方面的需求主要包括影像系统后端存储的升级改造、双录系统存储建设。而运维对云对象存储的需求则更倾向于存储安全性、容量和性能扩展性以及存储管理便捷性等方面。 需求分析如下
➢ 业务发生在白天6-8小时,上传和查询比为1:3;
➢ 平均每交易产生10个文件,文件平均大小100~200KB;
➢ 要求查询一批文件的时间小于3秒;
➢ 上传业务以突发性(有一定周期性)写为主(文件写操作,有一定量的写合并),4K和128K占较大比例;
➢ 下载业务以持续较随机读为主,IO大小4K~32K。
➢ 特性需求:WORM、一体化备份、快照、远程复制。
➢ 业务挑战:海量非结构化小文件,在线存储成本高,容量有限,备份和恢复效率要求高。
在线票据影像场景主要处理小文件,实时性能要求高,目前以集中式NAS建设为主;票据影像归档场景处理海量文件的归档,性能要求不高,容量增长快,目前以存放到SDS对象存储为主。

Q4: 保险行业中对象存储适合存放那些数据,有助于解决的行业问题?
对象存储与熟悉的块和文件存储略有不同。它将数据整理到可灵活调整大小的数据容器中,也就是对象。这些对象存储在可能跨多个位置的平面命名空间中。每个对象都包含数据(未解释的字节序列)和元数据(独一无二的 ID 再加上描述该对象的一组可扩展属性)。
此方式的优势在于,可以基于任何属性引用和查询数据。此外,不同于很容易放错地方的纸质停车票据,您可以通过多种方式找到正确的“票据”,而且还可以根据需要采用安全或简单的方式使用票据。标识符标记支持大量文件索引,高出文件系统几个数量级,因而对象存储成为分布在各地并且包含几十亿个文件的企业存储的理想选择。
以下三大趋势促使人们越来越关注对象存储:
• 非结构化数据的持续增长要求采用新方式来存储和保护数据。支持对象的数据管理有助于智能数据放置,可满足广泛的性能、持久性、可用性、位置和长期性要求。
• 越来越多的企业需要应对日趋分散的数据创建和使用所带来的问题。“主数据中心加灾难恢复数据中心”这种模式正逐渐被多站点方式所取代。在多站点方式中,用户、工作负载和数据的联系越来越紧密。
• 混合云提供了可平衡成本和性能的新选项,并且 IT 团队希望找到合理利用内部存储和基于云的存储的最佳方式

Q5: 对象存储在保险企业的适用场景有哪些?
A5:
一般来讲,传统行业一般采用集中式的san和nas存储数据。但随着非结构化数据越来越多,传统的存储也出现了问题。一方面使用传统存储存放海量非结构化数据的成本高。再者,海量的非结构化数据在树型结构的文件型存储里的检索速度会随着文件数量和目录层级的复杂而效率下降。此外,海量的数据在传统存储里的备份是个难题。而对象存储的引进能从如上诸多方面解决用户的烦恼。
从业务层面来看,对于保险行业的影像系统,双录系统都是非结构化数据的密集地,这些业务场景都可以适时改造为对象存储
一直以来,作为传统行业,保险公司的存储系统普遍采用集中式的 SAN 和NAS 存储。这种采用专业 硬件的紧耦合架构设计的传统集中式存储一直主导着险企存储技术的发展,而且长期以来都作为各种保险 业务、ERP、邮件的主存储系统,因此我们的关注点也大多集中在如何提高这些专用存储系统的性能、安 全性和可管理性上。但随着企业的发展,保险业务量的激增,企业信息系统出现越来越多的非结构化数 据。影像系统是非结构化数据的一个主要来源,已经积累了数十亿的文件量,占用了近 PB 的空间,这些 非结构化数据主要存放在上述集中式存储上。由于传统存储采用集中的元数据处理方式,因此,当存取千 万、亿级的文件量时就会出现陡峭的性能骤降拐点,直接表现就是前端内容管理平台处理效率降低,核 保、保全以及理赔等保险业务效率的下降,最终导致客户满意度的下降,这显然不利于险企的健康持久发 展。而采用扁平化数据组织方式的对象存储系统,能够有效解决纵深目录结构带来的文件存取效率低的问 题。另外,中国保监会已经发文要求保险行业实施“双录”系统,以便规范保险代理人的销售行为, 保障被 保险人权利。“双录”系统的实施,带来了更多的录音、录像等非结构化数据,保险业的对象存储之路势在 必行。本文就是围绕保险业影像、“双录”等系统以及各类文件型应用产生的海量非结构化数据的存储和管 理优化,进行分布式云对象存储系统的方案设计

Q6: 目前市场上对象存储的厂商有哪些?它们各自有哪些特点?
A6:
1) 云服务、虚拟化厂商:积极应对,做时代变革者
 AWS提供了多样化的云存储,ESB/S3/EFS/S3 Glacier/Snowball等,为客户提供了多种选择
 阿里云同样提供了块,对象,文件存储,同时提供了很多存储服务
 VMware 通过发布分布式Server SAN存储产品vSAN,在vSphere场景下全面挑战传统存储厂商。
 Intel 积极寻求多方面SDS控制面合作及标准制定,2015年主动联手EMC 推SDS CoprHD开源标准。同时,推出多款SSD存储盘,为SDS提供技术支持。
2) 传统存储厂商:严防死守,延续现有优势
 EMC是传统存储厂商的代表,要保护已有存储市场,在EMC World2013上发布ViPR,基于控制面进行SDS构建。同时通过发布软件化战略,支持传统阵列变为软件定义存储,除闪存和高端外的所有产品全部软件化,对存储系统软件化、硬件标准化的发展方向进行试探性应对。
 IBM发布Spetrum战略,投资10亿美元用于投入SDS领域,分三个阶段实施:存储虚拟化阶段、smart(API)阶段和应用平台阶段。目前,Cleversafe作为对象存储的领军产品,正在对象存储的市场上劈波斩浪。
 NetApp提供StorageGRID(有两种形式:物理设备和虚拟设备),为该公司的存储产品组合提供了支持。StorageGRID支持CIFS和NFS协议,还支持云数据管理接口(CDMI)、Swift和S3 API。安全功能包括原生静态数据加密、强大的审计和报告以及WORM,借助使用该公司的Data ONTAP SnapLock功能。该产品在备份和归档两大使用场合得到了ISV的有力支持,另外还拥有有效的分层存储,支持磁盘、固态硬盘、磁带和云等选项。NetApp拥有相当数量的PB级对象存储客户。除了虚拟设备外,NetApp还为基于软件的部署提供了有限的选择。
 Huawei自收购华为-赛门铁克合资公司以来,就一直在积极投资于存储行业。华为拥有多元化的产品组合,横跨SAN、NAS和对象存储三大产品线。华为的对象存储产品OceanStor/FusionStor产品基于分散的对等节点网络,元数据与对象一同存储起来,消除了任何单一故障点,能够实现无缝可扩展性。支持原生API和S3 API,以便访问数据。该产品只能作为华为销售的套装设备来部署。
3) 新兴分布式存储技术:时代的挑战者
 Redhat 2014年5月以1.75亿美元收购Ceph解决方案公司inktank。并于2014年7月发布Ceph企业版,正式进入存储市场。
 XSKY 于2015年5月成立,创业技术团队来自于国际一线互联网公司和IT领导厂商的核心研发团队。目前,XSKY在开源存储系统Ceph社区的代码贡献排名中,位居中国第一,全球前三,并且与Redhat、戴尔、英特尔等公司达成合作。XSKY产品推出以来,获得了大规模地商业化部署,客户涵盖了政府、金融、电信、广电、教育、交通、医疗、能源、制造等不同领域,支撑了行业云、私有云、桌面云、数据库资源池、海量媒体数据、影像数据、智能制造数据等不同类型的应用场景。
 国内也有大批的初创型公司以及一些传统企业涉足Ceph领域,例如ZTE,H3C,浪潮,Easystack,中移软件,sanstone等。
 除此之外,还有一部分基于自研技术的分布式存储厂商,例如曙光,ZettaCloud等。

Q7: 如何评估对象存储项目的整体成本?
A7:
整体成本需要从如下几个方面考虑:
1)硬件成本
涉及主机相关-包括管理服务器,网关服务器,存储服务器(CPU,内存,系统盘,数据盘,SSD,网卡);网络设备-主要包括万兆交换机或者IB交换机;以及上架相关的设施
2)软件成本
分布式存储软件,一般是按照每个节点收取license费用(节点包含管理节点,数据/存储节点,网关节点),或者按照存储总容量(注意,通常不是按照可用容量计算。例如150TB的总容量,3副本,实际可用容量<=50TB)来收取费用。
3)运维成本
维护所需投入,例如原厂/代理商专家现场服务,原厂/代理商驻场服务,每个季度/半年/年的系统巡检等

二、对象存储技术解决方案

Q1: 对象存储的灾备有没有成熟的方案
A1
灾备的方案,主要还是传统厂商的会稍微多一点,同时实施的成熟度会好很多。例如ibm,netapp等;新兴的ceph厂商,在灾备这块目前还是基于一些mirror技术做的异地灾备
Cleversafe的强项所在,对比传统存储,因为IDA的算法,从而无需副本、RAID方式,就能够在配置合理的情况下,有对应40%的节点失效,这40%的节点数会大于我一个站点所包含的节点,这样的失效场景也不会影响业务系统的正常工作。同时,IDA native的可以做到纠删码算法后的切片能够分发到异地,因此Cleversafe如果多站点的部署情况下,不需要做任何数据同步备份即可基本容灾特性。

Q2: 保险行业保单存量数据量巨大,如何快速从传统存储迁移至对象存储
A2
使用数据无缝迁移的工具,能够帮助用户实现原有业务系统已有数据到对象存储的无缝迁移。用户访问数据时,若对象存储无该部分数据,则会回源到用户源站去读取数据,并写入到对象存储,将数据传递给用户。
每个厂家都有其自己的迁移工具:
阿里的ossimport
七牛的qfetch
腾讯的cos migration
青云的qscamel
等等

Q3: 对象存储节点部署中如何保证高可用?
A3
通过 三副本和纠删码等多种数据冗余模式,保障数据可靠性。同时,对象存储可以具备跨地域的多数据中心服务能力,支持 数据跨区复制,保证存储的高可用性。
对象存储系统通过接入业务接入集群和存储集群提供基础服务 能力支撑,集群支持水平扩展,接入集群与存储集群都可以进 行平滑扩容。且随着底层硬件规模增大,云存储系统的并发能 力也可以随集群规模线性增长,以支持更多数量用户访问。
存储空间(Bucket)支持多租户访问隔离,支持基于用户授权、 访问行为、访问地址等多个维度进行完善的访问控制安全机 制。同时,数据传输支持客户端及服务端加密,并通过 SSL 加密数据传输,保证数据传输安全。
IBM COS 对象存储是采用的可变纠删码方式,一般可调节的冗余度范围1.3~1.8之间。IBM可以灵活调节纠删码算法,从而找到最优客户使用场景的平衡冗余度和可靠性的存储效率,而其他友商则不行,比如emc ECS固定纠删码两种,需要结合多副本方式实现跨站点,存储效率局限性大,并且采取后项纠删码; 例如开源的ceph,纠删码是可配置项,主要采取副本的方式,通过不同优先级OSD分发;像华为是利用本站点采用固定纠删码的方式,跨站点采用异步的副本方式,数据一致性存在风险。

Q4: 对象存储的数据一致性怎么保证?
A4
所有的数据存储都涉及到简称为CAP的三个元素:一致性、可用性和分区。
  如果只是执行了写操作从而改变了一个对象,但有人正在从另外的节点访问这个对象。节点可能会在不同的物理位置,因为对象存储支持很大的地理扩展。新用户可能正在读取对象,但那是旧版本。这就是对象存储的最终一致性问题,此时并没有及时的同步。
  这将成为问题,特别是利用对象存储做协同的时候,厂商为保证对象存储的一致性做了很好的工作,像是Joyent以及他的Manta 存储服务,一旦对象更改将不支持读取旧的内容。你必须等待,但你所读取的内容会是一致的。

Q5: 分布式存储是用硬件解决方案还是软件解决方案好?
A5
分布式存储目前市场上看,有两种方式---软硬一体化和软件解决方案
软硬一体化的解决方案,主要是传统的存储厂商,他们既有硬件产品,也有相应的控制软件;例如IBM,Netapp,EMC。纯软件的解决方案主要是ceph的产品化,对底层的硬件没有强制要求,兼容绝大多数的x86服务器,例如redhat,suse,xsky,ucloud,等等。
对于方案的好坏对比,目前从使用的案例看来,差不多五五开。软硬一体的解决方案,在技术成熟度方面,在稳定性方面肯定优于采用通用硬件的纯软件解决方案。但是,在性价比方面,纯软件的解决方案无疑更具有优势。同时,纯软的解决方案,也是在不断的进步和完善中。

Q6: 保险企业应该如何进行对象存储的系统方案设计?有哪些具体的设计内容?
A6
保险也是属于金融行业,金融行业最大的需求就是数据的可靠性。那么在选取产品的时候应该把数据的可靠性放在第一位。功能方面其实现在成熟的对象存储产品都比较同质化了,更多的是看需求方有没有一些个性化需求。
1)需求分析
需要了解对象存储使用的场景,对接的应用系统对于对象存储的技术需求。例如存储等级划分,是需要ssd,sas,还是普通sata即可;是否需要数据安全一致性检查等等
2)产品选型
选择合适的产品进行部署,包括软件,硬件;例如ibm的cleversafe,netapp的storagegrid,emc的ECS等
3)设计整体解决方案
设计硬件的组网方案,包括网络设计,对象网关的设计,副本技术选择,LoadBalance设计,系统性能调优设计等等

Q7: 对象存储如何处理数据的安全性和完整性?
A7
1、数据持久性
存储在S3上的文件,每个服务周期(一个自然月)的数据持久性不低于99.99999999%。即每月用户10000000000 个存储的文件,数据不丢失的概率为99. 99999999%,即每月只有1 个文件丢失的可能性。
2、服务可用性
服务可用性不低于99.95%。不可用时间计算按服务周期计算,一个服务周期为一个自然月。即用户每月服务可用时间应为30天24小时60分钟*99.95%=43178.4 分钟,即存在43200-43178.4=21.6 分钟的不可用时间。并且不可用时间规定为服务不可用5 分钟以上算一次不可用,计入不可用时间,低于5分钟不可用不计入不可用时间。不可用时间不包括日常系统维护时间、由用户原因、第三方原因或不可抗力导致的不可用时间。
3、业务资源调配能力
对象存储无空间上限,用户无需关注空间上限问题。请求和带宽可根据访问量的增长自动扩容,且无需用户干预。存储空间可根据用户的数据存储量自动扩容,无需用户干预。
4、服务和数据可销毁性
对象存储提供数据删除功能,当用户主动删除数据或其他指定需要销毁数据时,对象存储会从所有对应的存储介质中检索并删除指定数据,数据删除后将无法复原。当硬件设备需进行报废、维修等操作,需离开所在机房时,所有存储介质将销毁。前述情况下发生的清除,会在7天后完全删除用户在设备上是所有数据,数据一经销毁将无法恢复。
5、服务功能
对象存储为用户提供大规模的Web接口存储服务。用户可以通过调用对象存储提供的 HTTP REST API 对数据进行上传、下载和管理。对象存储支持自动扩展,并以按量付费和结算的方式提供服务。所有功能均已提供详细的功能介绍和使用说明文档。对象存储所有可能影响用户的功能性变更都将以短信即站内信等方式向用户公告。
6、数据可迁移性
与AWS的S3产品完全兼容,用户可以使用AWS S3客户端或者SDK编写程序,将数据迁入或者迁出现有S3。
7、服务私密性
用户可将对象存储设置为私有或仅授权有关用户访问(设置公有/匿名访问除外),当读、写、管理请求发起时,相关请求必须经过签名才可授权执行。通过接口层面上对用户执行权限控制,隔离用户操作,并保障用户数据的私密性。
仅可以查看用户账户信息、Bucket统计信息等,用户存储在Bucket里的文件无权进行访问。针对用户账户信息、Bucket统计信息等信息的内部查看系统,有严格权限控制和操作审计记录。

Q8: 在对象存储项目中,如何进行对象存储产品的选择?
A8
从市场上从业的厂商看来:
1) 云服务、虚拟化厂商:积极应对,做时代变革者
 AWS提供了多样化的云存储,ESB/S3/EFS/S3 Glacier/Snowball等,为客户提供了多种选择
 阿里云同样提供了块,对象,文件存储,同时提供了很多存储服务
 VMware 通过发布分布式Server SAN存储产品vSAN,在vSphere场景下全面挑战传统存储厂商。
 Intel 积极寻求多方面SDS控制面合作及标准制定,2015年主动联手EMC 推SDS CoprHD开源标准。同时,推出多款SSD存储盘,为SDS提供技术支持。
2) 传统存储厂商:严防死守,延续现有优势
 EMC是传统存储厂商的代表,要保护已有存储市场,在EMC World2013上发布ViPR,基于控制面进行SDS构建。同时通过发布软件化战略,支持传统阵列变为软件定义存储,除闪存和高端外的所有产品全部软件化,对存储系统软件化、硬件标准化的发展方向进行试探性应对。
 IBM发布Spetrum战略,投资10亿美元用于投入SDS领域,分三个阶段实施:存储虚拟化阶段、smart(API)阶段和应用平台阶段。目前,Cleversafe作为对象存储的领军产品,正在对象存储的市场上劈波斩浪。
 NetApp提供StorageGRID(有两种形式:物理设备和虚拟设备),为该公司的存储产品组合提供了支持。StorageGRID支持CIFS和NFS协议,还支持云数据管理接口(CDMI)、Swift和S3 API。安全功能包括原生静态数据加密、强大的审计和报告以及WORM,借助使用该公司的Data ONTAP SnapLock功能。该产品在备份和归档两大使用场合得到了ISV的有力支持,另外还拥有有效的分层存储,支持磁盘、固态硬盘、磁带和云等选项。NetApp拥有相当数量的PB级对象存储客户。除了虚拟设备外,NetApp还为基于软件的部署提供了有限的选择。
 Huawei自收购华为-赛门铁克合资公司以来,就一直在积极投资于存储行业。华为拥有多元化的产品组合,横跨SAN、NAS和对象存储三大产品线。华为的对象存储产品OceanStor/FusionStor产品基于分散的对等节点网络,元数据与对象一同存储起来,消除了任何单一故障点,能够实现无缝可扩展性。支持原生API和S3 API,以便访问数据。该产品只能作为华为销售的套装设备来部署。
3) 新兴分布式存储技术:时代的挑战者
 Redhat 2014年5月以1.75亿美元收购Ceph解决方案公司inktank。并于2014年7月发布Ceph企业版,正式进入存储市场。
 XSKY 于2015年5月成立,创业技术团队来自于国际一线互联网公司和IT领导厂商的核心研发团队。目前,XSKY在开源存储系统Ceph社区的代码贡献排名中,位居中国第一,全球前三,并且与Redhat、戴尔、英特尔等公司达成合作。XSKY产品推出以来,获得了大规模地商业化部署,客户涵盖了政府、金融、电信、广电、教育、交通、医疗、能源、制造等不同领域,支撑了行业云、私有云、桌面云、数据库资源池、海量媒体数据、影像数据、智能制造数据等不同类型的应用场景。
 国内也有大批的初创型公司以及一些传统企业涉足Ceph领域,例如ZTE,H3C,浪潮,Easystack,中移软件,sanstone等。
 除此之外,还有一部分基于自研技术的分布式存储厂商,例如曙光,ZettaCloud等。

三、金融行业对象存储案例

Q1: 对象存储在银行的应用怎样?
A1
对象存储的访问方式和接口是和传统文件访问不太一样的,传统应用绝大部分是基于文件接口的,直接使用对象存储的确多有不便。如果是传统应用不变,只是后端存储替换,那通常是要实现一个访问接口转换的模块或组件或者是实体设备后才能使用。这种情况下,考察的视角还是从传统文件来看的,例如典型的说法就是“小文件性能”,从架构上来说,我认为这种应用场景并不是对象存储的长处,但是服从于市场需求,的确看到不少厂商都在做这方面的优化。依据各家接口转换的实现效率,最终呈现出来的性能数据应该会有不小差异。
如果数据量没有特别巨大,同时并发的访问量也没有到互联网级,对象存储的绝对优势领域没有进入,这种应用场景下,传统一点的分布式文件存储也当然可以满足需求。
所以最终产品和架构的选择还是要紧密适配应用场景。
企业对云对象存储的需求主要来自业务系统和存储运维管理两方面。其中业务系统方面的需求主要包括影像系统后端存储的升级改造、双录系统存储建设。而运维对云对象存储的需求则更倾向于存储安全性、容量和性能扩展性以及存储管理便捷性等方面。 需求分析如下
➢ 业务发生在白天6-8小时,上传和查询比为1:3;
➢ 平均每交易产生10个文件,文件平均大小100~200KB;
➢ 要求查询一批文件的时间小于3秒;
➢ 上传业务以突发性(有一定周期性)写为主(文件写操作,有一定量的写合并),4K和128K占较大比例;
➢ 下载业务以持续较随机读为主,IO大小4K~32K。
➢ 特性需求:WORM、一体化备份、快照、远程复制。
➢ 业务挑战:海量非结构化小文件,在线存储成本高,容量有限,备份和恢复效率要求高。
在线票据影像场景主要处理小文件,实时性能要求高,目前以集中式NAS建设为主;票据影像归档场景处理海量文件的归档,性能要求不高,容量增长快,目前以存放到SDS对象存储为主。

Q2: 对于对象存储的性能优势如何体现?目前有哪些金融客户上了对象存储?
A2
对象存储的一般都是通过cosbench进行测试
主要的优势:
云对象存储的实施给企业现有的集中式 SAN 和 NAS 存储带来了更多的活力,是对传统存储架构的有效补充,增强了企业存储系统应对日益变化的前端业务需求的灵活性。
由于云对象存储产品普遍采用了商用 x86 硬件的分布式架构,因此较之于传统集中式的存储解决方案,这种新的平台可以有更灵活的横向在线扩展能力,从而可以轻松应对业务规模、数据量骤增带来的后端存储压力。
另外在云对象存储平台解决了企业海量非结构化数据存储需求的同时,通过其分布式架构天然具有的容灾特性可以轻松构建跨多站点的灾备方案。
再者,借助云对象存储对文件多版本的支持以及比传统存储更高的可用性、可靠性和可维护性指标, 云对象存储平台同时也成为了一个免备份的数据保护平台,从而可以进一步降低企业 IT 系统的 TCO。
目前金融行业采用对象存储的比比皆是,区别主要在于采用的是公有云上的S3还是采用的私有云中的对象存储。

Q3: 金融企业应该如何进行对象存储的风险评估?
A3
管理风险,政策风险这里不谈,既然这是技术社区,我们只讨论下技术风险
技术风险来自三个方面,产品本身,已有应用改造,整体系统风险。
第一点,产品本身选择上有两种技术路线选择,开源和商业。
选择开源产品风险大些,选择商业产品风险小些。

  1. 基于开源方案,从风险上来说非常直观的不利因素就是无人背锅也无人有义务帮忙,出啥问题自己团队抗。开源方案有成熟也有不成熟的,如何衡量呢?如果类比最成功的开源项目Linux,当你发现有非常多的发行版,非常多的技术服务从业者时,开源项目就还没那么成熟;如果渐渐统一,全世界只有几个版本和Redhat/Suse/Ubuntu级别的大玩家,这就已经很成熟了。如果企业本身技术实力不错,有底层开发能力和网络深度相关经验,选开源产品的好处在于能够整体把控,去除厂商锁定,和源码级改动的可能性。还有一种就是基于开源产品,但选择商业技术服务,这种情况下,商业技术服务公司技术能力如何,在开源社区影响力如何,包括该公司能否持续存活,也都是必须要考虑的因素。 2.基于商业产品,既然是商业产品 ,必然有厂商替你抗第一道雷。而且根据厂商的专业操守不同,或多或少在产品发布前进行了一定数量的优化和测试,达到发布的程度。当然不同厂商的产品可靠性也是有差异的,这对产品技术风险也有很直接的影响。有些产品比较可靠,但有些互联网风格的厂商是喜欢快速迭代的,在用户处打补丁和升级在他们眼里是义正词严的常规操作,这就看金融企业是否持同样理念了。另外厂商响应时间也是要考虑的,出问题是能4小时及时响应还是要等明天国外的总部反馈,相信也有不一样的感受。最后必须要考虑的问题是厂商锁定,是否能够避免?如何后期必须要切换得付出多大代价?这也是前期风险评估不得不考虑到的因素。 第二点,应用系统改造风险 我们已经知道,使用对象存储更有效率的方式需要改动应用,那你就需要评估自己的系统经得起折腾的可能性和随之带来的风险。如果你的系统是一个历经沧桑,写满历史和岁月痕迹的大型拼图,改一行代码要好多层级的领导们审批,那劝你还是谨慎为好。如果是新系统,所有代码作者都还在办公室里喝茶敲键盘,但不是太清楚系统数据调用的机制,也请讨论清楚后再动手。 由于对象存储的访问方式不同,不仅仅是接口改动的问题,系统的架构也许也需要改动以适应更大的并发访问量和聚合性能。例如原来的数据读写模块只是单独的串行方式操作,也许需要从架构上变成并行,同时间段内起更多的线程虚机读写数据,同时还要引入数据一致性的机制和其他保护机制。这样的改动就会比较大,但带来的风险就更大了。 三,整体系统风险 对象存储是一个分布式系统,你的应用如果改造也会变成分布式系统;即使不改造,以对象存储的技术特点和能力,可以给更多的系统接入使用,形成数据池,数据湖,云存储(随便怎么称呼吧)。这样势必把原来相对简单的封闭系统变得复杂化,引入多个系统对接后,整体风险的上升是必须要考虑的因素。

也可以从如下几个方面考虑:
1)对象存储本身技术成熟度
对象存储是近几年发展起来的技术,其稳定性/可靠性/安全性有待长期的实践的验证
2)使用人员对对象存储的掌握
相对传统存储,对象存储的使用完全是两种模式,更加倚赖使用人员的技术。如果能够很好地使用绝对能够极大的提升生产效率。否则,会带来极大的风险
3)供应商技术服务团队的成熟度
传统存储催生了大量的传统存储维护工团队。新兴对象存储的诞生,需要大量懂对象存储维护的工程师来对客户进行支持。如果没有良好的客户技术服务团队,那么对象存储的使用风险性极大

Q4: 如何评估对象存储项目实践给金融企业带来的回报?
A4
云对象存储的实施给企业现有的集中式 SAN 和 NAS 存储带来了更多的活力,是对传统存储架构的有效补充,增强了企业存储系统应对日益变化的前端业务需求的灵活性。
由于云对象存储产品普遍采用了商用 x86 硬件的分布式架构,因此较之于传统集中式的存储解决方案,这种新的平台可以有更灵活的横向在线扩展能力,从而可以轻松应对业务规模、数据量骤增带来的后端存储压力。
另外在云对象存储平台解决了企业海量非结构化数据存储需求的同时,通过其分布式架构天然具有的容灾特性可以轻松构建跨多站点的灾备方案。
再者,借助云对象存储对文件多版本的支持以及比传统存储更高的可用性、可靠性和可维护性指标, 云对象存储平台同时也成为了一个免备份的数据保护平台,从而可以进一步降低企业 IT 系统的 TCO。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

5

添加新评论1 条评论

#wuwenpin软件开发工程师, 南京
2019-05-21 10:26
感谢分享!!
Ctrl+Enter 发表

本文隶属于专栏

活动总结
活动总结是社区交流活动内容的总结及延伸,为大家提供了社区专家们丰富且高水平的理论知识、实践经验以及常见问题的最佳解决方法,非常值得大家收藏学习。

关于TWT  使用指南  社区专家合作  厂商入驻社区  企业招聘  投诉建议  版权与免责声明  联系我们
© 2019  talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30