Garyy
作者Garyy2019-02-18 14:16
系统工程师, 某保险

保险企业软件定义存储规划&对象存储实践经验分享

字数 8997阅读 1912评论 0赞 9

1.软件定义存储SDS概述

物联网 (IoT) 的蓬勃发展推动了结构化/非结构化数据的空前增长,给企业带来了发掘新客户、创造新收入来源的巨大机会。对于IT部门来说,需要在满足海量数据增长的同时,还必须提供存储方式以及其访问方式的多样性。需要IT部门同时能够对于传统环境以及云环境提供技术支持。因此,数据密集型企业的 IT 组织必须重新评估如何管理日益分散的异构数据和应用程序环境。

软件定义存储SDS(Software Define Storage)可以保障系统的存储访问能在一个精准的水平上更灵活地管理。软件定义存储是从硬件存储钟抽象出来的,这也意味着它可以编程一个不受物理系统限制的共享池,以便于最有效地利用资源。它还可以通过软件和管理进行部署和供应,也可以通过基于策略的自动化管理进一步简化。作为IT基础架构云化不可或缺的一环,软件定义存储(SDS)解决方案因其灵活性、敏捷性、自动化、高成本效率、高度可拓展性等关键优势,近年来也愈发受到业界关注。

1.1. 什么是软件定义存储

1.1.1. Gartner定义

SDS将源于物理或虚拟设备或存储服务的存储能力抽象出来,提供敏捷性和交付QoS的同时,还可以优化成本。存储服务通过分为控制平面(管理和策略实施)和数据平面(基础架构和数据传输)的软件层,凭借互操作的、可编程的接口进行编排,来满足预先定义好的策略或者SLA,与数据存放的位置无关。

Gartner认为,SDS具备如下的特色:

 能够动态抽取来自物理或者虚拟设备的存储功能——独立于存储位置或类别,提供更高的敏捷性、确保服务质量,同时优化成本。

 以软件的形式提供使用或者许可,不需要从同一厂商购买硬件或者专有硬件。一些厂商可以将SDS包装成预先即成的硬件解决方案,加快交付速度。

 拥有下列主要特性中的一个或者几个:抽取、测量、可编程性、自动化、移动性、策略管理及编排。

软件定义存储解决方案可以分为两类:iSDS和mSDS
2fh08jjczgt

2fh08jjczgt

iSDS-基础设施SDS,创建并提供取代或者增强传统存储阵列的数据中心服务。目的常常在于让存储系统可以部署到成本较低、基于行业标准的硬件上,以此改善资本支出(Capex)。

mSDS-与现有的存储系统联系、提供更强的存储服务敏捷性。mSDS产品能够对存储资源实现抽取、移动性、虚拟化、存储资源管理(SRM)及I/O优化。目的常常在于减少对管理工作量的需求,以此改善运营支出(Opex)。
pebeg8mldy

pebeg8mldy

从Gartner Hyper Cycle2017年曲线看出,iSDS相比mSDS更加成熟。
zfnv9ktx3hs

zfnv9ktx3hs

从Gartner优先级矩阵看,iSDS是一个革命性的技术,而mSDS的优先级只是中等。也就是说,iSDS的未来更加美好。

1.1.2. SNIA定义

SNIA在SDS的定义中提到,SDS允许异构的或者专有的平台。必须满足的是,这个平台能够提供部署和管理其虚拟存储空间的自助服务接口。除此之外,SDS应该包括:

 自动化:简化管理,降低维护存储架构的成本;

 标准接口:提供应用编程接口,用于管理、部署和维护存储设备和存储服务;

 虚拟数据路径:提供块、对象和文件的接口,支持应用通过这些接口写入数据;

 扩展性:无需中断应用,也能提供可靠性和性能的无缝扩展;

 透明性:提供存储消费者对存储使用状况及成本的监控和管理。

SNIA认为,存储服务的借口需要允许数据拥有者(存储用户)同时表达,对于数据和所需服务水准的需求。数据的需求,就是SDS建立在数据路径(data path)的虚拟化,而控制路径(control path)也需要被抽象化成为存储服务。数据路径由以往的标准接口(块、文件和对象)组成。控制路径,在传统存储中,就是指存储管理员为数据提供部署数据的服务。在使用纯铜存储的大多数情况下,每一个数据服务有着各自的管理接口。变更数据服务,会导致所有存放在相应存储空间的数据都受到影响。理想的SDS,其传递数据请求的方式是:让应用通过元数据来请求相应的数据服务。实现了存储基础架构的自动化机制,极大地降低了人工运维成本,数据请求需直接传达至自动化软件。它能够直接应对请求,分配应用人员所需的存储资源,而无需人工干涉。

1.2. 行业分析

1.2.1. 全球&中国市场分析

rek37agtll9

rek37agtll9

从图中看出:到2020年,20%的软件定义存储基础设施项目将有单独的软件和硬件采购报价和决策,而现在不到15%;到2022年,30%的企业将实施至少一种混合云存储方式,而2018年仅为5%;到2019年,尚未更新并运行在8GBps光纤通道FC和10G以太网上的存储网络将成为存储阵列的性能发挥的瓶颈;到2022年,50%以上的大型企业的数据中心的存储介质中将继续保留磁带;到2020年,存储业务领军企业就将面临需要提供足够的存储能力以满足世界对存储的渴望的挑战。

1.2.2. 厂商分析

1) 云服务、虚拟化厂商:积极应对,做时代变革者
 AWS提供了多样化的云存储,ESB/S3/EFS/S3 Glacier/Snowball等,为客户提供了多种选择;
 阿里云同样提供了块,对象,文件存储,同时提供了很多存储服务;
 VMware 通过发布分布式Server SAN存储产品vSAN,在vSphere场景下全面挑战传统存储厂商;
 Intel 积极寻求多方面SDS控制面合作及标准制定,2015年主动联手EMC 推SDS CoprHD开源标准。同时,推出多款SSD存储盘,为SDS提供技术支持。

2) 传统存储厂商:严防死守,延续现有优势
 EMC是传统存储厂商的代表,要保护已有存储市场,在EMC World2013上发布ViPR,基于控制面进行SDS构建。同时通过发布软件化战略,支持传统阵列变为软件定义存储,除闪存和高端外的所有产品全部软件化,对存储系统软件化、硬件标准化的发展方向进行试探性应对;
 IBM发布Spetrum战略,投资10亿美元用于投入SDS领域,分三个阶段实施:存储虚拟化阶段、smart(API)阶段和应用平台阶段。目前,Cleversafe作为对象存储的领军产品,正在对象存储的市场上劈波斩浪;
 NetApp提供StorageGRID(有两种形式:物理设备和虚拟设备),为该公司的存储产品组合提供了支持。StorageGRID支持CIFS和NFS协议,还支持云数据管理接口(CDMI)、Swift和S3 API。安全功能包括原生静态数据加密、强大的审计和报告以及WORM,借助使用该公司的Data ONTAP SnapLock功能。该产品在备份和归档两大使用场合得到了ISV的有力支持,另外还拥有有效的分层存储,支持磁盘、固态硬盘、磁带和云等选项。NetApp拥有相当数量的PB级对象存储客户。除了虚拟设备外,NetApp还为基于软件的部署提供了有限的选择;
 Huawei自收购华为-赛门铁克合资公司以来,就一直在积极投资于存储行业。华为拥有多元化的产品组合,横跨SAN、NAS和对象存储三大产品线。华为的对象存储产品OceanStor/FusionStor产品基于分散的对等节点网络,元数据与对象一同存储起来,消除了任何单一故障点,能够实现无缝可扩展性。支持原生API和S3 API,以便访问数据。该产品只能作为华为销售的套装设备来部署;

3) 新兴分布式存储技术:时代的挑战者
 Redhat 2014年5月以1.75亿美元收购Ceph解决方案公司inktank。并于2014年7月发布Ceph企业版,正式进入存储市场;
 XSKY 于2015年5月成立,创业技术团队来自于国际一线互联网公司和IT领导厂商的核心研发团队。目前,XSKY在开源存储系统Ceph社区的代码贡献排名中,位居中国第一,全球前三,并且与Redhat、戴尔、英特尔等公司达成合作。XSKY产品推出以来,获得了大规模地商业化部署,客户涵盖了政府、金融、电信、广电、教育、交通、医疗、能源、制造等不同领域,支撑了行业云、私有云、桌面云、数据库资源池、海量媒体数据、影像数据、智能制造数据等不同类型的应用场景;
 国内也有大批的初创型公司以及一些传统企业涉足Ceph领域,例如ZTE,H3C,浪潮,Easystack,中移软件,sanstone等;
 除此之外,还有一部分基于自研技术的分布式存储厂商,例如曙光,ZettaCloud等;

1.3. SDS使用场景分析

1.3.1. 从存储平面来划分

 iSDS使用场景:

1) 通过按需扩展性和充分利用商品化硬件资源,降低存储平台的总体拥有成本
Strengthen
 成本:技术设施SDS不需要价格高昂的专有存储硬件。基础设施及运维人员将把存储软件部署在基于行业标准的服务器硬件上,并降低存储升级和维护成本带来的运营支出;
 创新:基于行业标准的硬件能够迅速充分利用最新的服务器硬件创新,比如新的处理器芯片、固态硬盘(SSD)和普通硬盘(HDD)技术;
 可用性:一些SDS解决放哪提供分布式向外扩展方案:冗余性实施在软件层;
 性能:SDS能够通过添加节点或通过需要时升级现有的硬件服务器,增添和扩展性能及/容量,而不是预先购买整体式设计的系统;
 灵活性:硬件平台缓解了厂商锁定、增强了互操作性,很容易由IT团队来扩展和升级;
 敏捷性:存储配置和管理更容易集成到标准数据中心自动化和管理工具中。

Wickness
 集成:需要接受SDS与商品化服务器的集成,需要与OEM/ODM提供商一同确保互操作性;
 性能:SDS性能将基于硬件优化以及软硬件资源的合理配置,需要定期监控、测量和优化;
 成本:需要密切关注SDS成本,确保总体解决方案不仅可以降低采购成本,还由于增强了IT责任,总体上降低总体拥有成本;

Suitable for
 大型IT业务部门期望降低成本资本支出;
 针对非结构化数据的存储解决方案,数据增长迅速;
 开发运维场景,需要常见的数据服务和数据移动性,此外需要消除专有硬件;
 基础设施及运维领导人把IT作为一种核心专长和业务差异化优势,愿意投入新技能、培训和交付模式方式可能出现的变化。

2) 通过优化和合并存储IO,提升性能
Strengthen
 成本:IO优化产品可以在不干扰正常运行的情况下提升虚拟机或物理主机的性能、无需升级硬件;
 效率:IO优化软件将缓解常常困扰密集型虚拟机环境的“IO搅拌机”问题,提高密度;
 性能:在更靠近应用程序和计算资源的地方添加存储功能可缩短事务时间、提高可持续IO。

Wickness
 灵活性:由于在数据路径引入了额外的软件层和任何所需的主机代理,这种SDS解决方案可能会增加复杂性;
 成本:可重复手动任务的自动化将提高IT生产力,以此降低存储的总体拥有成本。

Suitable for
 IT业务部门和基础设施及运维人员期望提升之前部署的IT资产的性能、存储效率和利用率;
 基础设施和运维人员、应用程序和服务器管理员期望优化应用程序和工作负载的性能,并且实现服务质量和负载均衡。

 mSDS使用场景:

1) 改善存储资源的配置和自动化
Strengthen
 成本:可重复手动任务的自动化可提升IT生产力,从而降低存储的总体拥有成本;
 可靠性:减少了人为错误,尽量降低了风险;
 敏捷性:可灵活地将存储作为服务来提供,将权力授予最终用户。

Wickness
 创新:一些产品面临陡峭的学习曲线才能够定制,以满足企业要求,可能需要与开发运维团队互动;
 集成:产品可能需要与其余SDDC工具集成起来;
 灵活性:需要为新的存储解决方案和SDS制作并维护一个兼容性支持矩阵。

Suitable for
 IT部门期望简化为软件定义数据中心(SDDC)配置预先定义的存储服务类别;
 基础设施及运维人员如今在管理异构存储资源,或者计划在不远的将来管理这种资源;
 基础设施及运维人员期望通过存储抽取、延长旧阵列的使用寿命。

2) 异构存储阵列稳健的利用率、管理和生命周期
Strengthen
 成本:经过改善的资产管理将延长遗留部署系统的使用寿命,可能还可以在现有存储解决方案上面添加新的数据服务,以此遏制成本;
 效率:抽取和聚合存储容量可以用更少量的可用存储资源,满足更广泛的存储请求,以此提高利用率;
 性能:聚合不通的存储资源可改善总体IO。

Wickness
 灵活性:一些SDS虚拟化工具可能带来了另外的厂商锁定;
 效率:一些可能只是用一小部分的SDS工具功能,因而使SDS产品的实际成本成为购买之前需要考虑的重要因素。

Suitable for
 IT业务部门和基础设施人员力求延长之前部署的多厂商资产的使用帮助;
 基础设施及运维人员、应用陈旭和服务器管理员期望优化应用程序和工作负载的容量、性能和移动。

3) 存储与更广泛的基础设施软件管理紧密配合
Strengthen
 成本:减少过度配置的需要,提供了更迅速地满足存储容量和可用性要求这一能力,因而提高了资源利用率,只需要较少的硬性分配的物理资源及管理开销;
 敏捷性:存储是由状态的,因而具有数据重力,这就需要花时间来移动数据。因此,能够让存储与IT的其他方面更配合、因而与业务需求更配合,意味着提高了满足业务需求的总体IT能力和速度。

Wickness
 集成:这种SDS只适合拥有SDDC框架的企业。这种新兴方案需要额外的开发运维资源,以便将SDS整合到现有的IT运维管理平台之下;
 灵活性:在新的框架下,遗留解决方案可能得不到支持。

Suitable for
 IT部门力求实现标准的SDDC及自动化程度更高的数据中心。存储基础设施被当作数据中心平台的一部分,需要通过SDS集成来交付和控制;
 适用于非常成熟的数据中心。

1.3.2. 从存储数据的类型来划分

根据计算资源和存储资源是否分离,SDS有融合模式和分离模式两种部署方式。根据不同的存储使用接口,SDS可以分为对象存储、文件存储和块存储,分别对应不同的应用场景。

 块存储:虚拟机、数据库;
 文件存储:备份&归档、共享资源池、IoT、大数据分析、HPC;
 对象存储:备份&归档、视频/音频、影像、IoT、大数据分析、云应用。

2. 保险企业SDS对象存储实践

2.1. 对象存储

对象存储与熟悉的块和文件存储略有不同。它将数据整理到可灵活调整大小的数据容器中,也就是对象。这些对象存储在可能跨多个位置的平面命名空间中。每个对象都包含数据(未解释的字节序列)和元数据(独一无二的 ID 再加上描述该对象的一组可扩展属性)。
33qjzphj1d6

33qjzphj1d6

此方式的优势在于,可以基于任何属性引用和查询数据。此外,不同于很容易放错地方的纸质停车票据,您可以通过多种方式找到正确的“票据”,而且还可以根据需要采用安全或简单的方式使用票据。标识符标记支持大量文件索引,高出文件系统几个数量级,因而对象存储成为分布在各地并且包含几十亿个文件的企业存储的理想选择。

以下三大趋势促使人们越来越关注对象存储:

• 非结构化数据的持续增长要求采用新方式来存储和保护数据。支持对象的数据管理有助于智能数据放置,可满足广泛的性能、持久性、可用性、位置和长期性要求。

• 越来越多的企业需要应对日趋分散的数据创建和使用所带来的问题。“主数据中心加灾难恢复数据中心”这种模式正逐渐被多站点方式所取代。在多站点方式中,用户、工作负载和数据的联系越来越紧密。

• 混合云提供了可平衡成本和性能的新选项,并且 IT 团队希望找到合理利用内部存储和基于云的存储的最佳方式

2.2. 需求分析

我们保险企业对云对象存储的需求主要来自业务系统和存储运维管理两方面。其中业务系统方面的需求主要包括影像系统后端存储的升级改造、双录系统存储建设。而运维对云对象存储的需求则更倾向于存储安全性、容量和性能扩展性以及存储管理便捷性等方面。 需求分析如下:

 业务发生在白天6-8小时,上传和查询比为1:3;
 平均每交易产生10个文件,文件平均大小100~200KB;
 要求查询一批文件的时间小于3秒;
 上传业务以突发性(有一定周期性)写为主(文件写操作,有一定量的写合并),4K和128K占较大比例;
 下载业务以持续较随机读为主,IO大小4K~32K。
 特性需求:WORM、一体化备份、快照、远程复制。
 业务挑战:海量非结构化小文件,在线存储成本高,容量有限,备份和恢复效率要求高。

在线票据影像场景主要处理小文件,实时性能要求高,目前以集中式NAS建设为主;票据影像归档场景处理海量文件的归档,性能要求不高,容量增长快,目前以存放到SDS对象存储为主。

2.3. 部署实践

2.3.1. 物理架构

kvcjbzi6g7i

kvcjbzi6g7i

2.3.2. 逻辑架构

latfk9rko

latfk9rko

2.3.3. 集群概述

此次采用了NetApp StorageGRID Webscale,可以打造一个易于实施的企业级交付即用解决方案。在物理服务器上将纯软件 StorageGRID Webscale 节点部署为容器,从而利用底层的存储,可以使用任何节点类型的组合,快速部署数 PB 存储。

该物理架构利用四类节点:
• 管理节点 — 提供配置、监控、审核和日志记录等管理服务。
• 存储节点 — 管理对象存储,包括复制。
• API 网关节点(可选)— 提供负载平衡接口,应用程序通过该接口连接到使用标准 API 的 StorageGRID Webscale。
• 归档节点(可选)— 提供连接到磁带等归档介质的接口。

您可以在每个数据中心内通过每种类型的多个节点进行横向扩展,以支持大规模扩展。StorageGRID Webscale 节点作为 VMware 虚拟机在块存储(可以是 NetApp E 系列存储或第三方阵列)前面运行。每个虚拟机利用 8 个 vCPU 和 24 GB RAM。可以选择使用 SSD 和 10GbE 来提高 VM 性能。

许多非结构化数据应用程序需要使用 NAS 协议。StorageGRID NAS 协议网桥支持 SMB 和 NFS 访问,同时支持使用 Amazon S3 API 以对象方式访问这些文件。可以在支持当前工作负载的同时,主动为本机支持对象协议的下一代应用程序提供支持。

借助 StorageGRID Webscale 的分层纠删编码,可以在不影响持久性的情况下降低成本。利用节点级编码防范磁盘驱动器故障,快速重建丢失的数据段,并利用地理分布式编码 功能防止站点级别灾难。可以将复制与地理分布编码相结合,在不同的数据集之间或在对象的生命周期内平衡性能需 求并节省成本。

StorageGRID Webscale存储租户可按分段为对象配置WORM保留和诉讼保留,可配置以便连同重复副本或者逻辑上的等同副本存储合规性数据。利用基于软件的加密和内置审计记录确保数据安全。

StorageGRID Webscale支持虚拟机部署,经过优化且基于硬件的设备以及采用Docker容器技术的裸机服务进行部署,还可以通过组合方式进行部署。

2.3.4. 访问方式

1) S3接口
创建access key:
tpf59nus9q

tpf59nus9q

mds90xec6
mds90xec6

注意下载 key文件;
Netapp s3是https应用,需要厂商协助制作证书,具体调用可以参考官方文档:

https://library.netapp.com/ecmdocs/ECMLP2574702/html/GUID-1497F033-9021-47B5-A54F-28BC0C5B8C0A.html

2) S3 Browser
5am12fodbnw

5am12fodbnw

2.4. 实践中问题处理

1) 集群性能优化
针对不同的应用,在系统层面进行了定制化的优化措施:
OS层面,采用了更适合应用的文件系统调度模式,系统采用了大页面技术;
网络层面,采用了万兆双网卡bond,并通过mod4支持交换机的堆叠。

2) 集群访问优化
利用F5作为访问入口,进行load balance。将集群的storage gateway与存储节点合一,节省了硬件资源,提高了利用了。

3) 副本技术与纠删码选择
分布式存储同时支持副本技术和纠删码技术,各有优势。当初为了节省空间,最大化存储,采用了纠删码。但是在运行一段实践后,发现存储节点的CPU利用率经常冲高,存储集群不稳定。后来经过分析,纠删码在使用的过程中会吃掉部分CPU。所以,经过考虑,保险起见,采用了副本技术。

3.项目收益

云对象存储的实施给企业现有的集中式 SAN 和 NAS 存储带来了更多的活力,是对传统存储架构的有效补充,增强了企业存储系统应对日益变化的前端业务需求的灵活性。

由于云对象存储产品普遍采用了商用 x86 硬件的分布式架构,因此较之于传统集中式的存储解决方案,这种新的平台可以有更灵活的横向在线扩展能力,从而可以轻松应对业务规模、数据量骤增带来的后端存储压力。

另外在云对象存储平台解决了企业海量非结构化数据存储需求的同时,通过其分布式架构天然具有的容灾特性可以轻松构建跨多站点的灾备方案。

再者,借助云对象存储对文件多版本的支持以及比传统存储更高的可用性、可靠性和可维护性指标, 云对象存储平台同时也成为了一个免备份的数据保护平台,从而可以进一步降低企业 IT 系统的 TCO。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

9

添加新评论0 条评论

Ctrl+Enter 发表

超融合选型优先顺序调查

发表您的选型观点,参与即得50金币。