zhangjunxi570
作者zhangjunxi570·2020-12-14 18:13
系统架构师·某城商银行

城商行非结构化数据在不同场景下的存储路线选型及备份方案探讨总结

字数 13548阅读 13871评论 0赞 4

目前非结构化海量数据存储较好的方案主要有传统分布式NAS方案和对象存储方案。传统NAS存储方案由于和现有SAN存储方案类似,都是基于文件系统的方案,均为树形目录组织结构,随着数据量的增大,同样存在文件寻址越来越慢的瓶颈。另外如果将企业现有SAN方案改为NAS存储方案,IOPS和IO响应时间还有所降低,NAS方案显然不适合对现有架构进行改造,且存在越改越差的情况,并且对NAS存储的容灾备份方案,依旧是两套NAS镜像的方式,副本数较少,备份效率低,存在数据一致性校验困难问题。因此企业在非结构化数据存储架构转型上均偏向于对象存储方案。

为了帮助大家更深入地了解对象存储方案,解决企业在建设对象存储系统时面临的方案设计难点,TWT社区特别邀请了在这方面有着丰富项目实践经验的专家线上与大家一起交流探讨。

交流探讨汇总如下:

1、如何根据企业实际情况,有效的进行非结构化数据存储方案下关于技术路线的选择和技术方案的选型?

回复:zhangjunxi570 系统分析师 , xjtu
这是一个很好的问题。是否要使用对象存储没有固定的标准,一定要一定要根据自身的实际出发。下面我提供集中建议使用对象存储的场景:
1 非结构化数据体量过于庞大,在经济上和运维上的投入太大。对象存储通常采用分布式服务器加容量大性能一般的介质如sata盘,采用采用就删的方案的方案做数据冗余得盘率接近传统存储而且冗余性高于普通普通的raid。特别是由于数据体量庞大业务已经初步初步显现出问题。这种情况下可以考虑使用对象存储。如果尚未遇到这些痛点可以继续使用传统存储。
2 数据体量不是使用对象存储使用对象存储绝对的门槛,如果企业的业务是会产生大量音视频、图片、各类格式的文档以及日志等情况,也可以大胆选择对象存储。
3 对象存储对象存储的实现方案也很多,基于开源ceph的,厂家自研的等等,当然可以参考IDC或者其他第三方评测机构的报告。首先还是搞清楚自己上对象存储的核心需求是什么,是要追求严格控制成本,还是要尽可能高的冗余性及容灾能力容灾能力来选择适合自己的。个人建议从以下几个角度出发考虑选型问题:第一,规划的容量和可以接受的冗余度。容量决定了部署架构架构节点数。第二,哪些功能特性是生产需要的。对象存储支持支持许多传统文件不具备的功能,挑选其中自己真正需要的。第三,要实现什么级别的容灾等级。

回复:wangguoming ASE , 戴尔科技金融行业解决方案中心
非结构化数据的可靠及有效存储,可以采取不同的存储协议和存储方案,但具体采用哪一种方案,需要视具体的需求来定。
比如:数据大小,对象/文件数量,访问速率要求,访问时延要求,数据安全要求,数据访问方式,活动数据改变量,这些都会影响到具体的方案选择。
数据湖解决方案,支持多种访问共享协议、多种数据存储形式实现数据/存储解耦,只需要考虑目前的使用,而不需要担心以后的需求不能满足。可以大大减少选择的苦恼。

2、非结构化数据如何由传统存储在线、可靠、有效率地迁移至对象存储?

回复:Seaskyblue 售前技术支持
好问题。这个问题的本质是需要变更存储访问协议。我的建议如下:
1、自己做。可以考虑Rclone这个开源工具。
2、花钱做。请厂商服务工程师或专业合作伙伴工程师来做。这是最佳选项,不过还有钱来说话。
3、并存。老数据保持现有存储和访问方式,新数据直接写入对象存储。这个就要看业务部门是否同意了。

评论:melody2004
说的太全面了,基本上就是这三种思路。特别提醒一点的是自己做一定要注意“索引”问题,涉及到迁移后系统访问成功与否。 找厂商做之前一定要把服务谈好,约定好迁移数据的细节问题。请应用开发配合肯定很重要,还有域名设计等问题需要关注一下。

回复:zhangjunxi570 系统分析师 , xjtu
推荐文件和对象并存的方案。很多厂商的开发是在是在原来软件使用文件系统的文件系统的基础上改造的,因此兼容文件方案。并行方案的好处是迁移迁移工作可以后台进行,在数据库里定义相应的字段标志数据的位置是在目录里还是在对象存储里存储里,这样投产操作很简单,新的数据直接写到了对象里,查询原来的数据继续继续访问目录,后台逐渐迁移,特别是特别是考虑原数据体量庞大情况,等待完全迁移再投产时间不太能接受。

回复:seposal 系统工程师 , GUOSEN
没做过传统存储到对象存储的迁移,但做过私有对象存储接口到S3接口的对象存储迁移。
如果希望在线、可靠、有效的迁移,这就是一个系统工程,需要以项目思维并站在业务方角度思考并设计迁移规划方案。
我们的迁移实现了对应用层透明,涉及数十个业务系统,前后总共迁移耗时接近5个月,包括后续的数据抽验核查工作。这里面涉及大量的项目管理技巧使用、大量的沟通,比较耗费精力。
想要 在线、可靠、有效的迁移 ,我们曾经是开发了一个应用,支持应用请求重定向,即实现读写分离,并通过独立线程实现异步数据迁移,保障老数据能读的到、新数据读写都在新的存储资源。随着迁移完成,老数据全部迁移完毕,旁路工具移除,实现对应用透明的架构调整。
但前提是你有人懂业务调用模式,熟悉对象存储产品,具备开发能力。

回复:wangguoming ASE , 戴尔科技金融行业解决方案中心
严重同意其他的几个回答,主要需要应用层面对不同存储的访问方式提供支持,包括对数据的完整、可用性做校验。
单纯从存储级别来说,可以提供多种工具来做这种数据迁移,比如DataIQ,可以对数据做标记,跨平台类型迁移数据,监控数据使用情况,如果需要,还可以开发定制的插件以实现特殊的功能!

回复:zzy3620 系统环境管理 , 北部湾银行
这部分的数据迁移,除了存储层面提供支持外,最关键的是需要应用提供支持,应用对于nas文件的访问方式和对象存储的访问方式是完全不同的,因此,需要在应用层面进行新的文件存取路径的关系映射,保证应用可用性才是最终目的。

3、非结构化数据如何实现备份和容灾,保证数据的安全可靠?

回复:wangguoming ASE , 戴尔科技金融行业解决方案中心
非结构化数据同结构化数据一样,可按照不同的需求,实现多种方式的备份。而唯一不一样的,对于大数据,或者说海量的非结构化数据,由于数据量的巨大,不能用传统的备份方式来处理,这时候我们会建议采用历史数据归档替代传统的备份,一方面保证数据保护的时间窗,同时确保数据的回溯访问时间。
至于是采用对象还是文件还是专用的备份装置,需要考虑的核心仍然是应用需求!如果应用需要立即访问,归档一定比备份好,如果考虑得更多的成本,对RTO不是很敏感的话,采用专用备份装置,连接低成本的对象存储也会是一个不错的选择。
而对于容灾,基于文件的同步复制、基于对象的多站点分布都是有大量成功案例的方案,具体采用什么样的方案,需要根据具体的环境做相应的分析的选择。

回复:melody2004 系统架构师 , 某城市商业银行
这个问题楼上回答的已经很全面了,我想补充一下关于容灾方面的一些看法。
因为工作需要,前段时间深入了解了一些对象存储的容灾解决方案。从现阶段看,非结构化数据的容灾解决方案,对象存储的解决方式是最完整可行的。(暂不考虑价格成本)
关键问题是要解决数据在两个中心存储并如何分配的,在容灾情况下数据如何同步,保障一致性。
其实我的理解,对象存储提供了从应用接口层到存储层的整体解决方案,这要比NAS存储在解决问题的层次要高一些,因此,在不考虑成本的前提下,对容灾有需求的,肯定是有限考虑对象存储的。

zhangjunxi570 系统分析师 , xjtu
1备份 主流的备份厂商都提供了s3的接口可以直接从对象存储里备份数据。对象存储提供了足够的冗余性,同时配合同城容灾放在对象存储里的数据里的数据也可以免备份(监管要求监管要求备份数据一定要离线存放的另当别论),如果未来对象存储支持分层,提供类似amazon的glacier层冷数据层,也可以将超期的数据在对象存储内部迁移到冷数据冷数据介质层长期归档。
2 高可用 使用副本或者就删码技术。推荐就删码的技术,保证和传统raid一样的得盘率提高故障冗余的能力。
3 容灾 两站点双活,两站点单向复制,多站点全局就删

回复:先明确几个概念的定义,然后再做讨论。

数据备份:
1、通过提供原始数据在多个时间点的不同版本,来保障原始数据在大时间尺度上的可回溯性。
2、备份数据最好能够保存在原始数据不同的物理设备上,以保障备份数据安全。

数据容灾
1、在原始数据不可访问的情况下,无需从数据备份中恢复数据,即可为系统提供原始数据的一个或多个时间点的、可读取、可写入、可修改、可删除的数据副本,来保障业务的可用性。

备份窗口时间
1、 备份窗口时间是指完成一次数据备份操作所需要的时间。
2、数据备份会消耗主机、存储、网络资源,因此备份窗口时间越小越好。

灾备演练
1、灾备演练是确保备份数据和容灾数据安全的最后一道防线。
2、没有灾备演练的数据备份和数据容灾方案,都是不完整的,因为无法保障备份和容灾的数据一定可用。
非结构化数据一般来说有NAS和对象两种存储方式,存储方式不同,数据量、小文件数量、日数据变化量的不同,都会影响到数据备份和数据容灾的技术方案。

对象存储的数据备份和数据容灾
由于对象数据不可修改的特性——只能被删除或覆盖,不适合频繁修改的数据——因此对象存储数据备份技术相对简单,而且无需考虑备份数据量和小文件数量的影响。
1、数据备份。
1)通过开启对象存储的版本功能来实现。这是真正等同于数据备份意义上的操作,但是对于数据频繁变化业务场景,会产生大量非预期冗余数据而占用大量存储空间——我们可能只需要保留几个时间点的数据,而非数据所有的变化。
2)单个物理位置站点情况下,依靠对象存储自身的可靠性保障和数据持久性保障,来保障备份数据的安全。
3)在2个或多个地理位置站点情况下,通过存储桶复制或构建跨广域网多逻辑站点的方式,利用对象存储高数据持久性保障的技术特性,提供备份数据安全保障和容灾保障。

2、数据容灾
1)在提供容灾保障的时候,对象存储能否提供同一对象数据在所有站点的可写功能就比较重要了。这能够保障在对象数据初始写入站点故障的时候,容灾站点bucket依然可以写入同一个对象数据的不同版本,实现数据容灾功能,保护业务的可用性。但这不是所有的对象存储产品都能够提供的功能。

3、备份窗口时间。
1)在对象存储的技术架构下,对象数据每次写入或修改都是一个新的版本,因此不存在备份窗口时间的问题。 总结一下:非结构化数据在对象系统上的备份和容灾,更多是依赖对象存储自身的技术特性,在某种程度上近似模拟出来的。

NAS存储的数据备份和数据容灾
数据量不大,小文件数量有限,日数据变化量不多,传统企业级备份软件,能够在可接受的备份窗口时间内,完成数据备份和数据容灾。
但是量变产生质变。
在海量数据、海量小文件的前提下,哪怕日数据变化量有限,传统企业级备份软件,大多数时候都无法在可接受的备份窗口时间内,完成数据备份。
这时候,最好的办法,就是使用NAS存储底层数据复制技术,来实现NAS存储海量非结构化数据的备份和容灾。

4、对象存储的性能指标有哪些?

选择一款对象存储,需要考量的点有哪些?性能指标有哪些?

回复:bai030805 系统工程师 , 戴尔科技金融行业解决方案中心
对象存储主要关注的就是TPS(每秒处理的对象文件数量)、带宽(每秒传输的对象文件量)和时延(传输完一个文件所耗费的时间)

回复:zhangjunxi570 系统分析师 , xjtu
小文件关注tps
大文件大文件关注带宽
影响影响对象存储性能发挥性能发挥的主要是网络要部署在至少是万兆的环境。识别整个数据流中有没有瓶颈,例如客户端到业务的通路只有千兆后端性能再好也意义不大。总体来说对象存储对象存储适合对对性能不敏感的业务的业务。还要特别关注业务批量是的性能能否满足,尽量使业务多线程运行才能发挥对象的优势。

回复:JohnTong BDM , 戴尔科技金融行业解决方案中心
本身对象存储就是从公有云衍生出来的存储技术,能够跟公有云的对象存储技术相匹配的对象存储才是好对象!

回复:seposal 系统工程师 , GUOSEN
对象存储,可以认为是一种应用或服务,关注请求数及分布,后端请求错误代码,请求时延,bucket级别容量占用及容量趋势等维度

5、分布式文件存储和分布式对象存储具体使用场景的区别?

分布式文件存储和分布式对象存储具体使用场景的区别?

回复:JohnTong BDM , 戴尔科技金融行业解决方案中心
到底是需要分布式文件还是分布式对象,核心还是看业务的需求,到底什么的存储技术能满足业务的需求才是最重要的选型标准!

回复:zhangjunxi570 系统分析师 , xjtu
这里主要想补充一点不适合对象存储的场景:频繁修改的数据,对性能对性能敏感的业务。

回复:马丁毛 工程师 , 戴尔科技金融行业解决方案中心
很多场景下,文件存储和对象存储都可以使用,比如文件共享,网盘,海量文件归档等。二者之间还是有一些区别,在HPC高性能计算的应用,推荐分布式文件存储,相关云原生的应用,推荐对象存储。还有一点是对象存储多用于静态数据,不适用数据经常更新的情况。

6、传统结构化数据的备份是否也可以用对象存储进行备份?

回复:zhangjunxi570 系统分析师 , xjtu
归档是对象存储非常适合的使用场景。大多数主流的备份软件支持s3接口,备份服务器只保留近期的数据,超过一定期限数据可以可以归档到对象存储,利用对象存储低成本的优势。

回复:JohnTong BDM , 戴尔科技金融行业解决方案中心
可以理解成原则上支持S3的备份软件都可以备份到对象存储,另外也可以通过DD这样的备份设备再归档到对象存储!

回复:bai030805 系统工程师 , 戴尔科技金融行业解决方案中心
现在主流的备份软件都支持对象存储的S3接口,可以直接拿来作为备份介质来使用。实际中也有很多用户已经在这么做了

回复:wangguoming ASE , 戴尔科技金融行业解决方案中心
答案是可以。
作为备份设备的新兴势力,对象存储的扁平化访问优势让备份系统的海量数据访问更加迅速(备份系统中,随着备份频率和次数的增加,文件或对象的数据都是成倍的往上增加的),同时,备份系统的备份数据基本也不会改写,只会到回收期失效,更让对象存储如鱼得水。再加上灵活的就近访问等等,越来越多的用户选择了对象存储作为自己的备份存储。

回复:马丁毛 工程师 , 戴尔科技金融行业解决方案中心
对象存储可以对接备份服务器,作为备份设备的一部分。只要备份软件支持S3协议连接对象存储,可以实现这一要求

回复:seposal 系统工程师 , GUOSEN
传统备份软件无法将对象存储作为源端进行备份,只能作为目标端进行备份数据保存

7、非结构化数的从文件存储到对象存储的迁移,怎样去管理?

回复:zhangjunxi570 系统分析师 , xjtu
文件方式管理大家非常熟悉,监控使用率监控使用率,按需扩容。
迁移到对象存储后事实上简化了管理,应用直接访问对象存储,存储管理员只需要完成初始化完创建工作,为桶设置好配额,监控存储整体的使用率,不必像过去一样再关心每个业务情况。
如果你问的是迁移的过程如何管理,同城需要配置定时任务,在业务不忙时发起迁移,第二天监控迁移到监控迁移到效果。

回复:JohnTong BDM , 戴尔科技金融行业解决方案中心
对于数据从文件到对象的迁移,比较理想的还是能通过类似DataIQ这样的数据管理软件来进行, 才是比较好的操作,尤其是在不同品牌的NAS跟Object之间。

回复:wangguoming ASE , 戴尔科技金融行业解决方案中心
一般来说,从文件迁移到对象,涉及到访问数据的协议和方式转换,对应用没有办法做到无感知,从应用的角度来考虑整个迁移的影响是非常重要的。
而数据湖技术可以有效避免这种难题。数据湖支持同一份数据,同时提供文件和对象方式访问,而不需要数据迁移,应用也可以持续访问数据而不必中断。这也是数据湖的强大优势之一。

8、对象存储能否实现版本控制?

对象存储能否实现对象的版本控制,以便对对象的增删改等操作进行回溯

回复:zhangjunxi570 系统分析师 , xjtu
对象存储的版本管理原理是:当应用上传同名的文件的文件后,文件.version1 文件.version2 ...文件.versionX文件名相同版本号增加。查询时指定版本号。对象存储不支持修改,上传上传同名的文件同名的文件也不会覆盖覆盖上一个上一个版本,只是版本号增加。

回复:bai030805 系统工程师 , 戴尔科技金融行业解决方案中心
对象存储是可以支持多版本功能的,基本逻辑是就是当用同一个对象ID或者说对象名写入的时候,以前写入的数据仍然存在,不同版本会以不同的版本ID来进行区分。当数据调用的时候可以通过指定版本ID来找到以前的数据。在进行删除的时候,如果不指定版本ID,则不会删除任何数据。当然如果需要删除数据,可以通过指定版本ID的方式来进行删除操作。

回复:马丁毛 工程师 , 戴尔科技金融行业解决方案中心
对象存储普遍自带多版本功能,类似于存储中的快照。对象误删除后,可以轻松回溯

9、对象存储的访问协议是否有行业统一标准,还是各个厂家各自为政?9、对象存储的访问协议是否有行业统一标准,还是各个厂家各自为政?

对象存储的访问协议是否有行业统一标准,还是各个厂家各自为政?相比NAS存储,对象存储有什么数学模型或者拓扑结构可以支撑其性能的线性增长?

回复:zhangjunxi570 系统分析师 , xjtu
对象存储标准的访问协议是S3。
传统的业务系统访问对象存储的形式有几种:
第一直接改造支持S3协议。改造的工作量很小。
第二使用各类开源的驱动,将数据转换成s3协议写到对象存储。
第三使用GPFS或者一些厂商一些厂商的文件系统,业务还是使用目录的形式的形式存取数据,gpfs后端后端链接对象,可以定制规则将数据将数据定期迁移到后端的对象存储

回复:seposal 系统工程师 , GUOSEN
共识的标准就是S3
基本行业对象存储都支持S3
对象存储分布式架构,适用于一写多读,分布式架构是具备通过节点堆叠实现吞吐和容量线性增长

回复:JohnTong BDM , 戴尔科技金融行业解决方案中心
对象存储目前的事实标准就是S3,可能各个厂家对于S3支持的力度不太一样。另外从对象存储本身的特性来看,只有基于完全分布式的对象存储才能支撑起对性能跟容量的线性增长!

10、迁移至异构分布式存储的具体步骤及注意点?

迁移至异构分布式存储的具体步骤及注意点?如:场景1、分布式文件迁移至对象存储 场景 2、对象存储迁移至异构对象存储

回复:bai030805 系统工程师 , 戴尔科技金融行业解决方案中心
两种场景下,最建议的方案是通过应用系统来进行数据的迁移,从整个项目来看,这种方案是最有效率的。如果不通过应用系统来迁移的话,基本步骤可以分为:1,接口改造,2,梳理迁移的数据集,3,通过迁移工具进行数据迁移,4,数据验证。由于一般情况下,非结构化数据的数据量都比较大,因此迁移的时间都会比较长,要注意做好计划,有长期战斗的心理准备。

回复:wangguoming ASE , 戴尔科技金融行业解决方案中心
不同的产品会决定最终的迁移方案是多种多样的。
一般来说,对于金融的客户,建议先对数据使用情况做详细的评估,再决定使用什么样的工具,以及数据迁移计划。当然,还有回退策略。
从迁移工具上来説,经常会用到的迁移工具:robocopy、rsync、EMCopy、DataIQ,都经常使用,还有基于NDMP的迁移,基于备份/恢复的迁移,如此种种,需要根据实际情况再做选择。

11、文件存储和对象存储分别具备哪些特色功能或特性对方不具备的?11、文件存储和对象存储分别具备哪些特色功能或特性对方不具备的?

回复:zhangjunxi570 系统分析师 , xjtu
一,文件存储很好的兼容了传统的开发和使用习惯,而且目前主流厂商的文件存储支持横向扩展,另外一些存储厂商的高端存储也支持NAS功能,提供了很高的冗余性及容灾能力,运维管理的成本较低。同时存储厂商对文件存储的性能优化很到位。
二,对象存储是针对非结构化数据管理比较新的方案,它能提供一些传统文件系统传统文件系统不具备的功能特性特性。试举比较比较关键的几项:
1 自定义元数据元数据的功能,在写入数据的同时赋予数据一些有意义有价值的属性,例生成的业务名,交易流水号,这样原先需要存放在数据库里加工的数据可以直接存放在对象存储里,提供额外的检索功能。
2 WORM 可以为数据指定保留的期限,期限内不可删除篡改,特别适合合同、敏感的日志以及交易凭证。
3 移动端业务友好性,对象存储支持S3访问协议,特别适合云移动场景的开发。

回复:wangguoming ASE , 戴尔科技金融行业解决方案中心
补充一点点:
对象,支持多数据中心同时就近访问,提供小的对象打包操作,天生就支持版本管理;
文件,支持频繁的数据更新。

12、从经济角度和运维角度出发,在什么样场景下采用文件存储还是采用对象存储?12、从经济角度和运维角度出发,在什么样场景下采用文件存储还是采用对象存储?

目前到底是选择文件存储,还是选择对象存储,对我们来说有个比较头疼的问题。我们的使用场景主要是:
1、主要用于非结构化的数据,如图片、视频、录像;
2、数据量大概是100TB;
3、我们需要实现同城双活,以及备份等;
4、我们希望结合投资成本和运维角度来考虑。

回复:seposal 系统工程师 , GUOSEN
时至今日,容量已经不再是约束是否使用对象存储的条件。而且特别是当前X86价格如此透明的时代。
是否使用对象存储,除了数据类型外,还与业务特点有关。如你所述,同城双活,如果业务对锁敏感,那么对象存储非常合适,但数据的一致性是异步的,除非是跨数据中心纠删,但真不建议此种方案,东西向流量带来的网络成本太高。
目前对象存储上数据的备份,是个难题。但可以通过多副本、多版本等解决基本可用性及逻辑错误。但通常对象存储存储的数据基本数据一次写入很少更改,不像数据库那样高逻辑性要求。。同时,业务侧也是可以做一定工作来进行写入逻辑问题的规避。
对象存储已经不再属于存储设备,更像是一种存储服务,那么要重点强调它的服务特性与业务的适配以及业务的改造意愿。
在无专职存储运维,对数据的user metadata没额外要求,寻求较为简单易用或学习成本角度考虑,文件存储更适合你。但如果业务特性偏创新或互联网化,数据海量(数量),而且锁敏感,同时业务也原因配合尝试新型存储服务,那么可以考虑对象存储。

回复:wangguoming ASE , 戴尔科技金融行业解决方案中心
同城双活,对象系统天生就可以做到。
楼上的回答中也给大家指出了数据一致性的问题。强一致性是可以保证数据一致的。至于东西向流量,对于金融这一严重数据依赖行业来说,属于“可克服困难”。

13、结合行业特点,非结构化数据的备份和恢复管理、权限管理,有什么可以落地的解决方案?

回复:wangguoming ASE , 戴尔科技金融行业解决方案中心
对于非结构化数据,我们可以简单分为流数据、文件数据、对象数据三种。
流数据通过数据订阅放到历史数据到文件或对象设备,数据备份通过文件或对象来完成。
文件数据,可以通过文件系统直接访问、系统虚拟化再备份、NDMP等等备份方案完成备份,也可以通过归档的方式完成数据保护。
对象数据,一般通过数据分布到不同的安全域实现数据保护。
一般来说,采用备份软件的,备份软件会帮助管理权限,以确保数据不会被非法访问。而归档方式,依赖系统本身的权限管理特性,也能提供确保数据安全的访问管理。
从落地上来说,各种数据都有成熟可用的方案,具体还是需要根据实际情况的RPO和RTO来进行选择的。

回复:bai030805 系统工程师 , 戴尔科技金融行业解决方案中心
从我个人的经验来看,非结构化数据主要面临的问题是文件多、容量大。因此在备份的时候面临的问题有两个,如何保证在备份窗口内实现数据备份、如何存放这么大容量的数据、如何保证几十年的时间里数据随时可用。从目前的看来对象存储是一个比较合适的解决方案。因为对象存储本身的横向扩展能力、多版本、非常低的管理运维成本、相对低的采购成本都可以很好的满足非结构化数据备份的需求。还有一点就是本身对象存储里的数据可以随时访问,不需要进行恢复。

14、如何保证数据一致性,用户、权限、管理以及监控可以细化到什么程度?

如何保证数据一致性,用户、权限、管理以及监控可以细化到什么程度。

回复:bai030805 系统工程师 , 戴尔科技金融行业解决方案中心
对象存储在系统内部会进行数据访问的一致性管理,不需要外部的业务系统来进行保证,这也降低了前端业务系统的逻辑处理的复杂度。技术上来看对象存储的权限管理可以做到非常细的粒度,可以针对每个对象来单独控制,也可以监控每个对象的访问。从实际使用来看,基本上都是按照Bucket这个级别来控制就可以了。

15、对象存储的两地三中心方案,如何实现同城双活?

对象存储的两地三中心方案,如何实现同城双活?

回复:zhangjunxi570 系统分析师 , xjtu
两地三中心是传统块存储容灾的基本架构。
下面只讨论对象存储基于就删码方案做数据冗余的情况。对象存储的多站点容灾分两种情况:
1 多站点全局就删
分布在所有站点的所有服务器节点都是一个集群,写入数据散落在每个站点的每个节点上。
2 两站点复制模式
两个站点组成复制模式,有两种情况,一种是单向的从生产从生产复制同城同城,另一种是双向复制是双活模式。

回复:马丁毛 工程师 , 戴尔科技金融行业解决方案中心
对象存储支持跨数据中心,跨城市的多中心多活方式。在不同的数据中心的对象存储,可以统一成一个命名空间。在它的管理下,所有的对象存储保持数据一致性。

16、本地双活,同城容灾等高可用架构如何设计,数据一致性和可用性如何保证,主机回切后,对象存储如何回切?

本地双活,同城容灾等高可用架构如何设计,数据一致性和可用性如何保证,主机回切后,对象存储如何回切。

回复:zhangjunxi570 系统分析师 , xjtu
1 关于数据一致性的问题。第一角度对象存储没有没有修改的修改的操作,只有上传、下载、查询等操作,不会发生同时修改一份数据的问题。如果上传了了一个同名的文件,只有版本号增加不会覆盖原先的文件。第二个角度,两个站点的对象存储配置成同步复制的模式,主流厂家的对象存储支持两个站点双向复制,是不需要配置仲裁的。这一点与存放结构化数据的块存储有很大的不同,块存储配置成双活模式一定要在第三站点启用仲裁,当脑裂发生时,仲裁参与确定一个站点站点存活提供IO,绝不允许脑裂后两个站点的数据都都被访问,这样会造成存储层面的数据不一致。而对象存储没有此类考虑,举例来说,两个站点的应用分别访问各自站点的对象存储,对象存储双向复制,发生脑裂后,每个站点还是可以继续接受IO,如果站点1的应用需要访问站点2的应用生成的数据(注意前提两个站点应用访问一个数据库),而由于脑裂站点1的存储里没有站点2的数据,此时应用请求失败。双活的对象存储不需要仲裁。根本的原因还是对象存储不支持同时操作修改一个数据。
2 对象存储的容灾设计:有的厂商只支持复制的方案,即源站点的对象存储可以将元数据和数据和数据复制到备站点,但是备站点的用户和桶的信息与原站点不同,即业务不能使用原站点的用户的桶的信息直接访问备站点,业务访问备站点时需要修改,业务业务会中断。
容灾实现更优的方案是一些头部的厂商可以将两个站点的不仅数据层面,在用户、桶层面完全进行“镜像”,业务不要做任何修改h可以直接访问备站点的对象存储。
3 容灾设计需要关注的第三个问题是,访问对象存储通过http的请求,同时对象存储分布式架构通常是多节点的模式,容灾设计如果有全局dns和负载均衡会更好。
**
回复:wangguoming ASE , 戴尔科技金融行业解决方案中心**
楼上的回答很全面了。
这也从另外一个角度解释了对于企业级应用,强一致性的重要性。
主机可以就近同时访问不同的物理站点,而对象系统本身通过强一致性特性来处理数据的一致性要求,当出现不一致(数据在其它站点有修改)时,从最后版本“拉”数据过来已保证数据的“最新”。
主机切换访问站点,没关系,随便切换好了。

17、高可用角度:对比分析文件存储和对象存储的得盘率,及冗余性(包括但设备的可靠性和容灾能力)?

回复:zhangjunxi570 系统分析师 , xjtu
传统的文件存储底层的磁盘要么使用raid技术冗余要么使用副本技术冗余,raid根据不同的级别的盘率不同,通常raid5 4+1模式只有80%的得盘率,只能容忍一个一个硬盘故障;raid6 按照6+2的模式得盘率只有75%,允许2块硬盘故障。即使是使用较新的分布式raid得盘率和能够容忍的和故障硬盘的故障硬盘的数量与传统的raid接近。副本的方案的得盘率更低,冗余性有一定提高。
对象存储对象存储使用纠删码的技术实现数据底层的冗余,以某厂商使用12+4的纠删码方案来做数据的冗余,得盘率为75%,可以容忍随机发生(位置位置不在同一个节点)4块硬盘故障,或者1个节点整体离线。得盘率和raid接近接近的情况下冗余性大幅提高。因此适合对性能要求不高,提供足够的足够的冗余性,追求严格控制成本的业务。

回复:wangguoming ASE , 戴尔科技金融行业解决方案中心
传统的基于RAID的NAS的得盘率,就不讨论了。我们来讨论基于纠删码的分布式文件和对象系统。
大家都基于纠删,所以大家的容错机制基本一样,在采用相同的N+M后,大家的得盘率是一样的。所以,只要能够提供更低的冗余,就能换来更大的得盘率。
相反的,对于重要的数据,我们提供更高的冗余特征,比如+2N,在一个故障域中,就支持同时坏2个节点。

18、非结构化数据存储管理的产品有很多,怎样去选择?最终怎样实现统一管理?

回复:wangguoming ASE , 戴尔科技金融行业解决方案中心
非结构化存储管理我认为至少应当包括两大方面,基础架构的管理以及其中的数据的管理。 基础架构的管理,各家都有相应的管理工具,再加上开源的工具,最多再定制一下,都是能够满足各种需求的。
其实,更多的是数据管理,如数据标记、热点数据分析、数据生命周期管理,甚至是数据迁移、数据清洗等等,这也可以是应用的范畴,但存储平台提供的管理工具,如DataIQ,就更能让使用者如虎添翼,纵横江湖。

回复:seposal 系统工程师 , GUOSEN
业内对象存储基本上都摸过,商业的产品都具备自己的管理gui,相对成熟一些;针对ceph也有很多开源产品,但曾经我们是基于实际需要自研,而非拿来主义。
但对于对象存储的管理、即便商业化产品,实际监管控方面还是不够全,毕竟谁用谁才知道真正的需求。
目前我们主要采用的是zabbix进行集群的整体运行状态监管控,配合商业化产品的SNMP进行硬件层级的监控,采用ELK+Grafana实现基于bucket级别(业务级别)细粒度的容量、请求时延和异常请求统计汇总。
不要局限于管理工具,重点在于管理规范、思维的建立以及监管控目标。

评论:我特别同意你讲的“商业化产品,实际管控方面还是不够全”的说法,建议在选型之前做做测试。如果对云平台感兴趣,可以先到对方的公有云环境体验一下。

19、影像平台带打包归档功能,可以上百、千倍的降低文件数量,如此还有必要上对象存储吗?

银行存放非结构化数据,一般通过影像平台,目前影像平台都带打包归档功能,可以上百、千倍的降低文件数量,对一般规模的银行来说,存放在nas上不存在文件数过多,导致性能等问题了,并且现在华为、netapp等的nas存储都支持双活,稳定性、可靠性、可维护性都比对象存储要好,也省得应用进行接口改造,感觉对中小型银行来说没多大必要上对象存储来储存非结构化数据。

回复:seposal 系统工程师 , GUOSEN
要清楚对象存储的存在不是为了替代NAS,而是精细化服务分工需要。
首先,不是影像业务系统选择了对象存储存储,而是行业规范的要求下,对象存储更适合、更满足行业合规要求。
其次,当你海量文件的时候,做底层资源更新替换的时候,做基于文件系统的数据拷贝迁移、带权限迁移的时候,就会发现对象存储的优势了。
而至于稳定性和可靠性,其实都没谁比谁好。

回复:我们的痛点是影像平台的老数据转到对象存储上的人力成本有点高。。。简单说就是费时费力。
但是对象存储是非结构化数据存储的趋势,所以建议咬咬牙,还是改吧。
PS:我们咨询过华为,他们好像没有NAS产品的双活方案啊。还是我们被销售忽悠了??

回复:wangguoming ASE , 戴尔科技金融行业解决方案中心
能够通过标准协议达成的东西,不要让应用变得更复杂。
对象存储除了打包以外,还提供扁平化的访问,更吸引我们的是,未来支持对象的整个生态,软件、硬件、应用环境。而影像平台的打包功能,如同通过限号来让交通更顺畅,你懂的,管不了多久。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

4

添加新评论0 条评论

Ctrl+Enter 发表

本文隶属于专栏

活动总结
活动总结是社区交流活动内容的总结及延伸,为大家提供了社区专家们丰富且高水平的理论知识、实践经验以及常见问题的最佳解决方法,非常值得大家收藏学习。

作者其他文章

相关文章

相关问题

相关资料

X社区推广