maciscoma
作者maciscoma·2021-06-07 10:08
项目经理·万和证券

证券行业集中交易等核心数据长期保存技术方案选型探讨总结

字数 5472阅读 21261评论 0赞 2

数据作为金融企业最核心的资产需要长期有效的保存,证券行业集中交易等核心数据更需要得到长期的保存,以便后期审计和溯源。一级业务系统一般是核心业务用户,按照合规要求需要 20 年以上,保存用户交易数据的要求永久保留。目前,各家证券行业的集中交易等核心数据主要保存在高端集中存储阵列,格式化数据存放于 SAN 存储,日志数据主要存放于 NAS 存储中,超过 10 年的日志数据归档于磁带或者磁盘中。随着数据量越来越大,非结构化数据呈现爆发试增长,现有技术方案和架构出现了一些痛点:非结构化数据存放于传统集中式存储会造成一部分性能的浪费;数据量爆发式增长后扩展困难;数据未分级管理容易造成数据混乱。针对以上痛点,券商正在尝试用新技术、新架构解决当前的问题。分布式技术近几年飞速发展,分布式存储和对象存储应运而生,证券企业也有尝试应用分布式存储,如对象存储用于存储日志文件等非结构化数据,扁平化的数据架构即使数据量再大,也不会出现性能的下降。各家也在追求数据的分级管理,在线数据、近线数据、离线数据分开管理,能最大程度的发挥存储的性能。本次的线上交流总结如下。

1 、 证券行业备份核心数据长期保存调用方案 ?

证券行业长期保存数据使用哪些调用方案? 恢复验证是否有单独的环境?恢复数据验证的覆盖率是多少? 有哪些恢复验证方案?如何保障该独立环境的安全性。

回复 1 : seposal 系统工程师 , GUOSEN

通过备份软件构建数据保护方案。恢复环境必须专用且独立,恢复验证覆盖率参考行业通用备份能力要求。

对于恢复环境安全性,我们采取自动密码下发,关联申请者申请者邮件实现。

回复 2 : wanggy 系统工程师 , 戴尔科技金融行业解决方案中心

目前的状况是:

  1. 长期保存的数据存放的位置一般在数据仓库系统、数据备份系统中。前者通过数仓系统进行查询,后者需要进行数据恢复。
  2. 针对备份系统的恢复验证,一般都是使用单独的恢复验证环境,并且条件具备的系统,建议尽量使用单独的隔离环境进行恢复验证。
  3. 恢复数据验证的覆盖率一般主要作用于核心业务的环境。对于二类业务一般是制订计划,按照业务重要性进行轮询进行恢复验证。
  4. 恢复验证方案有很多:实际恢复验证、设备级别的数据验证、备份介质校验等等。
  5. 对于环境的安全性,需要考虑几个因素:事前做好防护、事中的流程管控和数据脱敏、事后的灾难恢复等等。

2 、 证券行业对于核心交易系统的长期数据,未来趋势性的技术架构方案是什么 ?

证券行业对于核心交易系统的长期数据,未来趋势性的技术架构方案是什么?

回复 1 : seposal 系统工程师 , GUOSEN

逐步向分布式架构恢复过渡,应对应对不断增长的数据体量数据体量和访问需求。

回复 2 : wanggy 系统工程师 , 戴尔科技金融行业解决方案中心

对于核心交易系统来说,核心数据库的容量越来越大,发展趋势是业务逻辑与数据要逐渐分离解耦,需要在应用软件层面建立数据归档机制进行历史数据的归档处理,通过制订保存策略,实现核心生产数据库的瘦身,以及发生故障之后的快速恢复。

因此,可以通过专用软件将数据按照原生格式(或者应用系统的格式)导出之后,写入数据归档平台或者形成非结构化数据写入对象存储。

另外,有关核心系统的重要时间节点的状态数据(例如:年终、月底、重要节点日)是需要使用备份手段进行长期保留的,目前的最佳手段是使用类似源端消重技术进行快速备份,减低该日常备份对业务的影响,长期保存的部分数据通过对象存储技术进行保存。

3 、 数据长期保存离线数据的方案有哪些?

由于数据量越来越大,在线数据和离线数据如何设计?
同行业在线数据都保留多长时间?
异地离线方案有哪些?
是否可以不离线存储 ? 全部数据在线存储,方便运维管理和恢复验证。

回复 1 : seposal 系统工程师 , GUOSEN

首先要明确要明确离线的目的和意义。再有,是否离线与企业企业数据 f 管理规范有关,但是出于数据安全性考虑,离线是必要的,当然会带来一定的的管理复杂度。

通常可以采用数据分层机制在不同等级存储、不同类型介质保存。

目前离线主要是磁带、也有用光盘塔的。

回复 2 : wanggy 系统工程师 , 戴尔科技金融行业解决方案中心

一般是根据业务的要求进行设计,在线、近线、离线数据通常都会有一定的关联。因此,需要制定企业内部数据的保存策略,形成业务数据的发展规划。
有些设备具备热数据、温数据、冷数据的自动化的自动迁移的管理能力。随着离线介质的管理成本的提高,容量在 PB 量级以下的环境,现有的技术均可以进行在线保存。

4 、 如果采用分布式存储进行长期保存,如何降低采购大量服务器成本、减少机房空间占用?

回复 1 : ganmx 基础架构顾问 , 戴尔科技金融行业解决方案中心

还可以从分布式储存是否支持数据去重,储存利用率来考虑,在有限的设备与空间里实现最大化的储存利用。对于 PB 级的数据量,数据迁移也是需要考虑的。一般服务器使用的生命周期 5 ~ 8 年,会面临着更新换代时,不同年代的硬件服务器不一定兼容在同一个分布式集群里。
Isilon 分布式储存的 A2000 型号,是高密度深层归档存储的理想解决方案,可有效保护数据以实现长期保留。 A2000 的每个机箱( 4U 高度)最多可存储 960 TB ,单个群集的容量可扩展到 60 PB 以上。
并且 Isilon 支持在同一个集群上跨三代硬件型号。

回复 2 : seposal 系统工程师 , GUOSEN

长期保存,还要兼顾成本成本,减少空间占用,可以选择大容量低 dwpd 的 ssd 。

5 、 海量非结构化小文件数据量没有大到采购 nas 的必要,那么如何有什么更好好的解决方案?

生产系统中,常会产生海量的小文件,如图型文件,音频文件,这些文件产生会使性能降低,备份,恢复时间过长,由于数据量没有大到采购 nas 的必要,如何有好的解决方案。

回复: ganmx 基础架构顾问 , 戴尔科技金融行业解决方案中心

除了考虑数据量外,还可以从这些非结构化小文件的使用场景来考虑,:
不经常访问,属于冷数据类型,可使用入门级别的储存,通过快照实行数据保护。
经常访问,属于热数据,需要储存有一定的性能,可使用混闪储存,通过自动分层,热数据分布在 SSD 层上,冷数据存放在成本更优的机械硬盘上。同样也可以通过快照实现数据保护

6 、 针对长期数据保存, DellEMC 解决方案有哪些技术优势 ?投入产出 TCO 如何?

回复 : wanggy 系统工程 师 , 戴尔科技金融行业解决方案中心

DellEMC 的技术方案主要有以下几点技术优势:

  1. 高可靠性: DataDomain 拥有 DIA 等无损架构,提供端到端的数据验证,保证数据的可恢复性。当去重迁移到分布式对象存储的数据仍然具备该能力,保障数据的完整性。
  2. 高去重比:针对备份系统的长期数据保存通过 DataDomain 的去重技术写入分布式存储平台,降低存储空间占用和网络带宽,实现低成本的保存,总体拥有成本( TCO )表现更佳。
  3. 广泛的兼容性:既支持传统的业务,也支持备份到云、长期保存到云、以及云应用的保护。
  4. 高市场占有率:数据保护市场占有率长期高达 50% ,分布式对象存储市场也是市场的领先者,提供业界稳定发展的产品,长期为用户提供优质服务。

7 、 Powerstore 的数据保护能力有哪些特点?如何与 Datadomain等备份产品结合使用?

回复: wanggy 系统工程师 , 戴尔科技金融行业解决方案中心

PowerStore 提供了存储级别的存储快照、容灾复制等技术,还提供了双活的存储的功能。另外 PowerStore 提供了 Apps-On 的功能,支持将 DataDomain VE 和 RecoverPoint for VM 部署到 PowerStore 中实现快速和连续的备份,做为备份目标设备。

8 、 证券行业现有核心数据保存(物理磁带)的替代方案 ?

现状: 近线存储保留 1 个月,然后出物理磁带
问题:磁带数量增大后,查找和恢复效率非常慢,如何让快速查找、快速恢复? 还有,磁带替代方案 与现有备份软件的兼容性问题 ?

回复 1 : seposal 系统工程师 , GUOSEN

磁带重点是用在离线长期保存。那么离线自然带来了额外的管理成本管理成本与效率问题。

要想高效解决磁带数据取用取用问题,首先可以增加带仓数量和驱动器数量,若效率有问题可以考虑上 lto8

磁带数据快速查找,其实当你恢复时任何备份软件的数据库都会告诉你恢复数据在哪里,因此效率问题不在 j 软件而是备份资源的管理问题。可以构建磁带仓库,建立索引机制加速加速海量磁带快速查找查找 q 定位,进而加速恢复效率。

磁带替代方案有蓝光光盘光盘塔,但这种方案没使用过,但是玩过的 cd 、 vcd 都知道不兼容 dvd ,这个情况当然在磁带驱动器也存在但至少有个向上或向下的带次兼容性存在。
再者光盘保存、容量、压缩码率、解码效率等与与磁带相比是不是具备优势?也要仁者见仁智者见智。

回复 2 : wanggy 系统工程师 , 戴尔科技金融行业解决方案中心

有一些新的做法,就是采用原生格式备份,压缩消重之后写入专业备份存储,使用的时候可以直接访问,避免兼容性和严格的恢复环境要求,长期数据可以去重迁移至更加便宜的对象存储长期保存。

9 、 核心交易系统的非结构化会需要上对象存储么?

核心交易系统的非结构化会需要上对象存储么?

回复 1 : seposal 系统工程师 , GUOSEN

只要是非结构化数据,用对象存储事没问题的,但能不能上还要看基础架构规划、业务开发的意愿,以及 iaas 层资源变化给业务和开发带来的便利性角度。

没有对不对的技术产品,只有运用的是否得当的人。

回复 2 : wanggy 系统工程师 , 戴尔科技金融行业解决方案中心

按照技术的发展趋势,越来越多的 IT 应用都是直接将非结构化数据写入对象存储,核心交易也不例外。需要针对交易的性能和频度进行仔细的评估。

回复 3 : starliu87 售前顾问

没有必须的,看数据量和规模。
如果是海量数据,尤其小文件,对象存储能够提供更好的性能。
如果是有灾备和数据流通的需求,对象存储能够提供迁移、多站点、混合云等功能。传统存储通常成本和风险都较高。

10 、 长期存储的数据如何校验 ?

有没有什么好的方案可以校验历史数据的完整性、准确性?
对于非结构化的数据比如交易日志有什么好的方案进行查询

回复: seposal 系统工程师 , GUOSEN

首先要确认要确认写入是完整,那么校验校验方式就是不定期恢复验证了。如果管理规范得当,在存储过程能按照一定规则存储、备份,那么分阶段分批次验证也将非常容易。

非结构化数据非结构化数据的存储如果是通过对象存储,那么读取操作时间复杂度为 1 ,即便海量也能通过 api 和对象名称快速快速获取进行查询。

11 、 传统 NAS 备份方式 如何解决设备容量扩容、 设备年限到期后的平滑迭代问题 ?

传统 NAS 备份方式如何解决设备容量扩容、设备年限到期后的平滑迭代问题?
非传统 nas 方式又有其他解决方式呢?

回复 1 : seposal 系统工程师 , GUOSEN

传统 nas 扩容相对平滑,但更新换代免不了数据迁移,支持集群模式的 nas 产品可能还好些,但依旧不如分布式架构的 nas 来的平滑,透明。这个问题源自架构差异。

回复 2 : ganmx 基础架构顾问 , 戴尔科技金融行业解决方案中心

传统 NAS 属于纵向架构,避免不了硬件的更新换代带来的扩容,数据迁移问题。在初始规划方案时建议考虑采用模向扩展的分布式储存, Dell EMC Isilon 属于分布式 NAS 储存,支持 PB 级数据量,在同一个集群下可同时支持跨三代硬件。

12 、 历史数据的安全性及兼容性如何处理 ?

对于历史数据的安全性如防篡改、防窃取怎么做比较好,另一个如果涉及系统的大版本变更或者切换系统,数据结构不一样,如何处理数据兼容问题。

回复: seposal 系统工程师 , GUOSEN

历史数据安全性,可以采取离线多副本及多地存放,存放采取一定安全措施,比如防磁防磁防火专用设备专用设备,多人管理,密码信封管理等机制

历史数据兼容性,应该重点指的数据库。数据库恢复确实依赖备份环境,最佳实践是采取是采取不定期数据泵导出文件方式进行备份并长期保留。

13 、 传统备份方式非结构化数据备份、恢复速度较慢,针对非结构化数据的备份方式是否有优化方案 ?

回复 1 : seposal 系统工程师 , GUOSEN

非结构化数据备份难,最主要的原因是数据体量大。针对非结构化数据特点,合理运用快照技术、持续增量,能解决一部分问题。

其实这里还需要讨论待备份数据的存储方式。比如有采用有采用 nas 的用户可以考虑 ndmp 方式备份,降低备份开销提高效率;如果已经部署了对象存储,可以通过版本和多副本方式进行一定的保护。

回复 2 : ganmx 基础架构顾问 , 戴尔科技金融行业解决方案中心

在 NAS 的架构下 NDMP 方式备份建议是首先,但也可以从备份方面进行优化,如源端消重,重删压缩等技术提高备份速度。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

2

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

X社区推广