haozhangsir
作者haozhangsir·2022-09-02 09:20
系统工程师·银华

证券基金行业核心交易系统核心存储如何选型交流探讨

字数 13384阅读 7343评论 0赞 5

导读:

随着证券行业的快速发展,产品与服务日益多样化,原有的交易系统无论在交易规模、时效性及系统稳定性方面都难以满足行业方面的需求。中国证券业已经进入持续发展和变革的关键时期,伴随着一代又一代的IT技术革新,证券行业正朝着集约化、标准化、规范化的方向发展。随着业务的发展,证券公司核心交易系统对IT的需求也越来越高,当前业务系统稳定性、可靠性、业务连续性面临严峻的挑战,同时数据中心不断增加的设备,和越来越复杂的基础架构,也给管理带来了一定的困难。这就要求证券公司基于核心交易系统的IT设备的选择和使用上,要充分考虑到设备的特性能否满足业务的需求,而存储作为数据中心最为核心的基础资源之一,无论是在产品选择,还是在架构设计上,均对业务的运行起着非常关键的作用。因此twt社区组织证券基金同行进行关于核心交易系统的核心存储如何进行选型进行探讨。

本期线上同行交流twt社区特别邀请来自戴尔科技金融行业解决方案中心的专家和证券基金公司的专家一同参与线上的交流探讨,本期重点从:券商企业核心存储架构如何选型、券商企业核心存储如何高效持续运行、券商企业核心存储迁移与过度如何实现等三个方面15个交流主题进行总结,希望给券商同行实现核心存储选型的过程带来帮助。

一、券商企业核心存储架构如何选型

券商核心存储选型建议从实际业务需求出发,从性能、可靠性、稳定性,功能等几个维度多家考虑。

1、生产系统已存在多个存储品牌的情况下如何进行新一次选型?

很多公司的核心交易系统存储使用了不止一个品牌型号的存储,这在新一批存储选型时如何进行选择?

嘉宾:吴知 存储解决方案架构 , NA
1、新存储的选型建议还是从实际业务需求出发,从性能、可靠性、功能等几个维度多家考虑;
2、金融行业由于各种原因, 通常存在七国八制的存储品牌 ,提升资源利用率和统一纳管方式早期通常采用带内形态的存储网关,不过随着闪存介质和协议的的快速发展,这种网关架构也有一定的局限性,业界也出现了一些带外统一纳管软件,通过带外统一纳管+存储本身容灾复制能力来构建相关能力,当然这两种方式各有优缺点,还是由用户自己判断(个人感觉存储网关的使用率会逐步降低)。

嘉宾:richardhandr 系统工程师 , 戴尔科技金融行业解决方案中心
可以基于原有的使用经验,对于各个品牌的使用体验来,了解各个品牌的最新技术进展。

某基金企业
每家金融机构基本都会存在几种厂商的存储,新采购的话事先要做好规划,这是未来的主要核心存储还是边缘业务,是几种力量办大事还是分摊成本和业务,每家公司的战略也不同,要根据自身情况。第二位才是架构和选型方案。

嘉宾:qixiaoding 架构师 , 戴尔科技金融行业解决方案中心

  1. 公司战略是啥,先搞清楚,如果要上分布式了,就想想分布式咋搞
  2. 核心交易系统和公司战略是否冲突
  3. 核心交易多品牌共存,不一定是坏事情
  4. 新的存储要求:稳定,稳定,稳定。性能现在都不是问题了。

**嘉宾:lych370 系统运维工程师 , 某公司
**
选择使用感受最好的,最稳定的,操作最容易的。最好选一个可以兼容多个品牌存储的,更便于扩展

嘉宾:pysx0503 系统工程师 , 第十区。散人
很多公司都存在这样的情况。有的是成本考虑。有的为了分摊风险。这个其实并没有太大的影响。
对于新存储的选型。也不一定要完全考虑原有的存储品牌,主要还是从业务环境,资金预算以及技术熟练程度上来选择。
另外。对现有存储的规划。是要考虑异构的整合管理,还是不同的存储运行不同的业务,如果做异构。那就考虑存储网关。如果分散业务。那就根据业务分类来挂载存储

2、券商核心系统存储选型重点考虑的哪些方面?

券商核心交易系统是券商公司的心脏,核心系统一旦出现问题几乎会影响到所有的对外交易服务。所以对于核心系统数据存储设备的选型,稳定性是需要放在第一位的,核心存储选型重点考虑点有哪些?

嘉宾:nkj2021 系统架构师 , 金融行业
核心存储的性能是主要考虑的地方、可扩展性强,可以根据业务的需要在线扩容并且不影响业务连续性,之后是存储的性价比要高。

嘉宾:murenxiang 技术经理 , 宏源证券
存储与主机、操作系统、数据库等兼容性和长期稳定性测试
1、之前行业 核心系统数据库主机存储基本是一个厂家。后来有券商选取主机和存储为2各品牌,单独看性能都不差,但后期集成压力测试 性能指标就达不到预期。
2、 长期稳定性测试案例,存储持续运行不到2个月会发生异常,导致不可访问。

某基金企业
稳定性确实是第一位的,任何情况下核心存储不能出现宕机影响业务的情况,这样的话影响太大了。第二点是性能问题。

嘉宾:大牛0915 高级解决方案架构师 , 戴尔科技金融行业解决方案中心
稳定,稳定,稳定

嘉宾:qixiaoding 架构师 , 戴尔科技金融行业解决方案中心
稳定性 > 备件到场的速度 > 性能

3、券商核心业务存储该考虑哪些要素?

1、同等价格区间如何选:高端低配 vs 中端高配 vs 分布式存储
2、如何测试读写性能指标
3、故障切换中性能稳定性、故障恢复时间
4、容量如何规划

嘉宾:haozhangsir 系统工程师 , 银华
核心存储目前行业中分布式存储还是比较少的,如果说同等价格,推荐中端的高配,中端存储在券商行业中可以满足。
测试读写可以采用自身的性能监控,也可以使用第三方的测试工具,iometer等。
可以采用双活的存储架构。
容量要考虑三年的规划,每年大概也要考虑30%左右的增量。

嘉宾:murenxiang 技术经理 , 宏源证券
存储与主机、操作系统、数据库等兼容性和长期稳定性测试
1、之前行业 核心系统数据库主机存储基本是一个厂家。后来有券商选取主机和存储为2个品牌,单独看性能都不差,但后期集成压力测试 性能指标就达不到预期。
2、 长期稳定性测试案例,某品牌存储持续每运行不到2个月就会发生异常,导致不可访问。

嘉宾:PengLB 售前工程师 , DELL
核心交易第一考虑因素还是安全稳定,其中包括出现故障是否影响业务、故障的影响范围、解决故障是否会带来二次风险。这里面还要考虑售后服务能力,即故障解决不过夜,不能影响第二天开市。

核心交易的数据量其实不大,个人认为支持SCM和SSD磁盘的全闪存储是核心交易的最佳伴侣。足够块,由于容量小也不会占用太多预算。

嘉宾:qixiaoding 架构师 , 戴尔科技金融行业解决方案中心
除了技术,
售后服务,备品备件,bug修复

嘉宾:str_s 产品经理 , 某公司
1、同等价格区间如何选:高端低配 vs 中端高配 vs 分布式存储
答:核心存储基本不会选择分布式,一般是中端高配,满足高IO,低延时,当然如果有钱高端,高配不是更香,中端高配或者分布式可以做虚拟机外围业务。
2、如何测试读写性能指标
答:比较老的iometer
3、故障切换中性能稳定性、故障恢复时间
答:模拟切换的时候主流存储均可以满足稳定切换,主要看用户是需要基于多路径的还是基于控制器的
4、容量如何规划
答:存储分层,按实际容量及未来 3-5 年的业务发展进行规划。

4、分布式存储日趋稳定,核心交易存储在传统集中存储和分布式存储之间该如何选择?

当下分布式存储日趋稳定,核心交易存储在传统集中存储和分布式存储之间该如何选择,并且能满足日益增长的业务需求

嘉宾:qixiaoding 架构师 , 戴尔科技金融行业解决方案中心
产品的稳定性,维护人员的技术能力,投资与风险的平衡,售后支持能力
好的产品和技术,是一点点修正bug搞出来的。

嘉宾:lych370 系统运维工程师 , 某公司
稳定性方面还是建议用集中存储,毕竟久经考验,如果为了尝鲜可以尝试使用分布式存储,分布式主要解决的是整合闲散存储资源,提高横向扩容,并不是为了稳定性,总之适合自己的就好

嘉宾:吴知 存储解决方案架构 , NA
个人认为传统集中式存储在核心交易系统中还是会长期存在:
1、核心交易系统数据量小,可靠性、性能方面都要求非常高,传统集中式存储经过多年的发展,大多采用自研硬件+软件深度结合的方式开发,在可靠性、性能方面的能力都达到了一个很高的水平,其实集中式存储内部也采用了很多分布式的技术(分布式可以理解为一种技术,我们说的分布式存储国外叫SDS,即软件定义存储,和集中式存储一样都是一个叫摩西亚奈何的老爷子搞出来的);
2、分布式存储的架构基础是多节点+大容量,多节点的难点之一在于保证数据一致性,由于支持海量节点,必然会牺牲性能保证数据一致性,比如节点故障时的业务悬挂时间,大多都在10s以上,这是核心交易系统所不能容忍的。

5、核心交易系统存储选型及升级替换思路?

嘉宾:murenxiang 技术经理 , 宏源证券
至于存储选型时如何进行充分的考虑和评估, 首先,确定目标 存储满足核心业务系统要求,一般核心业务压力测试目标为历史交易峰值的3倍。 核心业务压力测试关心的是 每秒纯委托笔数和每秒委托、查询笔数, 这也是业务部门、开发部门、开发商, 甚至是监管关心的指标。 通关上线前,核心系统所有外围均进行压力测试。还有一个要重点关注,就是存储与主机、操作系统、数据库等兼容性和长期稳定性测试 之前行业 核心系统数据库主机存储基本是一个厂家。后来有券商选取主机和存储为2各品牌,单独看性能都不差,但后期集成压力测试 性能指标就达不到预期。
长期稳定性测试案例,存储持续运行不到2个月会发生异常,导致不可访问。
核心一般主机、存储一起更换升级。

嘉宾:qixiaoding 架构师 , 戴尔科技金融行业解决方案中心
全闪,作为第一选择,无论集中存储,还是分布式存储
要采购的全闪SSD的介质指标要仔细研究一下,差别很大,不是只看IOPS就够了
有效的性能指标是在容量用了 75% 以上时的指标,这是运行3年左右会遇到的场景,业务好的,规划买少了的,可能1年就遇到了。

将持续稳定的性能输出 放在 峰值IOPS性能之前。

嘉宾:大牛0915 高级解决方案架构师 , 戴尔科技金融行业解决方案中心
全闪存储第一考虑,NVMe over FC 主机链接,进一步降低延迟,提升查询笔数、委托处理笔数

嘉宾:str_s 产品经理 , 某公司
主要看数据库的性能需求,传统的银行证券,期货还是采用FC-SAN+全闪架构

二、券商企业核心存储如何高效持续运行

IOPS和带宽以及时延是衡量存储产品的一个很重要的性能指标,实际生产业务当中主要是要能满足当下和未来的业务需求,如果有诉求,可以通过POC测试的形式来以实际业务模型测试各家厂商实际满足各项需求的能力。

1、证券基金行业核心交易系统核心存储有那些措施保障存储高效持续运行?

证券基金行业核心交易系统核心存储有那些措施保障存储高效持续运行?

嘉宾:qixiaoding 架构师 , 戴尔科技金融行业解决方案中心
全冗余的方案(Server-SAN-存储)、监控无死角、少变更(包括存储扩容)、做好规划(比如LUN的大小,分配)、及时备份,包括存储快照的使用

嘉宾:murenxiang 技术经理 , 宏源证券
除了存储本身的维护措施外,在应用层面减少数据热点
1、按用户分库,
2、交易、查询分离

嘉宾:nkj2021 系统架构师 , 金融行业
保障存储高效持续运行措施包括以下几个方面:
1、及时的更新固件和驱动程序:厂商会不定期的经过软件升级来修复产品中存在的bug,同时增加新的功能,最好是做到及时测试并升级。
2、清除故障:及时解决存储出现的配置问题和物理故障,使存储工作在最佳的状态。
3、日常巡检:做好日常巡检工作,定期查看存储日志,使问题在初级阶段就能得到解决。
4、降低存储负载,使存储不必满负荷运行。

某基金企业
采用厂商推荐或同业中成熟案例和最佳实践。
保持存储硬件微码在合理版本
提前规划,避免临时的应急变更和扩容
日常巡检和监控一定及时到位。

2、如何对存储做更深度的监控优化来赋能我们快速的故障定位?

现有的存储监控都是基于物理硬件以及链路层的监控,如何对存储做更深度的监控优化来赋能我们快速的故障定位?

嘉宾:qixiaoding 架构师 , 戴尔科技金融行业解决方案中心
首先,传统的存储硬件故障告警是必要的,没有必要重复发明轮子,即使再次发明,还是要参考原装的轮子
然后,要用自己习惯的工具,不限于商用还是开源。用的好,顺手,才能有后续的深入最后,如果自己能做一点小工具。满足日常监控和告警,就比较理想。
不要一开始就想让一个系统满足所有的要求,系统大了就难转动,无法按自己的需求更改。要解决自己遇到的问题,先看商用,再看开源,然后看自己的代码能力。

根因,始终是难题。
可以先将日常监控分为故障告警和使用告警。后者监控类似100% CPU使用率,超过200ms延迟,光衰严重降低等情况。故障告警,厂商解决。使用告警,自己解决。

**嘉宾:nikkordong
**
我不太了解您说的深度是什么意思,那就从我的经验出发说说我的想法:
1)我猜测您现有的监控还是依赖设备自身的控制台和报警能力,这已经很具有深度了。毕竟存储厂商的内部检测机制是能否发现无论是硬件还是软件层面的异常的。设备厂商在监控层面唯独做不好或做不到的有两种:系统级故障和亚健康故障。
2)系统级故障:顾名思义不是单点的问题,而是涉及设备、网络和软件的系统级故障。以性能故障居多,常出现在结构复杂、IO延迟要求高的应用场景,例如SAN网络、存储双活系统、两地三中心灾备系统等。要解决这类问题,靠单个厂商的监控能力是不行的,毕竟面临的是多厂商异构的存储环境。要想解决,就需要有专业系统在更高的维度上建立全局管理视图,首先自动识别复杂网络架构,建立端到端拓扑模型,其次对关键位置的关键指标做7x24x365级别的数据采集,针对特定的场景,例如多路径负载、级联链路峰值、端口抖动光衰、盘阵前端拥塞、RAID或池热点、慢速盘等设定阈值,做门限的实时监控。发现故障时,结合端到端拓扑和历史性能数据,就能实现准确的故障定位。
3)亚健康故障:之所谓亚健康就是将坏不坏的状态,没有触发告警机制或仅仅是低级别告警,靠巡检是无法直接发现的,但是对IO的响应造成了影响,常出现在网络侧,例如端口光衰抖动等。发现此类问题同样需要在端到端拓扑模型和历史性能数据的支持,就是需要对亚健康的场景做预警,提前发现,准确定位,及时响应。

嘉宾:murenxiang 技术经理 , 宏源证券
如果核心系统存储故障,我们的优先是处理故障 还是按照核心系统的RPO、RTO 进行切换呢?
根据监管要求,肯定是 先切换 保障核心业务连续性。存储的监控 首要是为了第一时间发现问题,其次才是定位故障。
故障定位,除了原厂监控工具,建议使用综合监控工具,可以把主机、数据库、存储等统一监控。把数据库表空间在主机层面、存储层面的对应关系 横向打通,例如当存储磁盘故障 可以快速判定影响那个数据库那个表空间 及相关业务

嘉宾:richardhandr 系统工程师 , 戴尔科技金融行业解决方案中心
如果原来监控链路的断和不断,现在可以看链路光衰,设阈值,看一些相关的告警log,不知这样理解您的问题对不对。

某基金企业
现阶段的链路等监控目前满足日常工作,更深度的监控和优化个人感觉交给厂商去做更合适,出现性能问题首先要应急处理,尤其存储的性能问题影响范围巨大,必须优先处理,留下日志,事后排错分析。

3、券商核心交易存储选型过程中如何平衡安全性和性能?

核心交易存储作为交易系统的核心,那在选型的过程中是以安全性为第一要素考虑还是以性能,在选型过程中如何去平衡这两个点?

某金融企业
安全性主要是看怎么理解,是数据的泄露还是稳定可靠。本身这两者就不冲突,如果要选择一个更要考虑的,在不出故障的前提下,首先考虑的是性能吧

嘉宾:richardhandr 系统工程师 , 戴尔科技金融行业解决方案中心
安全稳定第一吧,当然性能需要满足应用要求,并且留够足够的空间。同样50W IOPS 1ms 以内延迟,在预算充裕的情况下,选高端稳定性会比中端好。

嘉宾:PengLB 售前工程师 , DELL
在券商核心交易中安全性肯定是第一位的,不过这方面所有的券商做的都非常好:数据库集群、稳定的共享存储,实时温备系统、交易采用多节点方式等等,可以满足5分钟恢复业务且受影响的不是全部交易用户。
性能这块就要根据使用的核心交易软件来定了,通常金正和恒生的交易系统在特定的架构下,单线程的交易是有并发上限,达到上限后只能通过多线程或多节点方式增加并发量。 所以存储性能最低要满足交易系统达到上限峰值的性能要求(选型测试压力一般都是峰值的多倍),不过这个峰值通常对存储来说都不是问题。

嘉宾:qixiaoding 架构师 , 戴尔科技金融行业解决方案中心
安全性,如果指单台设备无故障运行,再加一个如果核心交易选择全闪存储,那么,安全运行在核心交易(柜台)应该放在第一位,一开始选错了方向,后面都是靠运维弥补安全的隐患。

嘉宾:str_s 产品经理 , 某公司
券商关注不能中断的时间为开盘时间及开盘完成后的结算时间,大型券商会首要关注性能,即如果能够实现高性能低延时业务的交易需求,主要就是关心IOPS,所以他们一定会选择全闪存储,至于安全性:和性能不冲突,冲突的是价格。。。。他们完全可以做metrocluster

4、核心交易的存储iops指标真的这么重要吗?

核心交易的存储厂商给的iops都很高,真的这么重要吗实际生产使用到的都比较低,有更好的存储性能指标吗??

嘉宾:haozhangsir 系统工程师 , 银华
iops是厂商提供很重要的一个指标,当然这是理论值,也就是大家能达到的上限,至于每家能达到的情况也有不同。除了iops,存储的控制器时延也是很重要的参考指标。

嘉宾:大牛0915 高级解决方案架构师 , 戴尔科技金融行业解决方案中心
延迟对于券商核心交易的意义大于IOPS,对于某些存储厂商发布的少则上百万多则上千万的IOPS,不要被夸张的数字迷惑,数字就是数字,在生产环境是不可能复现的。
稳定的输出(填满50%容量、数据服务、压缩等功能打开),依然可以测得的延迟和IOPS,才是对您的保障

嘉宾:qixiaoding 架构师 , 戴尔科技金融行业解决方案中心
核心指标:延迟
如果需要再加一个:在相同延迟下持续稳定的IOPS输出能力
如果只单纯考虑IOPS的峰值能力,就是把核心交易当初压力测试系统来对待。

嘉宾:nkj2021 系统架构师 , 金融行业
存储Iops是衡量存储性能的重要指标,可以通过下面的方法测试存储性能:
1 . 收集汇总现有存储的性能日志,总结出现有业务存储侧的工作负载模型,包括不限于读命中、写命中、读Miss、写Miss,顺序写、顺序读等操作占比及对应的 IO 大小;
2 . 结合现有的存储负载模型(可参考下图),评估存储的稳定响应时间下的 IOPS ,比如1ms稳定时延下的 IOPS 带宽等指标数据 ,基本可以反映存储在该系统负载模型下的存储性能指标。
3.目前全闪存存储的性能参数都有较高的指标,建议可以通过恒生等ISV的测试脚本,测试单个用户、多个用户并发,查询,委托交易等场景的数据库的TPS等指标,以综合反映整个业务侧的性能指标。综合考量整个基础架构的性能。

嘉宾:murenxiang 技术经理 , 宏源证券
存储的厂商指标固然重要,但作为使用单位 应该更关注整理业务压测指标
首先,确定目标 存储满足核心业务系统要求,一般核心业务压力测试目标为历史交易峰值的3倍。
核心业务压力测试关心的是 每秒纯委托笔数和每秒委托、查询笔数,
这也是业务部门、开发部门、开发商, 甚至是监管关心的指标。
满足业务压测,再考虑存储稳定性、性能。。。

嘉宾:吴知 存储解决方案架构 , NA
IOPS和带宽以及时延是衡量存储产品的一个很重要的性能指标,实际生产业务当中主要是要能满足当下和未来的业务需求,如果有诉求,可以通过POC测试的形式来以实际业务模型测试各家厂商实际满足各项需求的能力。

5、核心存储监控管理如何进行规划、监控、自动化?

核心交易系统对存储的稳定性要求极高,特别是在交易时间段不能出问题或是故障,核心存储监控管理如何进行规划、监控、自动化?

嘉宾:haozhangsir 系统工程师 , 银华
规划呢,主要是选择成熟稳定的方案,同业的成熟案例。
监控手段还是比较多,核心存储都提供了snmp等接口,可以直接吐告警信息到监控平台,界面人工巡检也很友好。
自动化呢,核心存储也基本都提供了ansible的剧本包,可以直接使用,第三方社区也有不少提供。

嘉宾:murenxiang 技术经理 , 宏源证券
二线运维 使用设备原厂的监控工具;
一线运维 使用综合监控工具,可以把主机、数据库、存储等统一监控。把数据库表空间在主机层面、存储层面的对应关系 横向打通,例如当存储磁盘故障 可以快速判定影响那个表空间,或需要对表空间扩容 可以知道存储上还有多少空余空间可用。

嘉宾:nikkordong 产品总监
存储不怕硬件故障,就怕性能故障。用在核心交易系统的存储一般都是高端存储,本身的稳定性和性能就不差,但只盯着存储是不够的,对于OLTP业务,一般采用高性能的SAN网络,为了数据安全还有同城和异地的灾备,甚至构建在同城双活存储架构上,这就要从系统的角度做监控了,单个厂商的控制台只能看到局部。这样做的重点在于:
1)有能力自动构建端到端拓扑模型,从应用到本地盘,有必要的话还要延伸到同城和异地的保护盘,在同步复制或双活模式下,复制链路的异常也会对业务系统带来很大延迟。
2)有能力对关键位置的关键指标做7x24x365级别的自动的数据采集,针对特定的场景,例如多路径负载、级联链路峰值、端口抖动光衰、盘阵前端拥塞、RAID或池热点、慢速盘等设定阈值,做门限的实时监控。
做到上述几点,我认为对于您说的问题就能很好的解决了。要是您的核心生产服务器用iSCSI直连存储,那结构就简单多了,盯着存储控制台看就够了。

嘉宾:qixiaoding 架构师 , 戴尔科技金融行业解决方案中心
分3块内容:1. 报表用:用综合2. 自己用:找个好用的3. 故障用:用厂商的

嘉宾:吴知 存储解决方案架构 , NA
核心存储的监控管理最主要是要做到以下几点:
1、有可视化的硬件监控功能,提供直观的,所见即所得的硬件视图,能够实施显示各个组件比如硬盘、接口卡、风扇、电源等组件的健康状态。
2、能快速高效的浏览各类告警信息,可以根据告警所描述的修复建议尝试修复,另外除了直观的能观察界面,还可以提供邮件、手机短信等多媒体接收方式,便于实时通知用户。
3、提供标椎的运维协议,比如restful API、SNMP、SMI-S等方式来参与到用户自动化运维管理体系中。

三、券商企业核心存储迁移与过度如何实现

迁移的技术和工具有很多,具体建议根据数据类型,应用类型、场景,现网基础架构情况,未来规划架构等多个因素综合考量并结合厂商的建议进行数据迁移.

1、新旧设备更替存储迁移,存储的平滑过渡如何实现?

使用新存储,相应的存储驱动应该有变化,怎么实现平滑过渡的?是否存在兼容性和冲突?

嘉宾:PengLB 售前工程师 , DELL
券商核心更换都是大事,通常是软件+硬件、主机+存储整个替换。新的平台建起来要进行测试、试运行等等一系列工作,验证新平台没问题后才进行切换。

嘉宾:qixiaoding 架构师 , 戴尔科技金融行业解决方案中心
备份数据,查清各个小版本,大量数据用工具迁移,小数据库用逻辑迁移。

嘉宾:murenxiang 技术经理 , 宏源证券
核心一般主机、存储一起更换升级。
确保数据安全。在正式迁移前应做好所有操作系统、应用程序和数据的备份工作,并确认备份数据有效。
保障设备安全。在设备搬运之前,对负责搬运的技术人员进行注意事项培训讲解,此外搬迁前须对各个系统进行全面的健康性检查。对有问题的设备及时书面上报。
搬迁过程分步实施 建议采用分步实施的方式,优先考虑搬迁查询主机,运行稳定后再考虑搬迁生产主机。 为保证搬迁工作顺利、有序、安全的进行将制定详细的搬迁流程,进行细致的分工,具体工作安排到人,责任到人。
应急回退,确保业务连续性 由于在设备搬迁过程中,很可能出现一些意向不到的现象和状况,在做设备搬迁方案的时候,每一步都制定详细的应急回退方法,确保在万不得已的情况下,作必要的回退工作,使业务系统保持连续服务特性。

嘉宾:nkj2021 系统架构师 , 金融行业
1、存储设备迁移存在难点:一是业界数据迁移的难点表现在前端业务不能中断,业务不中断意味着每时每刻的数据都发生着变化;二是如何保证数据迁移前后的一致性,数据迁移后业务无异常,正常启动、正常访问。
2、数据迁移,分为OS、OS以上也就是DB和OS以下也就是存储层三种实现。同构存储或基于存储虚拟化,那么可以考虑存储层面的迁移,同构存储对存储架构局限性强,另外看是什么存储了,连接的是什么主机,如果是vmvare可以在线迁移。
3、数据迁移的方式有很多种,可以选择通过 数据库复制迁移也可以是基于底层存储迁移的迁移工具进行数据迁移,券商行业目前使用基于 DB 的数据迁移较多,批量数据初始同步+增量数据实时更新。目前的券商行业通常会采用数据库复制的方式来在线迁移;
4、如若客户现网不会进行主机替换,仅仅进行存储的替换,并且现网环境有使用类似DELLEMC的VPLEX的网关设备,也可以基于网关实现在线的数据迁移;
迁移的技术和工具有很多,具体建议根据数据类型,应用类型、场景,现网基础架构情况,未来规划架构等多个因素综合考量并结合厂商的建议进行数据迁移.

某基金企业
核心存储的迁移比较方便,基本采用虚拟化然后加在线lun迁移的方式,虚拟化可以采用网关平台,也可以采用存储自身的虚拟化功能。这样对业务应用小,停机时间短。当然也有新搭环境,数据库备份恢复的方式。

嘉宾:吴知 存储解决方案架构 , NA
各大存储厂商都有自己的存储迁移方案,提供专业的存储迁移服务,可以实现不同品牌之间的数据迁移,这一方面倒是比较成熟的方案了,毕竟是数据迁移是存储设备的必备功能。

2、Unity 中端闪存做双活为啥要加网关Vplex?不加网关不能实现双活吗?

1、现在EMC的中端存储还是必须带网关vplex才能实现双活吗?不带实现不了吗?
2、如果不带网关,纯Unity 8k读写 8:2 ,存储时延是多少?主机时延是多少?数据库时延是多少?
3、加了网关,8k读写 8:2 ,存储时延是多少?主机时延是多少?数据库时延是多少?

某基金企业
不带vplex目前不能实现双活,单纯的unity就是做那种存储复制。
只能提供一下我们目前的数据情况,主机是物理机,没部署在存储上,因此不存在时延问题。存储控制上基本都在5ms以内,高峰时段偶发可能到10ms,极少的情况。数据库平时大概在10ms左右。

嘉宾:michael1983 技术总监 , 某证券
想想原理就知道,不加vplex双活网关,单纯的unity是无法实现双活的,因为本身控制器和磁盘柜是连在一起的。加了vplex,相当于就是把控制器外置了,两台vplex实现双活。
不过个人感觉,如果想实现双活,还是在应用、数据库,最低也是在OS上面想办法,不要把冗余完全放在存储底端,出了问题,排障复杂性要大很多。

嘉宾:PengLB 售前工程师 , DELL
1、高端存储自身性能强劲,两台就可以直接实现双活功能了;
2、Unity中端存储需要加Vplex来实现,在小金融行业中端存储通常都不止一台,vplex可以实现众多存储的统一管理和双活,相比自身双活适用性更广泛。

嘉宾:qixiaoding 架构师 , 戴尔科技金融行业解决方案中心
做个比喻,高端=火车,中端=载重货车
火车,未满载正常运行,额外增加一点货物,比如增加1%,实践没有那么多,火车基本上无感知。
货车,也增加一点,不用火车的1%,只要货车的2%,货车可能受到影响。

中端将双活放在外面,有技术灵活性的考虑,好钢用在刀刃上。

嘉宾:str_s 产品经理 , 某公司
UNITY本身只能主备,如果考虑双活需要VPLEX

3、核心交易存储如何选择大盘或小盘?

存储规划大盘和小盘怎么选择,在保障容量的情况下,怎么能保障快速的恢复性,存储的raid模式怎么选择?

嘉宾:richardhandr 系统工程师 , 戴尔科技金融行业解决方案中心
核心交易存储一般都是小盘的SSD。

嘉宾:大牛0915 高级解决方案架构师 , 戴尔科技金融行业解决方案中心
选闪盘,SCM 、NVMe SSD

嘉宾:qixiaoding 架构师 , 戴尔科技金融行业解决方案中心

  1. 是否有双活,如果有,灵活一些。注意:有灾备不行
  2. 容量,结合 RAID的最低磁盘数量保证
  3. 看全闪盘的擦写指标
  4. RAID选择一般都是小盘raid5,大盘raid6,主要是基于坏盘重构时间的考虑。raid6性能上与raid5不同,深究的话,可以看看原理。

嘉宾:murenxiang 技术经理 , 宏源证券
基于机械盘考量 ,肯定选小盘而且转速快的;现在都SSD 应该不存在盘大小的问题了。
RAID 不低于RAID1+0

嘉宾:dwy 产品总监
能选小盘不选大盘,能选快盘不选慢盘,快盘保障性能,慢盘提供容量。尽量多选盘的数量。核心应用raid6.

4、多套应用系统使用一套存储存储高可用、光纤通道分配等如何规划?

多套应用系统使用一套存储存储高可用、光纤通道分配等如何规划?一套存储一般供多少套应用系统使用比较合适?

嘉宾:richardhandr 系统工程师 , 戴尔科技金融行业解决方案中心
这方面高端存储考虑会多一些。存储可以把每个director的口分组,例如director的1号口为group1, 2号口为group2, 以此类推。每套业务连接存储的一个端口组,比如app1连 group1,就是所有的1号口,app2连 group2,就是所有的2号口,循环使用group即可。

某基金企业
应用分布在不同的存储环境中固然会避免不少的排错问题,但是硬件成本,机房租用成本都会成倍上升,当前架构中,核心系统可以全部部署在全闪阵列上,对于一些数据处理类的数据平台等可以分别部署在另外一套环境中,这样避免大数据量的访问影响核心系统的链路性能。

嘉宾:qixiaoding 架构师 , 戴尔科技金融行业解决方案中心

  1. 评估一下应用特点,主要是IOPS、带宽、延迟。举例,如果有一个应用是OLTP和OLAP叠加,就要看OLAP对OLTP的影像有多大,错峰的可能性
  2. 一般核心交易只跟同级别的应用共用,主要是安全和性能考虑
  3. 光纤通道的冗余和多路径是必要的,如果不能自动分担负载,需要手工介入
  4. 存储分配LUN,需要规划,尤其是针对现在的全闪存储。以前的老系统不要原封不动地迁移过来
  5. 存储不要只看标称值,IOPS和带宽,要看实际配置的能力。
  6. 最终还是看延迟,如果延迟低,就是相互有干扰。
  7. 不差钱的应用一般单飞一套存储双活
  8. 简单估算:配置的存储IOPS > ∑所有应用的峰值IOPS
  9. 严格遵守厂商的最佳实践,当时麻烦,日后省心。比如多链路

5、证券行业是否有必要使用混合存储?

业务系统是否有必要配置全闪? 还是说配置一台高端一点的存储,然后配置混合盘,全闪用于核心交易、SAS HDD用于外围应用?

嘉宾:richardhandr 系统工程师 , 戴尔科技金融行业解决方案中心
主要看应用的需求。可以通过一些软件收集现有的性能需求。在满足性能的情形下看成本,全闪存储在4:1甚至更高的数据缩减效率下,成本不一定差;当然混闪也是一个选项。

嘉宾:大牛0915 高级解决方案架构师 , 戴尔科技金融行业解决方案中心
核心交易系统看重的是低延迟,尽量配置全闪存储。例如Dell EMC的PowerMax系列、PowerStore系列;
外围应用对性能要做相对较低,同时有文件共享NAS访问的需求,可以采用混闪存储。例如 Dell EMC的Unity系列;
虚拟化平台可以考虑融合、超融合解决方案, 例如Dell EMC的PowerFlex、VxRail.

某基金企业
对于核心存储,尽量配置全闪的阵列阵列。对于一些应用或者虚拟化的平台,可以搭配混闪的搭配。

四、交流达成的共识总结

通过本场交流活动达成了一些交流共识如下,仅供参考:
1) 对于券商的核心业务,存储选型首先是性能要满足未来的发展需求、稳定性和扩展性也是选型要关注的重点。
2) IOPS是厂商提供的一个重要指标,存储的控制器时延也是很重要的参考指标。稳定的输出(填满50%容量、数据服务、压缩等功能打开)情况下,依然可以测得的延迟和IOPS才是对业务的保障。
3) 数据迁移可以选择通过数据库复制迁移也可以是基于底层存储的迁移工具进行数据迁移,券商行业目前使用基于DB的数据迁移较多,批量数据初始同步+增量数据实时更新。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

5

添加新评论0 条评论

Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

作者其他文章

相关文章

相关问题

X社区推广