cpc1989
作者cpc19892019-12-28 10:33
存储工程师, 某保险公司

数字化转型背景下, 传统存储管理岗面临的挑战及应对方法

字数 4406阅读 1230评论 0赞 4

1. 前言 :

随着人工智能、大数据、云计算、区块链等新技术的发展和广泛应用 , 整个社会正从信息化向数字化、智能化迈进。面对新技术的冲击,各行各业都需要积极应对数字化转型的挑战。

2. 面临的挑战

2.1 岗位工作内容、职责和要求

笔者曾在某省农信社数据中心从事小型机、存储系统的运维工作八年,目前在某保险公司信息技术部从事基础架构相关的工作。下面将结合笔者自身的工作经历,谈谈金融行业存储管理岗位的工作内容、职责和要求。

IT 基础架构整合了计算、存储和网络三种资源,而存储管理岗位主要负责与存储资源最密切关联系统的运行维护和管理,包括存储阵列、存储网关、存储交换机以及数据备份系统相关的各种软硬件的运维对象。存储管理工作的核心是给各种计算平台提供相应的数据存储服务,为不同类型数据在其整个生命周期内提供数据存储的载体。而要满足岗位工作职责的要求,存储管理员需要系统性地掌握存储系统相关的软硬件技术,掌握其运行维护的方法,包括日常维护、监控、容量管理、应急处理、性能调优和数据备份等工作内容。但是,存储资源还与其支撑的计算资源系统也息息相关,无论是容量配置还是数据备份,这些工作都与操作系统、数据库等关联紧密。如果不能掌握这些关联的知识,存储管理工作也只是以管窥豹。所以存储管理员的工作不仅仅是维护存储子系统,还需要具备相关联领域的知识,理解不同系统之间的作用原理。

2.2 技术发展和转型趋势

1)IT 基础架构发展趋势

纵观近些年的 IT 基础架构的发展,首先是硬件集成技术的提升带来了基础架构的升级,无论是数据中心里万兆网络带宽的普及,还是闪存盘逐步替代机械硬盘,以及各种高性能服务器的问世;接着是软件定义,硬件重构的趋势,分布式、虚拟化等技术不断得到应用,大大颠覆了传统 IT 基础架构;最后是数字化转型的趋势,云计算、人工智能的发展,促进着 IT 基础架构向标准化、自动化、智能化发展。

2)双模 IT 渐进式方法论

双模 IT 是指两种不同的 IT 工作模式,模式 1 专注于可预见的、提升和改造已知领域,是传统的信息化模式;模式 2 是探索性的、实验性地解决新问题,是创新的数字化模式双模 IT 是指两种不同的 IT 工作模式。 Gartner 在 2014 年提出了双模 IT 的理念,双模 IT 是一种渐进式的方法论,非常具有指导意义。所以近些年会发现,创新不再只是一个口号,大多数金融行业 IT 部门不再只是保守地采用一些已成熟落地的方案,而更多地去尝试一些新模式、新技术 .

3)运维的平台化、数据化

运维工具的平台化是一种通过标准化实现系统串联与协同运维的思想,在运维技术领域,可以明显关注到运维脱离了单一工具化,向集成化、平台化发展;另外,运维数据逐渐得到重视,无论是配置数据、监控数据,还是其他类型数据,构建全面的运维数据体系,让运维人员参与到运维数据的分析和应用中,从而推进运维工作向更精细化的方面发展。

2.3 岗位面临的挑战

数据是企业的核心资产,也是数字化转型的基础。而存储管理岗位与企业的数据工作直接相关,同样肩负重任。对于存储管理岗来说,双模 IT 理念也具有实际的指导意义,一方面是完善现有成熟的存储架构,另一方面也要求对于新架构和技术的探索。存储架构发展至今,主流的存储架构发展趋势是两种:一是对应于传统存储的 Scale-up 纵向扩展架构,另外一个是分布式架构的 Scale-out ,通过横向扩展来提升容量、性能等。

在传统存储运维方面,存储管理主要面临如下的挑战:

1) 历史包袱:

传统数据中心往往都存在着一些历史包袱,完全革新是很难做到的,在存储管理层面也是如此。数据中心运营过程中,由于存储需求的变化,存储设备的采购都是分散的,存储架构都是逐渐演变。即使做好了前期的存储规划,基础架构层面的技术升级(包括全闪存存储、 SAN 交换机等硬件层面的升级)也会要求对存储架构做出调整。存储架构调整并不是一蹴而就,这涉及到了异构存储带来的架构复杂、存储孤岛以及难以标准化等方面的问题,涉及到了存储系统间的兼容性问题、微码升级问题,涉及到了关键节点性能、容量瓶颈问题,更涉及到了数据迁移、架构优化等工作。

2) 容灾双活管理:

随着 IT 监管要求的提高以及企业自身业务连续性管理方面的重视,对传统 IT 基础架构提出了更高的要求。传统的存储复制技术或其他数据复制的实现方式也只是备选方案,双活数据中心的案例也屡见不鲜。而双活数据中心不仅对于软硬件方案有着很高的要求,也对数据中心的技术储备、运维能力也是一个考验。

3) 数据管理:

数据备份恢复也是存储管理中一个重要的分支,却也是传统存储管理面临的一个大难题。首先是数据的快速增长,数据类应用越来越多,数据容量越来越大,备份恢复时间窗口越来越长,如何提高备份系统的速度是最直接面对的问题;另外一个问题是数据类型不断增加,非结构化数据、大数据、对象存储、云平台这些数据规模越来越大,而基于原有备份软件的备份方式越来越不可行。由于大多数备份场景都涉及到长时间的数据保留需求,备份软件的替换也非易事。

所以,传统存储运维面临的挑战方面主要是需要不断地调整优化,而在存储技术的创新探索方面,存储管理有着更多需要学习和研究的内容,甚至某些方面是颠覆性的:

1) 自动化与智能化

自动化与智能化也是近些年来最火的一个话题,其核心是将经验、技能等抽象的能力数字化、策略化。在运维领域已经可以看到很多相关的案例,而存储管理领域却鲜有案例,究其原因则在于传统存储领域这方面的研究较少且标准化程度低。

2) 技术边界问题:

技术边界问题不仅仅在存储层面,随着开源技术的研究越来越深,传统成熟商用技术与热门的开源技术之间的边界问题会更加突出。分布式存储和传统集中式存储、对象存储和传统 NAS 之间的争论是新旧之争,分离式部署与超融合架构则是路线之争等等。孰是孰非,对于不同类型数据来说,都需要一个衡量标准。

3. 如何去应对

IT 基础架构层面正面临着变革,虽然会有各种质疑和争论,但是技术的发展终究会消除偏见。但可以确定的是闪存存储和统一计算等新技术的兴起已成为一种趋势,而传统存储管理中容量管理、故障管理等工作会被软件功能逐步替代。如果传统存储管理人员不能与时俱进,不去考虑技术转型,势必会无法适应岗位要求的变化。

对于企业来说,双模 IT 的建设大多采用的是纵向划分的方式,即成立独立的团队,自上而下重新设计、搭建一套新的 IT 体系,这样的方式快速高效,两套模式完全隔离。但是对于运维人员来说,就要考虑自身技术发展方向了,而显然横向消除新旧技术的边界是最合适的方式。对于存储管理员来说,只是去学习一些新的存储技术还不够,应该放眼于 IT 基础设施架构层面去思考和学习。我个人的一些看法是参考双模 IT 渐进式的方法论:深耕现有成熟的体系架构,学习探索新技术,并逐步将新技术融入自己的技术体系中:

1) 重视标准化、自动化

在传统存储管理层面,存储的标准化是一个难题,但确是最需要去做的事。由于存储类型不一,用途各异,我们要做的标准化最关键的是确立标准,而非完全统一。这方面需要我们去更深入地学习、研究、交流,从而推进存储的配置标准、使用标准、监控标准、数据标准等工作。

在标准化推进之后,自动化的工作就是利用各种工具手段来实现监控方式方法的完善、配置数据的自动采集、自动化的配置、性能数据的采集等。存储管理软件各异,新旧标准不一,所幸的是存储数量有限。在存储自动化方面,不同于 Web 管理方式,我们需要深入去研究各存储的 RESTful 接口是怎样的、如何去调用,需要学习不同类型存储的命令行调用,需要去学习不同存储如何通过 S-MIS 协议去配置、访问接口以及获取数据。如今 Python 已经成了最火热的编程语言,而通过 Python 脚本完全可以访问存储的各种接口,并作为自己学习 Python 的一种方式。对于存储管理人员来说,制定自己的技能开发路线,逐步提升自己的基础技能,是一个很好的转型思路。

2) 数据管理和分析

存储相关的数据管理和分析也及其重要,存储的标准化、自动化只是一种手段,是避免存储管理员也陷入一种传统集中存储类似于黑盒子的影响,实现存储系统数据化和可视化。对于存储管理员来说,能深入分析和理解各种数据指标才是真正价值的体现。存储的数据流向和流量分析方面,从数据存储端(各种存储设备)、到数据其他流经设备(各种交换机、存储交换机、网关设备)、最后到服务器,通过对整个数据流的设备上的数据采集,从而展示整个数据传输过程;在存储设备的容量、性能方面,通过对于存储设备容量配置信息、 IOPS 、带宽的动态变化,分析容量使用趋势和性能峰谷趋势,再结合不同类型系统的数据流向,完成更加细粒度地分析和优化;在数据的生命周期管理方面,再结合数据流情况去分析冷热数据变化过程,制定相应的生命周期策略,打通数据的存储和备份的边界,进一步完善数据的生命周期管理。在传统存储管理工作基础上,结合标准化和自动化,去做数据管理分析的拓展和延伸。

3) 探索新技术

新技术的探索也是重要的一步,而代码能力则是基础,技术的更新发展很快,所以学习还是需要贴合实际工作,突出学习的重点。目前来说,首先应该去学习的是以 Ceph 为代表的开源分布式存储技术。目前大多数云存储架构方案都是基于 Ceph 实现的,其提供了对象存储、块存储、文件系统三大功能。而对象存储接口更需要重点去学习其原理和管理方式的,其广泛应用于海量非结构化数据的存储和备份; Ceph 集群管理的架构原理、数据读写流程、缓存机制、安全机制、监控方法等内容也是需要揣摩的;结合多种场景,如数据库、大数据分析、容器等多个场景去测试、分析和优化。另外智能运维技术也是需要重视的,存储管理方面也需要借鉴。智能运维的基础是数据分析和机器学习算法,需要掌握 Python ,熟悉 numpy 、 pandas 等 Python 数据处理库,掌握 TensorFlow 、 PyTorch 等常用的学习框架,然后就是在我们所擅长的运维知识领域去应用。目前智能运维领域可以从异常检测、容量规划、动态监控指标、性能调优等多个应用场景去应用。

对于新技术的学习也需要循序渐进,很多知识都需要掌握一定的基础知识,制定计划逐步完成技术积累。而学习的途径有很多,比如技术论坛、书籍、同行交流学习等,但是真正自己想深入了解的知识还是需要多实践,并努力发现和解决实践工作中的问题,消除认识上的误区。

4. 结语:

数字化时代越来越近,数据存储规模也在迅速增长。作为存储管理人员来说,这也是职业生涯发展的契机,但存储管理工作必须走出舒适区,需要去不断学习,拥抱技术的变革。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

4

添加新评论0 条评论

Ctrl+Enter 发表