lrx00056015
作者lrx00056015·2023-06-18 15:16
it运维主管·福田汽车

基于华为NAS存储在某车企业务系统上的应用实践

字数 4508阅读 4116评论 2赞 3

摘要:

随着云计算、大数据、人工智能等技术的应用,企业数字化转型的迫切需求,数据成为企业的核心资产,其中大量非结构化数据的存储,传统的SAN存储模式已经无法满足。如何采购合适的存储来支撑数据的存储和业务的高并发需求,成为了困扰企业的难题。本文通过对比非结构化数据存储的主流技术方式,结合自身建设的需求,选取华为NAS存储搭建企业云盘共享存储资源池,满足员工对办公文件共享访问的需求,提升数据访问效率,同时通过NAS存储的主从复制功能,保障了云盘数据存储的高可用性。

一、概述

当前各行各业都在数字化转型,数据是企业最核心的资产。企业中的每个人都成了海量数据的生产者,每天都会产生海量数据,而其中大部分都是非结构化数据,包括文档、文本、视频、音频、图片、图像等形式。一小部分数据随着业务共享调用存储在数据库中,运行在传统的SAN存储设备上,既影响了数据库性能指标,降低了响应速度,同时又大大提高了数据的管理成本。此外还有更大部分的数据散落在用户个人的PC电脑、邮箱中,得不到统一管理,因此选择一个易扩展、高性价比的存储解决方案,将非结构化数据统一存储,并提供高性能的访问就变得异常紧迫。

二、需求分析及难点

作为一家跨地区、跨行业、跨所有制的北京大型车企,我司内部员工近4万人,在全国各省市都拥有整车和零部件事业部及子公司,研发机构分布海外,合作的供应商、经销商、服务商共计近万家,因此每天每时每刻都产生大量对公司有资产价值的、可重复利用的、具有安全私密性的非结构化文档数据。 通过分析,内外协作产生的文档数据至少 100TB 以上缺少集中管控,形式多以文档、PDF、设计图纸、音视频、图片为主,分散在各业务系统共享服务器上以及个人电脑、邮件中。从资源层面上,这些数据占用着存储空间,但文件共享不便捷,文档流转效率低,大附件无法发送,未能形成软资产留存;从知识层面上,这些内容需要有效流传并重复利用;因此急需建立一个有效的云盘系统,有效实现对数据的共享、协作、安全的集中管控。

为了支撑云盘系统建设,满足云盘应用部署对于存储性能要求,保证云盘海量数据存储的高可用性,计划构建云盘基础设施层的存储建设。主要需求如下:

  • 存储可用性指标:99.99%
  • 存储数据灾备指标:
    RTO(数据复原所需时长):<2小时,
    RPO(数据恢复的程度): <2小时
  • 存储的容量:存储需满足业务数据增长的需求;
  • 存储数据的安全:具备安全可靠的存储基础架构;
  • 存储的管理:存储设备的安装和维护管理需简单易用;
  • 存储性价比:考虑项目预算,存储的性价比需最优。

三、NAS存储架构选型经验

搭建云盘配套的文件共享存储资源池,目前主流的有NAS存储、分布式NAS存储和对象存储三种路线,对象存储需要业务应用进行改造适配,而部分数据为企业私有数据,且不支持数据的复杂目录结构,因此本项目重点考虑NAS存储,相比分布式存储,集中式NAS存储可以为前端服务器提供简单的集中共享式文件访问,且具备高性能和高可靠的优势,且支持横向扩展NAS集群,具体优势如下:

1.可靠性

  • 集中式NAS的存储节点是专用的控制器,其上搭载的专用存储操作系统成熟稳定;
  • 分布式存储采用廉价的PC 服务器,安装分布式存储系统软件,通过存储管理、存储服务、应用接口以及存储访问等多部分软件和硬件组装存储系统,存在更多故障点;没有针对写缓存数据掉电情况下的数据一致性保护机制。

2. 性能

  • NAS通过RAID 硬件技术来提供数据保障,对写性能没有影响;
  • NAS通过高速缓存完成写数据,然后返回结束,后端再落盘,性能更优;
  • 分布式存储保证数据可用性通过保留多份数据副本实现,当本地写以及所有备份副本均写成功后,存储节点将成功信息返回给前端,降低了写的性能;
  • 分布式存储写数据完成是要等到数据落盘才返回,没有写缓存机制,写的性能受限;
  • 分布式存储节点失效或磁盘故障时,重构时间很长,严重影响性能;

3. 数据保护

  • 集中式NAS存储通过采用ROW大块顺序写机制,开启RAID保证多个物理硬盘的损坏数据不丢失,而对前端的写操作没有任何性能影响;
  • 集中式NAS存储可以方便地通过以太网进行数据复制和容灾,还可以利用增量复制、数据压缩等多种手段节约传输效率,节约网络带宽;
  • 分布式存储保证数据可用性是通过保留多份数据副本实现的,当本地写以及所有备份副本均写成功后,存储节点将成功信息返回给前端,降低了写的性能,得盘率低;
  • 分布式存储采用服务器构建,很难进行远程的基于存储控制器的数据复制和容灾。

4. 扩展性

  • NAS 控制器可以在线地进行增加磁盘来扩容也可以通过增加存储控制器节点来横向扩展集群容量和性能,以上扩展都完全无缝进行;
  • 分布式存储节点是采用PC 服务器加内置磁盘的方式,由于内置盘数量较少,意味着只是容量的增加而不需要更高的计算性能时也必须增加更多的服务器,扩展不灵活,增加成本。

5. 数据管理、存储效率

  • NAS具备多种数据管理和保护功能(RAID-DP、快照、克隆、复制),通过存储效率(精简配置、数据缩减、快照)等节约存储空间,降低成本;
  • 分布式存储没有企业数据管理功能。

6. 运维管理

  • 集中式NAS只需要管理存储本身,而无需单独管理其内部部件,管理相对简单;
  • 分布式存储有一套基于WEB 的管理平台,但是因为要管理网络设备、存储设备、服务器、应用软件、公用访问接口、接入网、和客户端程序等多个部分,造成事实上的管理复杂。

综上,经过综合评估,最终确认使用2台集中式NAS存储,搭建主备高可用架构来满足云盘业务系统数据存储的需求。

四、NAS存储架构实践技术方案及实施运维经验

从车企数据存储的分析可以看出,要使整个企业内部的数据得到统一管理和安全应用,就必须有一个安全、性价比好、应用方便、管理简单的存储系统来存储和备份企业内部的数据资料。NAS网络存储服务器是一款特殊设计的文件存储和备份的服务器,它能够将网络中的数据资料合理有效、安全地管理起来,并且可以作为备份设备将数据库和其它的应用数据时时自动备份到NAS上。

云盘系统对NAS存储配置测算模型:


注:假设每次文件传输发生IO次数按照20次测算;

假设一个小文件,划分16个目录保存。

根据云盘项目组提供的业务场景需求,对于存储性能测算指标如下:

商务招标阶段共有包括联想、DellEMC、华为以及HP四家中高端NAS产品参与竞标,项目组从NAS存储功能、性能以及扩展性、商务成本方面,进行了综合对比,可以看出华为企业NAS存储设备性价比更优,尤其是提供的性能(缓存指标)和扩展性方面更加突出。

通过对比最终选购了2台华为OceanStor 5600系列存储,构建承载公司非结构化数据的存储资源池,满足云盘项目的需求指标,通过存储间的数据复制实现数据的容灾。

配置信息如下:

部署架构如下:

为了验证存储功能的有效性、以及存储切换和数据备份恢复后是否会对业务产生影响,上线之初,分别进行了如下两个场景的验证:

  1. 场景一:模拟主存储失效后,手工切换备份存储,验证数据的完整性
  2. 场景二:模拟主存储上部分数据丢失或损坏,手工从备份存储上恢复数据至主存储上

模拟场景一:主存储失效,备存储接管

(1)网盘:停止上传、下载模块服务 ./stop_container.sh datacenter4
(2)网盘:卸载主NAS
umount /data/ball/dirmap/datacenter/cell/object

(3)NAS存储:切换为备NAS
1) 服务器上先umount主存储的挂载点;
[root@database /]# umount /data/ball/dirmap/search

2) 登陆从存储控制台,选择“数据保护”,选择“远程复制”

3) 选择“远程复制pair”,找到对应的备份文件系统,如“search2”,选中文件系统后,选中“更多”-分裂

4) 分裂后,再选择“属性”,更改为“可读写”权限

5) 更改后,再次选中“更多”-“主从切换

6) 选择“资源分配”,选中“共享”

7) 选中“创建”,选择相应的文件系统,如:search2_bk

8) 增加客户端列表,在名称或IP地址处可增加单个IP地址,也可以输入“*”,代表所有主机

9) 回到服务器端,挂载备存储上共享出的文件系统
[root@database]#showmount –e 从存储的业务IP地址

[root@database]# mkdir /guo

[root@database]#mount-t nfs -o vers=3,proto=tcp,rsize=1048576,

wsize=1048576,hard,intr,timeo=600 备存储IP:/Search2_bk /guo

网盘:挂载备NAS

Mount -t nfs -o vers=3,proto=tcp,rsize=1048576,

wsize=1048576,hard,intr,timeo=600 备存储IP:/Datacenter /data/ball/dirmap/datacenter/cell/object

(4) 网盘:启动服务datacenter容器

./run_container.sh datacenter4

docker exec -it datacenter4 bash

(5) 网盘:验证文件下载、预览

(6) 网盘:数据差异检查

(7) 验证完成后,网盘停止服务 ./stop_container.sh datacenter4

网盘:卸载备NAS
umount /data/ball/dirmap/datacenter/cell/object

(8)NAS:切换主NAS,恢复原来的挂载状态。

模拟场景二:主存储上文件系统的部分数据文件丢失或损坏:
(1)在主存储的/data/ball/dirmap/datacenter/cell/object文件系统下创建hello.txt文件
(2)在主存储上做数据同步:

(3)同步完成后,在备存储上做分裂

(4)更改备存储上文件系统的权限为“可读写”

(5)在备存储上创建共享:

(6)在服务器上挂载备存储上的备份文件系统,找到丢失或损坏的文件

(7)恢复主从存储的复制关系:
①卸载从存储上的备份文件系统:# umount /guo
②在从存储上删除共享

③更改从存储上备份文件系统的权限为:“只读”

④在主存储上做数据同步

⑤在从存储上查看pari状态为“正常”

通过场景验证,华为NAS主备存储切换和数据备份恢复后对云盘业务未产生影响,满足云盘系统对数据存储的高可用要求,同时验证也提升了运维针对不同风险的应急管理能力。

五、总结

随着云计算、大数据、人工智能等技术的普及,海量数据将成为企业的主流数据,协同共享的需求也越来越迫切。本文为企业云盘系统共享非结构化数据的存储使用提供了一种解决思路,各个企业可根据自身业务的发展需要,择优选择适合的存储类型,满足各自业务多样化的需求。在海量数据的大势所趋下,企业需要做和考虑的是采购合适的存储来支撑数据的存储和业务的高并发需求,在满足存储需求的同时降低整体TCO,提高企业存储系统的使用效率。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

3

添加新评论2 条评论

JAGXUJAGXU存储运维管理ZTZQ
2024-03-25 15:28
干货满满,感谢分享。
匿名用户
2023-06-20 09:01
内容很精炼,很有深度!
Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

相关文章

相关问题

相关资料

X社区推广