chinesezzqiang
作者chinesezzqiang课题专家组·2019-02-15 09:53
信息技术经理·M

非结构化数据存储在制造企业中的实践

字数 6666阅读 2384评论 1赞 4

概述

随着互联网及智联网的迅猛发展,制造行业作为较传统的行业也在互联网的风潮下不断追求创新和改革。借力互联网和智联网的热潮,实现企业产品的自动化、网联化及服务化,希望通过新的科技或技术帮助企业降低运营成本和客户服务成本,提升IT与业务的匹配度,降低整体人力投入成本。

为此,各大制造企业竞相实施各种各样的科技项目,如:智能化,降低企业运营成本;无纸化,提升工作和服务效率;网联化,提升用户体验;基础架构云化、容器化,提升基础资源的利用和管理效率等。

这些新型科技的背后,显而易见地会产生海量的图片、文档、音频和视频等非结构化数据,其文件个数和数据量都呈现爆发性增长,对原有的传统存储系统架构带来了更多的新挑战。普通NAS或者传统存储仅仅能承载数十TB级别的容量,无法满足业务应用系统产生的非结构化数据(包括文件、图片、音视频文件等)的规模化快速发展,企业的技术部门也在不断寻求新的解决方案,应对百TB级别存储的挑战,解决容量和性能问题。

为了解决制造企业关键系统(如:生产、物流、质量管控、OA等)的海量票据、证件、合同等文件数量庞大且不断累积导致的存储性能和扩展性瓶颈问题,引入新的非结构化数据存储解决方案,势在必行。

什么是非结构化数据?

可能有些朋友还不是很清楚什么是非结构化数据。为了让朋友们更好的理解全文的意图,我们先简单介绍一下三种数据结构类型。

结构化数据:
结构化数据是表现为二维形式的数据,可以通过固有键值获取相应信息。其数据是以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。结构化的数据的存储和排列是很有规律的,这对查询和修改等操作很有帮助,一般可以使用关系型数据库来表示和存储。业内主要应用的关系型数据库如:Oracle、SQL Server、MySQL、Maria DB等。

半结构化数据:
严格来说,结构化与半结构化数据都是有基本固定结构模式的数据,半结构化数据可以通过灵活的键值调整获取相应信息,且数据的格式不固定,同一键值下存储的信息可能是数值型的也可能是文本型的或是字典列表形的。 半结构化数据,属于同一类实体可以有不同的属性,即使他们被组合在一起,这些属性的顺序并不重要。常见的半结构数据有日志文件、XML文档、JSON文档、Email等。

非结构化数据:
非结构化数据,简单的来说就是没有固定结构的数据,也是我们应用最为广泛的数据结构,也是最常见的数据结构。例如办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。一般直接整体进行存储,而且一般存储为二进制的数据格式。

非结构化数据存储的挑战是什么?

随着传统制造企业向“互联网+制造”转型的步伐越来越快,业务数据的类型也不再局限简单的关系型数据。其中产生了海量的小文件,比如图片、媒体、图像、音视频等。不同的业务每天产生的数据量也各异。以某汽车制造企业的车联网系统为例,非结构化数据每天平均以1TB的速度增长,产生数亿条关键数据。这对于传统的存储来说,是一个挑战,因为海量小文件对存储的访问性能要求很高,因为直接关系到终端车主的体验。

由于业务的增长,存储容量需求也在高速倍增。如车辆的轨迹等基本数据,每半年即可增加近百TB,存储是否能够提供高性能吞吐能力,来保障这些二进制小文件的读写性能是重要的挑战。

大多数向“互联网+”转型的企业,几乎都已经采用分布式数据库、大数据等技术,来实现历史数据的在线统一存储和查询,而非结构化数据的存储规模可能会达到TB级甚至PB级。在这种情况下如何实现数据的统一存储和管理、历史数据的实时查询、未来的大数据分析,对存储高度智能化的管理能力提出了更高的要求。

当前IaaS层云化是大趋势,私有云实现了计算和存储资源的云化,分布式数据库实现了结构化数据的云化,云化后的资源可按需分配、弹性扩展。而非结构化数据存储的云化却缺乏很好的解决方案,尤其是随着音视频数据的加入,占用的存储空间越来越大,而这些数据的单位价值不高,如何降低单位存储成本也需重点关注。

非结构化数据存储与传统存储的区别?

大数据时代的来临,数据处理需求急剧增长,以集中式SAN存储或NAS存储等传统方式来存储数据的形式已经不能适应业务的快速发展需要。越来越多的关注点转向了非结构化数据存储的方向。

数据压力:
根据全球研究和预测机构Gartner的预测,到2020年,全球数据量将达到35ZB,等于80亿块4TB硬盘,非结构化数据在存储系统中所占据比例已接近80%,数据结构变化给存储系统带来新的挑战。

业务压力:
互联网的发展使得数据创造的主体由企业逐渐转向个人用户,而个人所产生的绝大部分数据均为图片、文档、视频等非结构化数据;企业办公流程更多通过网络实现,表单、票据等都实现了以非结构化为主的数字化存档;同时,基于数据库应用的结构化数据仍然在企业中占据重要地位,存储大量的核心信息。

存储结构不同:
数据业务的急剧增加,传统单一的SAN存储或NAS存储方式已经不适应业务发展需要。SAN存储成本高,不适合PB级大规模存储系统。数据共享性不好,无法支持多用户文件共享。NAS存储共享网络带宽,并发性能差。随系统扩展,性能会进一步下降。

现状分析

任何的技术产生,一定是为了满足某种需求。前文已经简单介绍了一下非结构化数据占有率和趋势,那么如何更好的实践,并给业务带来效益呢? 以下就以某传统汽车制造企业为例展开说明。

当前现状

就目前某个传统汽车制造企业【虚拟企业】实际情况而言,大多数的存储都是之前采购的集中式SAN存储和NAS存储。核心生产系统使用高端的存储设备,重要系统使用中低端的存储,一般的系统使用低端存储,品牌也是多样。

由于之前的主要业务系统都是结构化数据或者说是少量的非结构化数据,所以数量不大,并没有出现存储对业务造成瓶颈的情况。但是随着企业业务的转型,“互联网+制造”战略的发展要求,越来越多的非结构化数据占据了集中式存储的60%以上。比如图像、音频、视频和OA文件等,单个文件很小,但是总量巨大,给集中式块存储的性能带来了挑战,给终端用户带来了不好的体验。

通过与传统行业其他朋友的沟通,当前传统制造企业已经逐渐采购利于非结构化数据存储的对象存储设备,通过对小文件及海量文件的有效支持,解决现有块存储在针对非结构化数据上,I/O性能不足的问题。

当前企业的存储和数据主要有以下几种特点:
1、大部分硬件存储类型为SAN和NAS;
2、主要是块存储和文件存储,无对象存储,无法更好的支持小文件的存储和读取;
3、当前存储现状无法满足业务的高I/O要求和未来的容量管理需求;
4、对非结构化数据支撑性差,无法满足车联网等ToC业务的高吞吐要求;
5、海量数据增速快,现有存储弹性扩展性不佳;

解决方案

解决方案的目的是为了解决某个特定场景的问题,根据现状分析及结合存储市场当前的产品和成功案例,最终选择采用对象存储来解决非结构化数据存储的问题。

方案概述

了解了IT的痛点和业务的需求,就可以根据这些进行存储选型和实施方案的设计与规划了。通过对象存储的特性,解决海量小文件存取所需高I/O的问题、非结构化数据存储的问题、按业务需要弹性扩展的问题。

目前市场上支持非结构化数据的存储很多,业界主流的存储厂商几乎都推出了相关的产品。比如国际品牌EMC、IBM、NetAPP,国内的品牌如浪潮、华为、飞康等。

本例主要是采购了Net APP的高性能NAS存储来支持企业某个业务的非结构化数据存储的需求。

需求概述

公司的这个系统主要是用于存储员工的各种数据,便于员工与员工之间、员工与客户之间进行共享,类似百度网盘。以下是本次项目的几个主要的需求点,主要来自业务部门的反馈:

业务需求:
 网盘用户总数20000,本期项目全覆盖;
 每日活跃用户比例70%
 网盘使用量高峰时段预计2小时
 每个用户文件数量为1000个,3GB空间
 平均每日传输文件数量为1200000
 平均文件大小为2.4MB
 假设每次文件传输发生IO次数为80个 (32KB数据块)
 网盘软件采用双副本存储方式

存储容量和性能归纳和计算如下:
tnhej3kbjzp

tnhej3kbjzp

技术需求:

高可用及业务连续性
 存储架构不存在单点故障
 需要带掉电保护机制,保证存储在掉电情况下数据无丢失,文件系统保持一致
 支持升级为双活数据中心方案 (RTO =0)

数据保护
 文件数据备份和恢复秒级完成
 文件数据RPO=1分钟
 支持用户自助恢复单个文件,管理员整卷恢复
 备份数据可直接快速挂起
 支持历史文件可以根据时间和访问热度自动归档到到低速盘或公有云中,归档后数据访问完全透明
 效率
 支持去重和压缩等技术,节省存储空间
 数据复制支持网络压缩,节约网络带宽

技术扩展
 用户数量从8000扩展为20000,后端存储架构无缝在线扩展
 支持数据在不同数据中心数据流动
 支持对接对象存储或公有云S3
 为存储统一纳管平台提供接口

方案设计

一个方案的好与坏,架构是否合理直接关系一个项目的成败,对业务的影响范围。以下简单介绍一下硬件设备信息和配置信息。

设备本身配置支持8000用户,支持扩容满足20000
1、主存: FAS8200, 双活控制器(可扩展到24个控制器),32 核CPU, 256GB Cache,2TB FlashCache, 72x1.8TB SAS 磁盘, 4x10Gb 以太网口,4x16Gb FC 接口,
2、备存: FAS2720, 双活控制器(可扩展到24个控制器),24 核CPU, 64GB Cache, 1TB FlashCache 36x4TB SAS 磁盘, 4x10Gb 以太网口,4x16Gb FC 接口

主存和备存配置以下软件:
1、存储协议:NFS、pNFS、CIFS/SMB、FC、FCoE、iSCSI
2、效率:重复数据删除、数据压缩、数据缩减和精简配置
3、数据保护:RAID-TEC™、RAID DP® 和 Snapshot
4、性能:存储服务质量 (QoS)
5、可扩展的 NAS 容器:FlexGroup
6、管理:OnCommand System Manager 和 OnCommand Unified Manager
7、FlexClone®:创建数据的即时虚拟副本
8、SnapMirror:实现简单、高效、灵活的灾难恢复
9、SnapVault®:借助这款基于磁盘的备份软件,在几分钟内即可完成到主存储或二级存储的完整备份和在线归档,而不用耗费几小时或几天时间
10、SnapRestore®:几秒钟内恢复整个 Snapshot 副本
11、SnapCenter®:可扩展的统一平台和插件套件,提供应用程序一致的数据保护和克隆管理
12、SnapManager® 套件:支持应用感知型和虚拟机感知型备份、恢复和克隆

以下是整个网盘项目存储的示意结构图,具体的功能架构及系统架构,根据不同的厂商产品略有不同,此处不再赘述。

abp5c0rzscl

abp5c0rzscl

通过以上示意图可以看出:
 主存提供网盘存储空间,存储内置快照保护,每天做快照备份,瞬间完成,保存一周7个快照
 备存与主存之间集成数据保护(同时支持备份和容灾),保存3个月90个快照,每天复制变化的快照数据(传输间隔最小可以支持到1分钟),非常快速
 备存上可以开启去重和压缩,减少存储空间
 主存不出现故障的情况下,一周内的数据都通过主存上的快照快速恢复,用户可以自助进行,无需管理员干预
 主存整体出现故障,支持直接挂起备存数据使用或者快速恢复3个月内的任意快照点数据
 无需其他备份软件或硬件,主存和备存内置所有功能完成数据备份和容灾

方案的优势

性能保障
 专业的NetApp NAS存储, 一直是行业领导者
 NAS存储上专业的WAFL文件系统满足海量文件的读写性能
 主存配置中端的存储控制器和高性能的磁盘,备存配置最新的入门级存储控制器和大容量的磁盘
 可以为不同的业务系统设置不同的性能响应,保证关键系统的性能

无缝、无限扩展
 存储可以纵向地磁盘扩容(可以扩展到几百块磁盘)
 横向地增加更多的存储控制器(最大可以扩展到24个控制器)
 在线扩展,无任磁盘扩容,增加控制器,扩大文件系统,都很容易地可以在线进行
 存储支持1000个文件系统,每个文件系统最大可以存放20亿个文件,容量可以达到100TB-20PB(依据产品档次)

二级数据保护机制
 存储内置快照逻辑保护,可以设置快照时间进度、保存快照份数
 快照保护数据瞬间完成,彻底解决备份窗口不够问题
 数据恢复用户自服务完成,操作简单
 快照只占用增量数据空间
 近期的快照数据保存在存储上,支持将数据通过备份软件备份到其他位置,防止整台存储发生故障数据丢失
 恢复数据一般都从存储快照瞬间恢复,如果要恢复比较老的数据,通过备份软件从其他位置恢复

强大的数据共享
 通过NFS/CIFS 等多种NAS 协议可以同时为Linux和Windows 平台提供数据共享
只要IP可达就可访问数据

极高的数据存储效率
 存储内置去重和压缩功能,节约磁盘存储空间消耗

极高可靠性
 双活控制器,任一控制器故障不影响系统运行
 全冗余的硬件设计,保证系统的高度可用性
 独到的RAID-DP 设计,保证任何RAID组2块盘同时故障不会丢失数据
 掉电保护NVRAM和重演日志在服务器掉电情况下瞬间重启,数据零丢失
 支持升级成双活数据中心方案

运维管理简单
 丰富的图形监控管理工具,可以管理整个存储私有云内的所有环境

极强的技术扩展
 无缝扩展存储池(横向、纵向扩展容量和性能)
 支持扩展到不同数据中心数据流动
 无缝集成对接公有云
 为存储统一纳管平台提供接口(SNMP, Syslog)

实施计划

方案设计完成后,就要进行实施阶段了。那么在实施阶段有以下几个关键部分需要注意:

确定组织成员及职责
万事开头难,一个项目能否顺利的进行,人是第一要素。所以第一件事就是确定组织关系,明确职责。在这个项目中,甲方、厂商和集成商算是三个重要的责任主体。指定组织管理者和执行者,确保项目管控与执行的落地。

资源分配与调度
资源分为硬件资源、软件资源和人力资源。提前将所需要的各种资源协调到位,按照之前的组织关系进行职责配比。确保在项目执行过程中,所有资源到位及重充沛。

编写实施手册
提前撰写实施手册,集成人员与管理员在未经授权的情况下,必须严格按照手册执行,每个步骤需要留下记录,不得随意执行手册以外的任何操作。这样可以保证整个执行过程都在预先演练的范围之内,出现问题可以及时协调人员尽快解决。

制定回滚计划
任何操作或者方案无论多么的完美,都需要提前制定回滚计划,尤其是在关键业务系统的变更之前。回滚和备份往往被成为IT运维人员的最后一棵救命稻草。所以提前做好回滚预案,事半功倍。

方案评估
任何成型的方案在执行前都需要通过评审委员会的审核。一般委员会成员由甲方、集成商和厂商派资深代表组成。对方案中的关键技术点进行详细询问及复查,避免撰写人笔误或者方案疏漏造成变更失败。

确定停机窗口
与业务人员确定停机窗口,此窗口尽量预留出回滚的时间,一般要比实际估算时间多出20%的余量。这样及时发生故障或者事件,也与较为充足的时间进行处理,不至于手忙脚乱。

功能校验
方案或者变更实施后,需要进行功能校验,确保所做的操作符合业务预期,并对当前业务没有造成任何的影响。

结束语

随着云计算、大数据、人工智能等技术的普及,越来越多的非结构化数据将成为企业的主流数据,对象存储也将逐渐占据传统存储的半壁江山。

各个企业都应该根据自身业务的发展需要,择优选择适合的存储类型,满足业务多样化的需求。在非结构化数据的大势所趋下,企业需要做和考虑的就是采购合适的对象存储来支撑数据的存储和业务的高并发需求。在降低整体TCO的同时,提高企业存储系统的效率。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

4

添加新评论1 条评论

study123study123系统架构师ERICSSON
2019-02-20 09:30
不错的文章,谢谢分享!
Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广