chinesezzqiang
作者chinesezzqiang课题专家组·2019-02-26 09:19
信息技术经理·M

非结构化数据存储在制造企业中的实践在线探讨活动问答总结

字数 6228阅读 4321评论 2赞 3

随着互联网及智联网的迅猛发展,制造行业作为较传统的行业也在互联网的风潮下不断追求创新和改革。借力互联网和智联网的热潮,实现企业产品的自动化、网联化及服务化,希望通过新的科技或技术帮助企业降低运营成本和客户服务成本,提升IT与业务的匹配度,降低整体人力投入成本。

为此,各大制造企业竞相实施各种各样的科技项目,如:智能化,降低企业运营成本;无纸化,提升工作和服务效率;网联化,提升用户体验;基础架构云化、容器化,提升基础资源的利用和管理效率等。

这些新型科技的背后,显而易见地会产生海量的图片、文档、音频和视频等非结构化数据,其文件个数和数据量都呈现爆发性增长,对原有的传统存储系统架构带来了更多的新挑战。普通NAS或者传统存储仅仅能承载数十TB级别的容量,无法满足业务应用系统产生的非结构化数据(包括文件、图片、音视频文件等)的规模化快速发展,企业的技术部门也在不断寻求新的解决方案,应对百TB级别存储的挑战,解决容量和性能问题。

为了解决制造企业关键系统(如:生产、物流、质量管控、OA等)的海量票据、证件、合同等文件数量庞大且不断累积导致的存储性能和扩展性瓶颈问题,引入新的非结构化数据存储解决方案,势在必行。

本次在线同行技术交流,我们将围绕“非结构化数据存储在制造企业中的实践在线探讨”这个主题进行研讨交流。与大家共同学习探讨,如何更好的解决非结构化存储在制造企业中的实践问题。

一、公共问题:

1、制造企业选择非结构化数据存储的动力源是什么?

答:制造企业是典型的传统企业,对互联网、移动互联网等新技术带来的新解决方案接受速度往往较慢,需要一段时间的沉淀。传统的存储介质与解决方案也是最受制造企业青睐的。那么为什么现在的制造企业会突然接纳非结构化数据存储的解决方案,综合分析有以下原因:

1) 业务模式转型:制造企业+互联网模式成为主流,越来越多的制造业开始关注后市场价值。对大数据、物联网等解决方案需求较强,亟需通过相关解决方案收集、分析、存储和展示相关数据,发现其更深层的价值。
2) 技术架构转型:制造企业传统的IT技术架构已经不能满足现在互联网体系的IT架构需求了。现存的IT架构,往往都是针对传统应用而设计,缺乏互联网IT架构的灵活性和快速响应、扩展等优势。
3) 数据类型:随着后市场的不断开发,数据类型也逐渐多元化。主要集中在图片、影音、视频等数据上。数据本身较小,碎片化程度高。通过传统存储存储,导致I/O性能底下,无法满足用户的快速响应要求。
4) 适用对象变化:以前业务更多的是针对经销商、服务商或者代理商,很少关注用户本身。现在随着制造企业对客户及后市场的重视,需要通过业务转变以及IT技术转型,满足用户不同需求的性能保证和架构的合理化。

2、 什么样的数据适合在非结构化存储中存放?为什么?

答:信息可以划分为两大类:一是能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字、符号。而另一类是无法用数字或统一的结构表示,如文本、图像、声音、网页等,我们称之为非结构化数据。

随着网络技术的发展,特别是Internet和Intranet技术的飞快发展,使得非结构化数据的数量日趋增大。

1) 影音图像:后市场主要针对终端用户,零散数据较多,经过分析,图片和音视频的数据量最大。非结构化数据存储的特质,就是解决非结构数据碎片化、不规则,导致I/O低下的问题。
2) 文本网页:文本及网页的数据也是非结构化数据存储的对象。  

3、在传统的制造企业购买非结构化数据存储,要考虑哪些必要因素?

答:非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。在购买非结构化数据存储的时候,主要考虑以下几点因素:

1) 成本因素:成本因素是所有项目必须第一个要考虑的。成本对于一个项目的成功至关重要,尤其是IT类项目。IT本身就不是传统制造企业的投资重点,所以每个IT项目都必须在成本上严格把控,将钱花在刀刃上。
2) 技术框架:技术框架不是越新越好,一定要与业务的需求强关联。制造企业的系统大多数均为传统IT架构,采用SAN的较为普遍。随着分布式、大数据等业务的上线需求,对非结构化存储的需求才愈演愈烈。这样就要求其架构具备灵活性、扩展性和高并发特性。
3) 数据结构:如果业务所产生的数据均为结构化数据,那就没有必要采购非结构化存储。一定要因地制宜,选择适应当前数据类型的存储。
4) 后期运维:运维往往是各种解决方案最忽视的地方。一个成功的解决方案,运维占用的比例一般在20%左右。采购非结构化存储,除了关注价格、品牌、功能等常规因素外,还要看你是否容易运维,让现有的IT运维人员适应,符合企业的运维规范。

4、 如何进行存储类项目的风险评估?

答:风险评估是从风险管理角度,运用科学的方法和手段,系统地分析网络与信息系统所面临的威胁及其存在的脆弱性,评估安全事件一旦发生可能造成的危害程度,同时为防范和化解信息安全风险,或者将风险控制在可接受的水平,制定有针对性的抵御威胁的防护对策和整改措施以最大限度地保障网络和信息安全提供科学依据。

存储类项目作为企业的核心项目,其风险评估可从两个方面着手,一是新核心系统本身的风险评估,包括网络、硬件和信息系统等方面;二是原核心系统改造或者迁移和外围系统变更过程的风险评估。在具体评估实施过程中一般包括风险评估的准备,对信息系统软硬件资产、面临威胁、存在脆弱性的识别,对已采取的安全措施的确认,和对可能存在的信息安全风险的识别等环节。

1、风险评估的准备。这是实施风险评估的前提,是为了更好地开展信息安全风险评估。由于新核心系统项目涉及的业务流程、信息安全等级需求、新核心系统规模、软硬件架构等方面的内容,需要提前进行以下风险评估前的准备:

(1)确定评估的目标;
(2)确定评估的范围;
(3)组建评估监管团队和评估实施团队;
(4)进行系统调研,调研内容包括:业务发展战略、信息系统管理制度、主要业务功能和要求、内外部网络架构和环境、网络安全分区边界、新核心系统所涉及的主要硬件和软件、新核心系统的数据信息、新核心系统的系统和数据敏感性以及该系统的业务使用、运维、开发人员等;
(5)确定评估依据和方法,评估依据包括:现有国际或国家有关信息安全标准、银监等监管机构对核心业务系统的要求和制度、安全等级保护要求和核心系统本身的实时性和性能要求等;
(6)获得最高管理者对风险评估工作的支持。

2、风险识别。这是发现、列举和描述风险要素的过程。其目是确定可能影响系统或者
组织目标得以实现的事件或者情况。其过程包括对风险源、风险事件及其原因和潜在后果的识别,关键点在于整个风险识别过程中,要认识到人和组织的因素的重要性,因此偏离预期的人为及组织因素也应被纳入风险识别过程。新核心系统风险识别包括以下三个方面:

(1)新核心系统软硬件资产分类,以资产的机密性、完整性和可用性三个安全属性为基础进行风险衡量;
(2)新核心系统威胁识别,造成威胁的因素可分为人为因素和环境因素,通过对这些威胁因素的识别之后,以此作为衡量新核心系统各个方面抗风险的能力。例如软硬件故障、物理环境影响、人为误操作、恶意代码、网络攻击、数据泄密、篡改等威胁情况下的新核心系统风险防范。
(3)新核心系统脆弱识别,可以以新核心系统所涉及的资产为核心,针对每一项需要保护的资产,识别可能被威胁利用的弱点,并对脆弱性的严重程度进行评估;也可以从新核心系统所在的物理、网络、系统、应用等多个层次进行识别,然后与资产、威胁对应起来。脆弱性识别内容包括:技术脆弱性(物理环境、网络架构、操作系统及软件、数据库、中间件、应用程序等)和管理脆弱性(技术管理、组织管理)两个方面。

3、已有安全措施确认。安全措施包含预防性安全措施和保护性安全措施两种。在识别脆弱性的同时,评估人员应对已采取的安全措施进行有效性检查,检查是否发挥了真正作用。对有效发挥了其作用的安全措施,应继续保持,而不用重复建设;对于不适当的安全措施,应及时进行整改,或采用更合适的安全措施替代。例如新核心系统利旧原核心系统两地三中心存储架构和备份架构,该架构的有效性长期经受过切换演练的检验,新核心系统架构可有效抵御物理环境的脆弱性带来的风险隐患。

4、风险分析。通过风险分析增进对风险的理解,为风险评价、决定风险是否需要应对以及最适当的应对策略和方法提供信息支持。通常而言,有以下三种风险分析方法:

(1)后果分析:通过假定新核心系统建设过程中出现的特定事件、情况或者环境,来分析风险影响的性质和类型。后果分析应包括:考虑应对后果的现有控制措施,并关注可能影响后果的相关因素;将后果与最初目标联系起来;对马上出现的后果和那些经过一段时间后可能出现的后果两种情况要同等重视;不能忽视次要后果,例如新核心系统建设带来的其他相关联的外围系统的影响和风险。
(2)可能性分析:通常使用三种方法来估计可能性,包括利用相关历史数据来识别那些过去发生的事件或情况,借此推断出它们未来发生的可能性,例如通过评估原核心系统各项主要性能指标的历史趋势,来衡量新核心系统的资源压力瓶颈;利用故障数和事件树等技术来预测可能性,例如对新核心系统所用的软件组件和架构和现有行内相同的组件和架构进行比对评估,通过衡量其他组件和架构的稳定性和故障率来评估新核心系统标准技术的选型;系统化和结构化地利用专家观点来估计可能性,例如通过专家论证、评审的方式,确定新核心系统方案、架构选型等。
(3)初步分析:对风险进行全面筛查,识别出最重大的风险或把不太重要和次要的风险排查,便于进一步分析,以确保能够组织资源集中应对新核心系统建设可能带来的最严重风险。

5、风险评价。包括将风险分析的结果与预先设定的风险准则相比较,或者在各种风险分析结果之间进行比较,确定风险等级。针对风险分析过程中所获得的对风险的认识,来对未来的行动产生决策,包括某个风险是否需要应对、风险的应对优先次序、是否应开展某项应对措施、应该采取哪种有效途径进行应对等等。并依据风险的可容忍程度,将风险划分为三个区域:不可接收区域(必须不牺一切代价进行风险应对)、中间区域(权衡应对措施的成本与收益,权衡机遇与潜在后果)、可广泛接收区域(风险微不足道,无需采取任何风险应对措施)。

6、文件的归档。风险评估的过程和结果都应进行记录,并以可理解的术语来表达,同时风险等级的单位也应得到清晰表述。所有记录的文件包括但不限于:风险评估方案、风险评估程序、新核心系统资产识别清单、系统威胁列表、已有安全措施确认、风险评估报告、风险处理计划、风险评估记录等。整个评估记录工作应在整个项目的全生命周期内持续进行,如果出现重要的新信息或者环境发生变化,应根据管理的需求对风险评估进行更新。

7、风险评估的监督和检查。通过对新核心系统项目风险发展变化的观察和掌握,对风险识别、分析、评价、处理的监视和控制,评估风险危险程度和风险处理策略和措施的效果,并针对出现的问题及时采取措施的过程,从而保证风险管理达到预期的目标。项目风险监控和检查采取的措施主要有权变措施、纠正措施、变更申请和处理计划更新等。

5、 在非结构化数据存储项目中,如何进行技术路线的选择?

答:技术路线的选择,需要考虑以下几个因素:

1) 业务需求:首先要明确业务的主要需求以及痛点是什么。哪种类型的数据需要被存储,业务调取数据的周期是多久。通过业务数据计算出大概的存储I/O需求。
2) 硬件功能:硬件自身的功能是否满足业务需求,比如基本功能、备份、安全特性以及是否具备灾备特性。需要考虑设备自身的参数外,还要考虑与其他系统的兼容性。
3) 产品的扩展性:一定要具备扩展性,最好是在线扩展能力。基于目前的IT发展趋势,很少有哪些应用的存储扩容变更需要停机进行了。建议对其扩展性考虑3年-5年的规划。
4) 实施与运维:实施较为简单易懂,没有复杂的操作步骤,这样有利于后期运维人员的运维与调试。具备较为详尽的知识传递,一定要考虑项目实施过程中的知识交付。

二、技术问题:

6、 如何设计非结构化存储的高可用架构?

答:不同产品的高可用性架构在设计和实施上也存在着较大的不同。但是主要考虑以下两点:

1) 业务高可用:采用非结构化存储的解决方案自身需要具备高可用的架构,不要完全依赖硬件本身的高可用。硬件本身的高可用性出厂一般为5个9,甚至更高。但是应用如果是单点,那么再坚固的硬件高可用也是枉然。
2) 硬件高可用:同理,应用程序自身具备高可用也是不够的。要结合硬件自身的高可用解决方案综合考虑。比如同步复制、异步复制等等。

7、 在非结构化数据存储实施项目中,提高存储的I/O性能,要考虑哪些方面?

答:提高存储I/O一直是比较热的话题,不同的存储产品在调优的过程中也不尽相同。但是,有以下几点可以参考:

1) 冷热数据分层:根据业务需要,适当采用混合磁盘模式,即SSD+机械盘的模式。将经常访问的数据放入SSD,进行快速处理调用。不经常用的数据,可以放入机械盘中保存。
2) 数据压缩:现在的存储几乎都支持此功能,建议开启。虽然会占用非常小的CPU开销,但是可以解决数据空间占用以及I/O读取缓慢的问题。
3) 数据去重:现在的存储几乎都支持此功能,建议开启。对于重复数据块仅在实际存储中保留一份,节约空间,减少I/O寻址,提高I/O速度。
4) 周边设施:当然,I/O的调优不仅仅是硬件自身,对于周边设施也有要求。比如采用最大16GSFP【当前主流配置】,提高光纤通道带宽。

8、 存储类项目为什么首要考虑的是高可用性?

答:存储无论在任何企业其定位都是核心中的核心。对于企业而言,真正有价值的莫非数据了。而数据的存储地就是在存储上,无论是传统的SAN,还是分布式或者直连式。在存储类解决方案中,除了要考虑存储的基本功能外,更要考虑其是否具备成熟可靠的高可用架构,以及此架构在市场上的占有率和反馈如何。不同的品牌存储,其高可用架构也不尽相同。从数据的安全角度考虑,高可用的存储框架是必须的也是必备的,在项目的架构要求中,高可用性应放在第一位。

9、 项目在验收时要考虑哪些要素?

答:验收存储类的项目与其它项目的验收,有一点区别,主要考虑以下因素:

1) 功能满足:首先验收其功能是否满足标书要求,是否按照业务要求进行开启与配置。
2) 未来的扩展:验收其是否具备良好的扩展性,支持至少5年以内的业务发展需求。
3) 业务匹配:验收其与业务的匹配度,是否满足业务的各种功能及非功能性要求。
4) 技术指标:验收吞吐I/O,数据分层等指标是否符合预期。可以通过一些专业的测试工具,进行测试。【一般厂商都有类似的工具,可以部署测试】

10、 在日常运维中,存储的关闭和启动顺序是什么?

答:存储的关闭与开启一定要注意顺序,否则严重的可以造成数据丢失。

1) 关闭存储顺序:
关闭应用—关闭服务器—关闭存储主柜—关闭扩展柜
2) 开启存储顺序:
开启扩展柜—开启主柜—开启服务器—开启应用

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

3

添加新评论2 条评论

wuwenpinwuwenpin软件开发工程师南京
2019-03-06 19:11
好东西,感谢分享。
michael1983michael1983联盟成员技术总监某证券
2019-02-26 16:33
继续学习,非常好的归纳总结
Ctrl+Enter 发表

本文隶属于专栏

活动总结
活动总结是社区交流活动内容的总结及延伸,为大家提供了社区专家们丰富且高水平的理论知识、实践经验以及常见问题的最佳解决方法,非常值得大家收藏学习。

作者其他文章

相关文章

相关问题

相关资料

X社区推广