老赵
作者老赵2019-03-19 10:02
系统工程师, 某保险

保险行业影像系统海量非结构化数据对象存储建设难点交流问题集锦

字数 2685阅读 3799评论 2赞 2

近年来,随着云计算、大数据、移动互联网、「联网+」等技术的飞速发展,我们身边的每个行业都在发生着巨大的变化。保险行业也面临着竞争加剧、创新加速的局面:

客户交互的渠道逐渐多样化,移动终端、VTM等新兴数字化交互无处不在,这些交互产生的各种数据的数据量和类型激增,客户期望因新的创新型消费导向而发生了变化。这些趋势正从根本上促使保险营销和客户服务流程发生改变。

数字化还扩展到了实物对象 — 汽车、电器、穿戴设备等。这些IoT设备产生了大量用于分析、决策和优化操作的数据流。它正从根本上影响着生产经营决策和资产管理过程。

人与物之间交互的数字化也在迅速扩大,保险行业柜台、移动终端上产生的大量保单、影音、照片等海量非结构化数据的迅猛增长,使得数据的存储和分析变得更加复杂。

这些变化最终创造了快速增长的各类海量数据,如何在这不断上升的数据浪潮中消化新的数据种类,并了解其意义,提升业务洞察力,对保险企业的信息系统建设提出了越来越高的要求。在这些指数级增长的数据当中,80%的数据都是非结构化和半结构化数据。在过往相当长的一段时间内,NAS存储过去一直是应对非结构化数据存储的不二选择,而伴生着业务应用系统产生的非结构化数据指数级增长,NAS存储在容量和性能方面越来越力不从心,具有分布式、去中心架构、高扩展性和高性能等优势的对象存储正逐渐取代NAS在非结构化数据存储方面的地位。

但是在实践当中,如何平滑稳定的使用对象存储替代NAS,如何有效的适应存储技术更替带来的系统性变化是需要讨论的:

1) 在应用从传统的NAS存储向对象存储迁移过程中,业务系统应该如何进行改造;
2) 新技术形态下,对象存储上的数据如何进行备份、归档和灾备建设;
3) 新的存储形态下,如何有效评估和规避硬件故障给对象存储带来的影响;

为了能更好的解决企业在实现对象存储系统时面临的难点,twt社区特别邀请了在这方面有着丰富项目实践的专家与大家一起交流探讨。

社区将本次交流的一些精彩问答特别进行了整理,希望能对大家有所帮助。

1. 把现有影像系统的非结构化数据集中存贮到一起,供AI、BI等平台使用,使用对象存储是否合适?

G老师:
我们也在探讨AI BI使用对象存储的方式,但是还没有找到合适的落地点。
目前我们的BI大部分还是用数据库,AI 在声纹识别 人脸识别这块还是用的文件存储

M老师:
针对该业务需求,对象存储有利于实现全新的优化分层存储架构,存储体系提供分层(热、温、冷)服务,用于不同的应用服务等级,同时存储对应用完全透明。

使用IBM GPFS文件系统,实现非结构化数据的多协议访问和高性能需求,GPFS单一命名空间同时可实现多业务如影像系统集中存储、HPC、AI、BI、大数据平台的自动智能的数据流转。将COS作为Tier2的对象存储层,所有的非结构化数据存放于“池”中,为数据收集和长期保留提供一个易于扩展、永远在线、安全可靠的存储平台。这样,企业可以构建统一的非结构化数据资源池,实现“非结构化数据即服务”。

2. 如何做包括元数据在内的数据迁移?

G老师:
存放在数据库中的元数据,做数据库拆分或表迁移即可,这一块技术很成熟了。

M老师:
COS集成元数据处理组件Discover,可实现丰富的元数据处理功能。基于自定义元数据标签或系统级别元数据,实现自动的数据迁移。

3. 是否可以通过业务维度抽取对象数据?

G老师:
对象存储数据支持打标签技术,对象标签,因此支持业务维度抽取

M老师:
可以实现。可采用元数据标签方式,通过业务纬度实现对象数据的洞察。

4. AI训练或大数据分析直接使用对象存储好,还是先把数据抽取到本地文件系统好?

G老师:
我们没做过此类的对比测试,目前我们使用的是文件系统。

M老师:
AI训练或大数据分析需求访问大量的数据,这些数据应易于获取,并且支持高性能、多协议共享,海量存储,实现更简单、可靠、迅速的访问更多数据。

建议采用如IBM GPFS高性能的分布式文件系统实现AI训练或大数据分析的高性能需求。GPFS文件系统可以为不同应用提供统一的、可扩展的高性能数据访问,适用于集群、大数据分析、文件和对象环境,最高提供TB/s级别的数据带宽,在满足性能要求的同时实现和各种现有应用系统的对接;

对象存储是定位为tier2的存储,访问效率方面可以做到请求在毫秒级的延时,用于对IO响应时间要求不高,访问度不高的数据,用于非结构化数据资源池。将COS和GPFS集成,将对象存储制作成二级存储资源池,所有的非结构化数据存放于“池”中。

IBM GPFS+COS优化的软件定义方案,满足AI训练或大数据分析每个阶段的需求。

5. 对象存储有诸多优点,如何引导用户使用对象存储,而不是传统NAS?

G老师:
价值是最好的说服力,如成本,效率,体验。你把这个数据写出来,用户很聪明他会自己选择。

M老师:
对象存储有诸多优点,分布式对象存储建设需要针对企业应用和架构的具体情况进行对象的改造、部署和测试等。引导用户使用对象存储,而不是传统NAS,应考虑海量数据的容量、安全性、高可用设计,找到对象存储的适合的场景;了解对象存储的优势;细化企业建设分布式对象存储前期调研;规避新技术引进的风险;提升运维管理能力;确保应用改造及迁移,保障业务连续性。

6. 对于大多数新建或者计划建设对象的公司,历史数据通常该如何处理?新数据存储对象,老数据保留,还是统一迁移?

G老师:
老数据保留管理成本同样高,老数据如果存在nas,五年设备生命周期满了以后,老的nas还是要做迁移,运维管理成本同样存在。因此在建设初期,对于具备迁移条件,且业务也能接受的数据,可以考虑一次性迁移到对象。关键要评估好数据规模,成本,收益之间的关系

M老师:
结合用户的迁移场景,综合考虑用户的业务需求、迁移的时间成本、数据迁移量、网络速度等因素(1MB 以下的小文件数量较多、磁盘 IO 性能不足等等也会影响到数据的迁移进度),可以选择不同的迁移方式。

一种方式,对于新上线的系统对非结构化数据的访问采用对象存储,对于存量的系统,逐步推进变更的方式。

另一种方式,如具备迁移条件,可实现NAS存储里面的存量数据在线同步到对象存储。

用户访问数据时,若对象存储无该部分数据,则会回源到用户源站去读取数据,并写入到对象存储,将数据传递给用户。利用迁移工具将用户源站的已有数据迁移到对象存储。若用户源站所有数据都被访问过,则源站所有数据都会被同步对象存储,无需再使用迁移工具迁移数据。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

2

添加新评论2 条评论

#michel_0305软件开发工程师, qasw
2019-03-20 11:54
觀望
#michael1983技术总监, 某证券
2019-03-19 10:43
保险行业对影像的需求比较大
Ctrl+Enter 发表

本文隶属于专栏

活动总结
活动总结是社区交流活动内容的总结及延伸,为大家提供了社区专家们丰富且高水平的理论知识、实践经验以及常见问题的最佳解决方法,非常值得大家收藏学习。

对象存储选型优先顺序调查

发表您的选型观点,参与即得50金币。