如何根据企业实际情况,有效的进行非结构化数据存储方案下关于技术路线的选择和技术方案的选型?

参与11

3同行回答

zhangjunxi570zhangjunxi570  系统架构师 , 某城商银行
这是一个很好的问题。是否要使用对象存储没有固定的标准,一定要一定要根据自身的实际出发。下面我提供集中建议使用对象存储的场景:1 非结构化数据体量过于庞大,在经济上和运维上的投入太大。对象存储通常采用分布式服务器加容量大性能一般的介质如sata盘,采用采用就删的方案...显示全部

这是一个很好的问题。是否要使用对象存储没有固定的标准,一定要一定要根据自身的实际出发。下面我提供集中建议使用对象存储的场景:
1 非结构化数据体量过于庞大,在经济上和运维上的投入太大。对象存储通常采用分布式服务器加容量大性能一般的介质如sata盘,采用采用就删的方案的方案做数据冗余得盘率接近传统存储而且冗余性高于普通普通的raid。特别是由于数据体量庞大业务已经初步初步显现出问题。这种情况下可以考虑使用对象存储。如果尚未遇到这些痛点可以继续使用传统存储。
2 数据体量不是使用对象存储使用对象存储绝对的门槛,如果企业的业务是会产生大量音视频、图片、各类格式的文档以及日志等情况,也可以大胆选择对象存储。
3 对象存储对象存储的实现方案也很多,基于开源ceph的,厂家自研的等等,当然可以参考IDC或者其他第三方评测机构的报告。首先还是搞清楚自己上对象存储的核心需求是什么,是要追求严格控制成本,还是要尽可能高的冗余性及容灾能力容灾能力来选择适合自己的。个人建议从以下几个角度出发考虑选型问题:第一,规划的容量和可以接受的冗余度。容量决定了部署架构架构节点数。第二,哪些功能特性是生产需要的。对象存储支持支持许多传统文件不具备的功能,挑选其中自己真正需要的。第三,要实现什么级别的容灾等级。

收起
银行 · 2020-12-10
浏览2031
floweryflowery  存储解决方案架构师 , 杉岩数据
金融机构在管理非结构化数据中要思考如何解决以下两个问题:1 、影像数据、双录音视频数据、业务数据、互联网数据急剧增长带来的存储成本问题2 、存储系统如何支撑 AI 项目实现业务全流程的数据分析和治理管控大多数城商行的数字化基础比较薄弱:27% 的中小银行缺乏公司级数...显示全部

金融机构在管理非结构化数据中要思考如何解决以下两个问题:

1 、影像数据、双录音视频数据、业务数据、互联网数据急剧增长带来的存储成本问题
2 、存储系统如何支撑 AI 项目实现业务全流程的数据分析和治理管控

大多数城商行的数字化基础比较薄弱:

  • 27% 的中小银行缺乏公司级数据规范,数据多头管理,部门数据互通靠自发或人工传递;
  • 46% 的中小银行初步搭建公司级数据管控体系和基础规范,但应用尚未下沉到业务,数据互通程度不理想;
  • 仅 18% 的中小银行初步建立数据管理体系和管控工具,进行了平台整合,各部门基本落实公司数据规范体系;
  • 仅 9% 的中小银行实现有效数据治理,数据管理体系完善,全面实现大数据应用。

因此,在建设数据治理体系时一定要面向未来,在技术选择时从长远打算,避免被单一应用限制了未来的发展。具体项目的方案,要根据企业客户目前非结构化数据的数据量和业务规模来选择。非结构化数据一般来说有 NAS 和对象两种存储架构。

传统 NAS 存储是基于文件系统的方案,采用 B+ 树形目录组织结构,比较适用于企业文件数量少的业务场景,当文件数量达到千万级以上, NAS 存储会遇到文件寻址越来越慢的瓶颈,加之单个文件系统容量受限,超过容量后对 IT 运维将带来巨大挑战。

非结构化数据的特点是数据量大且增长迅速,并发量要求高而对延迟不敏感,适合采用扩展灵活、成本较低的软件定义分布式存储,构建底层数据湖,让数据在不同业务之间共享,快速支持上层应用。对象存储这种非结构化数据存储方式,使用简单、业务之间数据共享便利,但需要修改原有的数据读写方式,很多银行有专门处理图片数据的影像平台,且这些影像平台多已支持 / 容易改造,以支持对象存储协议,同时又对上层业务系统透明。

随着互联网 + 趋势的推进以及各类智能终端的普及,银行的非结构化数据增长很快,新增数据中超过 80% 都是非结构化数据,新型 对象存储将成为企业存储的新标准。对象存储支持的能力:

  1. 解决了文件数量限制,支持百亿级文件,全面解决了原有 FTP 方案的文件数量限制
  2. 避免了跨应用的数据迁移,多业务使用单一命名空间的数据存储平台
  3. 解决了原有的检索问题,内置元数据和标签检索机制,快速调阅指定文件,实现历史数据快速在线查询
  4. 对象存储单个目录或者存储空间能达到数十 PB 甚至数百 PB 级,可以满足业务系统整个生命周期的存储容量需求,无需挂载目录和调整业务系统,避免陷入运维陷阱

杉岩数据的对象存储已经在多个城商行得到应用:

  • BJ 银行信用卡中心(身份扫描件、合同件、用户签字件等非结构化数据,千万级文件数量)
  • 中山农商行(核心系统影像数据 + 社保 /VTM 业务数据,亿级文件数量的非结构化数据统一存储 )
  • 珠海华润银行(文本、音频、照片、压缩文件,每天 400G 数据量,跨区复制主备容灾)

杉岩数据针对金融行业特点还研发了这些价值特性:

  • 兼容 FTP 、 CIFS/NFS 文件接口,兼容传统企业应用,实现平滑过渡
  • 兼顾小型化需求,最低一台起步,满足中小型金融企业的存储需求
  • 支持文件元数据和元数据检索,代替 ECM 功能,满足企业内容管理需求
  • 支持多数据中心容灾,实现双写数据中心的架构
  • 单系统同时支持副本和纠删码(类似分布式 RAID ),兼顾影像系统性能和存储成本型应用需求
  • 支持生命周期管理和冷热分层,根据每个文件设定的保留时间,自动移动到成本更低的存储设备上或者纠删码存储池上
  • 支持 NAS 异构管理,实现 NAS 数据的平滑迁移
  • 支持对图片、音视等媒体文件的智能处理,满足转码、压缩、格式转换、水印、旋转、切片等多种场景化需求
  • 支持和深度学习框架对接,支持 AI 能力对接,可以对接手机终端人脸识别、活体检测等业务需求
收起
软件开发 · 2020-12-15
浏览1963
非结构化数据的可靠及有效存储,可以采取不同的存储协议和存储方案,但具体采用哪一种方案,需要视具体的需求来定。比如:数据大小,对象/文件数量,访问速率要求,访问时延要求,数据安全要求,数据访问方式,活动数据改变量,这些都会影响到具体的方案选择。数据湖解决方案,支持多种访问共享...显示全部

非结构化数据的可靠及有效存储,可以采取不同的存储协议和存储方案,但具体采用哪一种方案,需要视具体的需求来定。

比如:数据大小,对象/文件数量,访问速率要求,访问时延要求,数据安全要求,数据访问方式,活动数据改变量,这些都会影响到具体的方案选择。

数据湖解决方案,支持多种访问共享协议、多种数据存储形式实现数据/存储解耦,只需要考虑目前的使用,而不需要担心以后的需求不能满足。可以大大减少选择的苦恼。

收起
硬件生产 · 2020-12-10
浏览1952

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2020-12-01
  • 关注会员:4 人
  • 问题浏览:3013
  • 最近回答:2020-12-15
  • X社区推广