TerrenceX
作者TerrenceX2018-12-13 15:40
存储架构师, IBM

IBM Spectrum Discover——为EB级非结构化数据存储提供卓越洞察力

字数 3346阅读 5363评论 1赞 10

在企业数字化转型的大潮中,非结构化数据总量迎来了爆炸式的增长。Forrester最新的分析调查报告显示,受调查的企业中,非结构化数据总量超过PB级的企业,已经从2016年的13%快速增长到了2017年的38%。很明显,这意味着PB级非结构化数据的企业占比在短短一年之内就增长到近3倍!这让企业存储管理员倍感焦虑于如何能够用现有的存储架构满足快速增长的存储空间需求。

4q8dcmcuz4f

4q8dcmcuz4f

在大家以为存储容量是唯一的挑战时,缺失的数据可视化管理却为存储管理员和海量非结构化数据的用户带来了更多的困难。存储管理员常常发现,仅凭系统元数据并不能提供有效的细粒度的存储用量和数据质量视图,但这对于存储优化却是必需的。对于需要花费大量时间搜索数据的数据科学家、业务分析师和知识工作者来说,基本的系统元数据也远远不够。而数据管理员则需要努力的识别包含机密或敏感数据的文件和对象(记录)。

为了克服这些非结构化数据的挑战,大型企业正在积极寻找可视化的元数据管理解决方案。一旦组织对其非结构化数据有了清晰的理解,他们就可以更好的优化存储系统,降低风险,并利用非结构化数据的价值获得竞争优势和关键数据洞察力。

什么是元数据(Metadata)?

通俗的来讲,元数据指的就是关于数据的数据。例如一个word文档,它的作者、文件类型、创建时间、修改时间、访问时间等都属于这个文档的元数据。

元数据又分为系统元数据(System Metadata)和自定义元数据(Custom Metadata):

• 系统元数据:就是上面提到的作者、文件类型、创建时间、修改时间、访问时间等系统自带的数据信息
• 自定义元数据:用户定义的文件属性信息,例如文件所属的部门,所在的项目,涉密级别等信息

njpy0kdw9kj

njpy0kdw9kj

IBM Spectrum Discover是一款现代化元数据管理软件,它可以为EB级的非结构化数据存储提供数据洞察。IBM Spectrum Discover可以轻松连接到IBM Cloud Object Storage云对象存储和IBM Spectrum Scale并行文件系统。

cu62e83ny7e

cu62e83ny7e

IBM Spectrum Discover可以快速抓取、整理和索引数十亿个文件和对象的元数据,然后在这些数据源之上提供一个高效的、丰富的元数据索引库和集中管理层。这些元数据使数据科学家、存储管理员和数据管理员能够有效地对海量非结构化数据进行管理、分类,并从中获得洞察。这将极大的改进大数据分析过程,加快关键研究的速度,提高存储的经济性,降低风险,从而创造企业竞争优势。

ps4b5646vs

ps4b5646vs

IBM Spectrum Discover的亮点包括:

• 事件通知和策略驱动的EB级自动化元数据抓取和元数据索引
• 基于系统元数据和自定义元数据的细粒度存储监控视图
• EB级数据的快速、高效检索能力
• 能够快速区分关键型业务数据、温数据和冷数据
• 策略驱动的自定义标签(tag)标注能力,使组织可以按照业务需求对海量非结构化数据进行自动化分类
• 提供构建Action Agent的软件开发工具包(SDK):

  • 从文件头和内容中提取元数据
  • 自动化数据迁移
  • 与开源软件的集成,例如Apache Spark,Apache Tika,PyTorch,Caffe和TensorFlow,这有助于加速数据识别和大规模数据处理能力

73regg2f5bf

73regg2f5bf

策略驱动的自动化元数据标记(tagging)能力

IBM Spectrum Discover通过多种渠道获取元数据,并构建一个集中式的元数据管理平台:
1)自动从数据源中捕获系统元数据
2)从搜索结果创建自定义元数据
3)使用IBM Spectrum Discover的Action Agent API从文件头和内容中提取关键字元数据

下面是策略驱动的元数据标记的工作原理:
用户通过IBM Spectrum Discover创建策略,策略中会设置触发条件,执行周期和标签名称。这些策略可以被应用于任何数据集合。

tsn6cwctisb

tsn6cwctisb

例如,利用策略引擎存储管理员可以非常轻松的完成历史数据的归档。首先他们利用搜索功能查找业务部门拥有的且在指定的时间段内(例如,超过一年)未访问的数据。然后,他们从下拉列表中选择预定义的“archive_pol”策略,ARCHIVE tag将自动应用于所有结果数据集合。策略可以作为一次性事件执行,也可以安排定期运行。使用策略创建的任何新标记都将被索引并且可以被立即搜索。

hnb26zmf76l

hnb26zmf76l

sbf6rp9hdlk
sbf6rp9hdlk

在数十亿个元数据中快速搜索所需数据

IBM Spectrum Discover提供基本搜索框和高级搜索功能,以帮助用户快速查找已索引的数据集合。搜索结果通过列表显示,并包含与搜索条件相关的全部信息。用户可以通过基于角色的访问控制管理用户可见或不可见的数据内容。

am4gvbt0r1r

am4gvbt0r1r

熟悉SQL语法的用户可以在搜索框中输入搜索字符串。或者通过IBM Spectrum Discover提供的搜索窗格中预定义的选择框来过滤结果数据。例如,“Datasource”选择框允许用户选择一个或多个数据源。 “Last Accessed Time”选择器允许用户根据上次访问数据的时间指定时间范围。 “Size”选择器允许用户根据文件大小识别数据。这些搜索功能允许用户任意组合。

可视化的仪表板和自定义报告

IBM Spectrum Discover仪表板可以一目了然地展示用户的存储环境。用户可以通过基于角色的访问控制管理用户可见或不可见的内容。仪表板以图形化方式展示所有被IBM Spectrum Discover索引的数据信息,从而允许为用户提供一个可视化的数据环境。例如,仪表板可以显示其已接入的数据源(Spectrum Scale, Cloud Object Storage)的使用情况与容量,潜在的重复文件,以及项目或用户在如何使用存储空间。

urgftw4mdi

urgftw4mdi

对于需要更多详细信息的用户,IBM Spectrum Discover提供了可自定义的信息报告。包括摘要报告和详细报告。摘要报告主要包含统计信息,详细报告则提供系统中与报告的过滤条件匹配的每条数据的详细信息。

目前IBM Spectrum Discover已经开箱支持IBM Cloud Object Storage和IBM Spectrum Scale。未来将进一步扩展支持更多第三方文件系统和对象存储产品。IBM Spectrum Discover可以扫描高达每秒30000条数据记录。它基于监听实时事件消息(包括文件/对象的创建、修改、删除等操作)自动抓取文件/对象的元数据信息,并将其写入到内置的索引库中。文件系统和对象存储几乎无需任何改变即可获得IBM Spectrum Discover的支持。

IBM Spectrum Discover可以为企业提供显著的洞察能力:
• 数据治理:降低风险、改进数据质量和生命周期管理
• 存储优化:通过合理的数据分级存储和合理的高可用保护提高存储利用率并降低成本
• 大数据分析:利用策略驱动的自动化标签标注能力为海量的非结构化数据分析提供数据描述,数据分类,数据标识,显著提高大数据分析效率

写在最后

数据已经成为企业的核心资产,而数据的价值体现在我们如何利用数据。这是一个数据驱动的世界。企业的决策和战略已经越来越多的依赖于对数据的洞察。

今天绝大多数企业已经建设或着正在准备建设非结构化数据存储资源池。在面对越来越多非结构化数据的种类,例如影像、录音、图片、文档、备份数据、归档数据,和更大的存储空间需求时(百TB、PB甚至EB级)往往会产生一个问题 – 企业该如何利用这些海量的非结构化数据资产产生业务价值?IBM Spectrum Discover可以帮助客户快速的认知企业非结构化数据,快速的检索和发现业务所需要的数据,满足现在或未来在大数据分析、深度学习、机器学习和AI等场景中对数据的标签标注需求,实现企业对海量非结构化数据的可视化管理。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

10

添加新评论1 条评论

#wuwenpin软件开发工程师, 南京
2018-12-13 15:54
感谢分享!
Ctrl+Enter 发表

本文隶属于专栏

新品解读
不同的趋势领域,总会不断有新的产品进行发布。但是新的产品价值如何结合用户需求被解读出来,让更多的企业用户迅速建立对产品优劣势的价值了解。能够把企业群体的需求进行抽练,并且同时让产品的价值对接后还能通俗易懂的解读出来,作者往往不是来自某一个人,而是一个团队。

关于TWT  使用指南  社区专家合作  厂商入驻社区  企业招聘  投诉建议  版权与免责声明  联系我们
© 2019  talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30