活动简介
海量非结构化数据本身有着数据容量庞大(规模达到TB级、PB级甚至EB级 ),数据类型繁多(如流媒体、文本、图片等多种类型),数据时效性高(响应时效要控制在用户可容忍和接受范围)等特点。
在大数据环境下,如何能够快速处理格式各异的海量非结构化数据,有着诸多问题亟待解决。诸如,如何选用合适的存储模型、进行分级存储、如何选择NoSQL数据库工具及调优、如何对海量数据进行分区操作、建立广泛的索引、建立缓存机制、如何使用临时表和中间表、优化查询语句、使用文本格式进行处理、定制强大的清洗规则和出错处理机制等等。
针对其特点和企业应用场景需求,业内大致有以下几种解决方案,值得进行讨论:
1、使用传统NAS存储,NAS存储所提供的基于文件或者块的存储方式,适合存放非结构化数据。
2、分布式文件系统DFS,如 IBM的GPFS、Hadoop分布式文件系统HDFS等。
3、对象存储,按需提供各种类型的非结构化数据的服务接口。
4、NoSQL类数据库,如面向key-value类的Redis、面向列存储的Hbase、面向文档类的MongoDB等。
以上几种解决方案,针对性和需求也各不相同,本次活动的目的,是结合如上解决方案,帮助企业寻找出处理海量非结构化数据的潜在优化点,共同探讨如何能有效地针对海量非结构化数据进行深度性能分析和评测,提升数据吞吐量,实现对其调优和有效管理。