lxin365
作者lxin365·2015-10-10 14:44
其它·MMA

非结构化数据处理方案

字数 1729阅读 1940评论 1赞 0

一、 非结构化数据处理需求

   企业拥有的非结构化数据增长迅速。非结构化数据是计算机或人生成的信息,其中的数据并不一定遵循标准的数据结构(如模式定义规范的行和列),若没有人或计算机的翻译,则很难理解这些数据。常见的非结构化数据有文档、多媒体内容、地图和地理信息、人造卫星和医学影像,还有 Web 内容,如 HTML。

   根据数据的创建方式和使用方式的不同,非结构化数据的管理方法大不相同。 

1. 大量数据分布于桌面办公系统(如文档、电子表格和演示文稿)、专门的工作站和设备 (如地理空间分析系统和医学捕获和分析系统)上。

2. 政府、学术界和企业中数 TB 的文档存档和数字库。

3. 生命科学和制药研究中使用的影像数据银行和库。

4. 公共部门、国防、电信、公用事业和能源地理空间数据仓库应用程序。

5. 集成的运营系统,包括零售、保险、卫生保健、政府和公共安全系统中的业务或健康记录、位置和项目数据以及相关音频、视频和图像信息。

二、 KingbaseES 数据库在处理非结构化数据的优势

2.1 全文索引与检索

虽然数据库中早已支持全文检索操作符,如LIKE操作符,但目前这类操作符很难满足现代信息系统的全文检索需求。它的不足主要体现在以下方面:

? 缺乏语言支撑

例如,通过LIKE操作检索satisfy时不能把和它具有相同词根的satisfies也一并检索出来。

? 不支持结果集rank操作

在实际应用中,全文检索的结果集通常很大。若不对这些结果进行rank操作,则用户很难从中快速挑选出所需的结果。

? 检索性能较差

这些操作符一般缺乏有效的索引支撑,因此它的检索速度用户通常难以接受。

针对上述情况,KingbaseES在文本类型数据上提供了高效的全文索引和检索功能。

KingbaseES的全文检索主要具有以下特征:

? 支持丰富的数据类型

支持CHAR、VARCHAR、TEXT或CLOB类型字段的全文检索。

? 良好的可扩展性

允许用户依据自身应用需求,创建新的数据字典、分词器或rank函数。

? 内置rank函数

除允许用户创建rank函数外,系统内部还提供基于词语相似性、共现性和重要性的通用rank函数。

? 检索文本预处理

在检索前对检索文本进行了如下处理:文本的词语标注、规范化处理(如大小写转换、词根处理)、rank计算、剔除stopword等。

? 高效的全文索引

为优化检索性能,在检索文本上创建了广义倒排索引。

目前,KingbaseES提供了两种检索方式,即传统的数据库SQL检索和全新的全文检索。二者的区别是:前者获得的是精确匹配结果,而后者获得的是非精确匹配结果。因此,在实际应用中,用户可把二者配合使用,即首先可利用全文检索的模糊匹配功能,缩小检索范围,然后在该范围内再使用传统SQL检索的精确匹配功能快速获取所需结果。

2.2 大对象类型

通常,现代信息系统的大量数据是以半结构化或非结构化的数据形式存在。数据库系统若仅能存储和管理表等结构化信息的话,则远远不能满足如今的应用需求。因此,它还应能存储和管理图片、报表、图像、音频和视频等各种半结构化或非结构化的多媒体信息。针对这种情况,KingbaseES内部提供了专门的数据类型(即大对象类型),用于存储和管理这些多媒体数据。

目前,KingbaseES支持两种大对象类型,即二进制大对象(BLOB)和字符大对象(CLOB)类型,单个大对象大小可达到2G。并在这些类型上还提供了包括大对象创建、关闭、删除、读取、写入、截断、导入、导出等操作在内的对外函数接口。

与普通字符串类型相比,KingbaseES大对象类型重点从数据存储、锁资源使用优化、事务管理和逻辑备份与还原等方面进行了特殊处理。

三、 综上所述,根据目前所了解到的信息,我们可以将非结构化数据(文档、多媒体内容、地图和地理信息、人造卫星和医学影像,还有 Web 内容)通过KingbaseES支持的两种大对象类型,即二进制大对象(BLOB)和字符大对象(CLOB)类型,单个大对象大小可达到2G。并在这些类型上还提供了包括大对象创建、关闭、删除、读取、写入、截断、导入、导出等操作在内的对外函数接口。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论1 条评论

Shane_QianShane_Qian数据库开发工程师18m
2015-10-11 00:48
好文章,虽然是介绍某个产品。
完全没结构的数据就是80%在dark中的数据。。
Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广