我先分享一下我们对“结构化”和“非结构化”的理解:狭义的理解:结构化就是指关系型数据,其余都是非结构化数据广义的理解:结构化是相对于某一个程序来讲的,例如视频对于播放器来说显然是结构化的,但是对于文本编辑器来说就是非结构化的事实上,即使是人脑,处理的也都是“广义的”...
显示全部我先分享一下我们对“结构化”和“非结构化”的理解:
狭义的理解:结构化就是指关系型数据,其余都是非结构化数据
广义的理解:结构化是相对于某一个程序来讲的,例如视频对于播放器来说显然是结构化的,但是对于文本编辑器来说就是非结构化的
事实上,即使是人脑,处理的也都是“广义的”结构化数据。你可以想象,自己在注视一张照片时,脑海中形成的一定不是一个一个像素点,而是抽象过的一些属性!
按照我们上面的理解,无论是语音、影像还是其它“狭义”的非结构化数据,只要我们有工具可以将这些数据转化成我们关心数据结构,那就可以作为大数据应用的一个数据源,后续由针对这类数据的的特定工具处理即可。这里举一个例子:通常我们认为HTML网页,例如电商的单品页面,是非结构化的,因为我很难从中提取出结构化字段,例如商品名称、价格等。但通过互联网抓取系统,我们可以将这些页面转化为结构化字段,那么后续按照结构化数据处理即可。语音、影响也是一样,关键是我们期望从中提取什么信息,用什么工具提取,一旦提取成功,即可整合到大数据应用中。
在百分点的实践中,我们已经完全整合了网页、文本、JSON、XML等非结构化数据,部分整合了图像和语音数据,这些内容都已经应用到了业务中。
收起