非结构化数据处理与大数据应用的关系,是否能整合?

1、对于非结构化数据,如语音、影像文件,其结构化或半结构化信息提取目前多是通过专有软件处理,未来该部分处理与大数据应用的关系,是否有进一步整合的可能。 显示全部
1、对于非结构化数据,如语音、影像文件,其结构化或半结构化信息提取目前多是通过专有软件处理,未来该部分处理与大数据应用的关系,是否有进一步整合的可能。 收起
参与4

查看其它 1 个回答百分点的回答

百分点百分点技术总监百分点
我先分享一下我们对“结构化”和“非结构化”的理解:
狭义的理解:结构化就是指关系型数据,其余都是非结构化数据
广义的理解:结构化是相对于某一个程序来讲的,例如视频对于播放器来说显然是结构化的,但是对于文本编辑器来说就是非结构化的
事实上,即使是人脑,处理的也都是“广义的”结构化数据。你可以想象,自己在注视一张照片时,脑海中形成的一定不是一个一个像素点,而是抽象过的一些属性!

按照我们上面的理解,无论是语音、影像还是其它“狭义”的非结构化数据,只要我们有工具可以将这些数据转化成我们关心数据结构,那就可以作为大数据应用的一个数据源,后续由针对这类数据的的特定工具处理即可。这里举一个例子:通常我们认为HTML网页,例如电商的单品页面,是非结构化的,因为我很难从中提取出结构化字段,例如商品名称、价格等。但通过互联网抓取系统,我们可以将这些页面转化为结构化字段,那么后续按照结构化数据处理即可。语音、影响也是一样,关键是我们期望从中提取什么信息,用什么工具提取,一旦提取成功,即可整合到大数据应用中。
在百分点的实践中,我们已经完全整合了网页、文本、JSON、XML等非结构化数据,部分整合了图像和语音数据,这些内容都已经应用到了业务中。
互联网服务 · 2015-07-03
浏览2327

回答者

百分点
技术总监百分点
擅长领域: 大数据大数据平台数据库

百分点 最近回答过的问题

回答状态

  • 发布时间:2015-07-03
  • 关注会员:0 人
  • 回答浏览:2327
  • X社区推广