非结构化数据处理与大数据应用的关系,是否能整合?

1、对于非结构化数据,如语音、影像文件,其结构化或半结构化信息提取目前多是通过专有软件处理,未来该部分处理与大数据应用的关系,是否有进一步整合的可能。
参与4

2同行回答

百分点百分点技术总监百分点
我先分享一下我们对“结构化”和“非结构化”的理解:狭义的理解:结构化就是指关系型数据,其余都是非结构化数据广义的理解:结构化是相对于某一个程序来讲的,例如视频对于播放器来说显然是结构化的,但是对于文本编辑器来说就是非结构化的事实上,即使是人脑,处理的也都是“广义的”...显示全部
我先分享一下我们对“结构化”和“非结构化”的理解:
狭义的理解:结构化就是指关系型数据,其余都是非结构化数据
广义的理解:结构化是相对于某一个程序来讲的,例如视频对于播放器来说显然是结构化的,但是对于文本编辑器来说就是非结构化的
事实上,即使是人脑,处理的也都是“广义的”结构化数据。你可以想象,自己在注视一张照片时,脑海中形成的一定不是一个一个像素点,而是抽象过的一些属性!

按照我们上面的理解,无论是语音、影像还是其它“狭义”的非结构化数据,只要我们有工具可以将这些数据转化成我们关心数据结构,那就可以作为大数据应用的一个数据源,后续由针对这类数据的的特定工具处理即可。这里举一个例子:通常我们认为HTML网页,例如电商的单品页面,是非结构化的,因为我很难从中提取出结构化字段,例如商品名称、价格等。但通过互联网抓取系统,我们可以将这些页面转化为结构化字段,那么后续按照结构化数据处理即可。语音、影响也是一样,关键是我们期望从中提取什么信息,用什么工具提取,一旦提取成功,即可整合到大数据应用中。
在百分点的实践中,我们已经完全整合了网页、文本、JSON、XML等非结构化数据,部分整合了图像和语音数据,这些内容都已经应用到了业务中。收起
互联网服务 · 2015-07-03
浏览2347
wanglei2015wanglei2015信息分析/架构师光大银行
谢谢......显示全部
谢谢......收起
银行 · 2015-07-03
浏览2345

提问者

wanglei2015
信息分析/架构师光大银行

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2015-07-03
  • 关注会员:0 人
  • 问题浏览:4228
  • 最近回答:2015-07-03
  • X社区推广