微博数据分析数据存储方案选择

微博数据有图片跟文字,想做对图片和文字的处理,在此基础上做模式识别。现在对于数据存储的方案很难抉择, 考虑高可扩展性,高读写。因为数据的多样性: 图片和文本。有没有人给些设计的建议?用不同的存储技术或者用NoSQL (,MySQL, MongoDB, Hadoop, 还是Spark)的一种。谢谢!...显示全部

微博数据有图片跟文字,想做对图片和文字的处理,在此基础上做模式识别

现在对于数据存储的方案很难抉择, 考虑高可扩展性,高读写。

因为数据的多样性: 图片和文本。有没有人给些设计的建议?用不同的存储技术或者用NoSQL (,MySQL, MongoDB, Hadoop, 还是Spark)的一种。谢谢!

收起
参与19

查看其它 1 个回答美国队长的回答

美国队长美国队长研发工程师Alibaba

考虑数据分析存储=分析+存储,存储的高效必然会给后面的分析带来便利,还得先分析你一下你对微博这批数据今后会进行怎样的分析其次再决定使用什么技术。业务决定技术,技术支撑业务。

互联网服务 · 2015-10-14
浏览1390
  • 如果是做情感分析的话 伍侠有什么建议? 谢谢!
    2015-10-14
  • 其实题目里说了做模式识别,pattern mining 或者pattern recognition
    2015-10-14
  • 不好意思,我没接触过微博数据所以你说的模式识别具体是什么意思起初可能没理解。但是你要说是情感分析的话,我可以跟你分享一下之前的一个场景,将文本跟图片分开存储, 将两者的关系可以保存在hbase中重点考虑hbase表中key的设置 对于文本而言可以抽象成一个文本分词大表(原始微博信息)跟一个词库小表进行关联进而进行对文本内容情感识别打标,可以考虑先用分词工具对文本信息分词这个选型比较多如analyzer-paoding等然后将结果导入到Hive中,另外标准词库也导入到hive中,通过mapjoin实现大表跟小表关联, 至于图片可以保存在hdfs中对于这种二进制文件读取可以用SequenceFile读取,具体的图片怎么识别这个是涉及公司机密恕不列出 最后存在一个文本分析结果跟图片的分析结果,通过hbase中的简单查询关联得到结果
    2015-10-14
  • 首先从业务层面要解决的问题就是,如何去解决存储微博中的互动消息,这个存储要求是可横向扩展的(当然你可以选择一些关系型数据库的集群)。存储的问题解决了,就要解决如何快速的查询。所以推荐了HBase。 至于你说的对于这些数据进行分析,我想目前做的好的,无非就是推荐了,这个要讲到了算法问题了,可以去看看Mahout,里面的算法还是比较经典的。
    2015-10-14

回答者

美国队长
研发工程师Alibaba
擅长领域: 大数据大数据平台数据库

美国队长 最近回答过的问题

回答状态

  • 发布时间:2015-10-14
  • 关注会员:7 人
  • 回答浏览:1390
  • X社区推广