为什么说hadoop在电信行业中占据了非常重要的地位,我的观点是:
1、每个终端用户、互联网用户,每次手指触动、鼠标触动都是触发了一个事件,这个事件就是大数据的数据来源
2、hadoop核心组件之一HDFS是具备分布式的特性,一次写入多点读取,多点备份,保障了数据的可读性和安全性
3、核心组件之二MapReduce充分和hdfs结合,来多维度分析统计数据
4、HIVE基于HDFS的SQL查询也大大减轻了人工编写MR的过程
5、hbase的底层存储等。
这个问题没有标准答案,我是胡言乱语几句纯粹看热闹的心态:
1、Hadoop有良好的生态圈,包含的东西是应有尽有,分布式文件系统有HDFS,内置分布式处理MapReduce其它还加上Tez、spark,Nosql有HBase和Cassandra,机器学习有mahout,上层有Hive、Pig等,良好的生态圈就意味着出了问题有人问,可以咨询,而且发展很迅速,和其它工具的集成也容易
2、开源方案,意味着廉价,相比分布式的OLAP系统,这个方案简直就是白送,大数据就意味着电信收集了很多不那么重要的数据,要在沙子里面掏出金子,买一个很贵的方案老板也不会同意,那就用这个凑合
3、其它:Hadoop良好的分布式并行处理,可加机器近乎无限扩展,性能不行就堆机器且不说性能也在逐渐提高,此外,资本的大力鼓吹等也起到了部分作用
1、对于运营商TB级别的数据来说,Hadoop平台可以进行数据处理,传统ORACLE等SMP数据库无法做到
2、Hadoop平台较为稳定,并可线性扩展,同时周边工具、接口等较多,可实现多种业务场景
3、Hadoop平台使用X86集群,价格较低
4、Hadoop社区较为活跃,学习成本较低,成熟案例较多
收起应该是在通讯、金融都占据了重要地位,移动,联通每天的数据量都在几百TB,这个量不比FB少,但如何利用好这些数据,挖掘出这些数据的价值,目前Hadoop只是其中一种比较常用的方法,MR已经有快被Spark替代的苗头,而HDFS目前看来还是发展得不错,没有被颠覆掉的情况,而且在其之上又发展出来了Tachyon分布式内存文件系统。但Hadoop生态与Spark生态不知道能不能很好的融合。
对于多维数据的分析统计,可以试一下,eBay的Kylin,一个MOLAP引擎,已经在eBay,百度,东京都有使用。
收起