不是给IBM上眼药儿哈。
个人认为,IBM在大数据这块儿从来就没有什么像样的产品可以拿出手来。
所谓海量数据处理,不是一个分布式文件系统GPFS就能解决的问题。
谷歌的三驾马车解决了谷歌特有类型业务的海量数据处理需求。基于这个思想,淘宝又搭建了基于自己电商业务特点的海量数据处理架构,解决了淘宝平台上的海量数据处理需求。但是他们都去过12306,包括IBM、HP、ORACLE、淘宝,谁都没有办法解决12306的需求,因为12306的需求有自己的特点,这不是一个单一产品或者产品组合就能解决的问题。
所以千万不要再相信从厂家售前嘴里面出来的那种处理能力、最佳解决方案、智能调优、智能处理的屁话。搞清楚自己的业务特点,自己的真正需求,潜心研究一下他们推销给你的产品,去伪存真,去湿取干,选择适合自己的东西。
收起在海量数据上,IBM主要的产品有基于文件系统的spectrum scale(原GPFS)可以提供海量级别的数据存储能力(PB级)以及高速的带宽. 广泛运用于高性能计算以及海量存储上。GPFS目前可以说是速度最快的分布式文件系统之一,技术成熟度比较高,有超过10年的历史,而在客户数量以及成功部署上也比较出众。
而在后端数据备份部分,IBM有高性能和高密度的磁盘带库,在大型媒体,金融业有广泛的运用。而像最新的TS4500高密度带库适合用于几十个PB以上的数据存储,单位空间里能存放的数据远大于同类产品
收起IBM 存储系列V7000 V5000 V3500都可以考虑下。IBM V5000 具备高度的灵活性和易管理性,兼容并自适应一切网络环境、集群扩展和虚拟化管理。在满足企业性能、成本需求的同时,贴合成长型企业灵活部署和横向扩展的需求。
收起如果说数据库产品的话。 SequoiaDB 勉强算一个吧。不过都是原来IBM DB2的团队搞的 ,不是现在的团队。不过应用环境是以大批量的数据导入为主,大批量的读为主,插入,更新的响应较慢。
收起刚才分析了存储这块,其实在服务器这块也是有一些考虑点的。
目前处理海量数据的服务器都是通过集群来完成的,目前IBM的Power Linux配合一些开源解决方案例如Spark等,能够实现数倍于等量x86的性能。
在实际配备时,通常会以较少的Power Linux取代x86的环境,从而实现较低的能耗,和较少的占地面积。
另一方面由于设备的减少,管理人员的开销也现对较少,整体的系统维护费用也就得到显著下降
收起