TB级别的数据量,在系统层面需要考虑到三个方面1. CPU和内存:特别要考虑cpu能力强,内存带宽大的系统2. IO能力:无论是MR或者Spark,都会都大量的数据写入磁盘,所以IO往往会成为瓶颈,所以尽量多配置硬盘,有条件的可以配置SSD3.
Hadoop和ELK这些软件平台的共同特点就是数据量很大,需要响应的时间要快。所以对于系统要求CPU处理能力,多线程能力,数据传输能力有很强的要求:1. CPU处理能力上,基于最新Power8芯片技术的PowerLinux,有更高的主频,平均主频在
工具总是为业务需求服务的,IBM面对各种数据服务都有对应解决方案:1. 日志分析,非结构化处理:IBM和hortonwork,pivtal一起发布了IOP,统一规范了hadoop的各个版本。另外有biginsight的发行版2. 数据仓库:MPP-DB2 DPF3. 内存列
是的,可以。
最初hadoop的发布,是基于google的几篇论文,所以可以看出,hadoop最初的设计是和互联网密不可分的。但是随着IT的不断发展,各种数据蜂拥而至,所以hadoop逐渐成为主流的大数据平台,特别在一些电信,银行,互联网方面用的最为广泛。
同意楼上
Spark是hadoop的计算框架,是由伯克利大学最初设计的算法,使得计算基本都在内存中进行,用于加速传统的MapReduce,特别shuffing的过程。目前很多大数据平台都采用这个计算框架。
有sqoop能工具可以帮忙做迁移。基于经分几百个TB的规模,我们在某省移动采用了hadoop+NoSQL的方案,比greenplum性能提升了5倍左右。
考虑几点吧1, CPU要强,最好主频高,支持并发多线程。2. 内存要大,特别是Spark,基本数据都在内存中,内存大小直接对性能有影响。3. 内部通道要宽,CPU到内存,CPU到IO的数据通道。4. 网络要好,在分布式环境下,节点间的通信以及数据
Job的优化一直是分布式计算的核心,最关键是要知道哪些job执行时间长,影响整个计算模型的结果,然后 通过调整split大小,改变中间文件类型等手段加速。
关于TWT使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们 © 2024 talkwithtrend — talk with trend,talk with technologist京ICP备09031017号-30