loveryue

loveryue

软件开发工程师IBM

回答

银行平台架构
回答于 · 2016-06-02

当数据量达到TB级以上，如何避免平台架构出现性能瓶颈？

TB级别的数据量，在系统层面需要考虑到三个方面1. CPU和内存：特别要考虑cpu能力强，内存带宽大的系统2. IO能力：无论是MR或者Spark，都会都大量的数据写入磁盘，所以IO往往会成为瓶颈，所以尽量多配置硬盘，有条件的可以配置SSD3.

赞同1
银行 powerLinux
回答于 · 2016-06-02

Powerlinux支撑hadoop、ELK等开源平台相比X86有哪的优势？

Hadoop和ELK这些软件平台的共同特点就是数据量很大，需要响应的时间要快。所以对于系统要求CPU处理能力，多线程能力，数据传输能力有很强的要求：1. CPU处理能力上，基于最新Power8芯片技术的PowerLinux，有更高的主频，平均主频在

赞同4
银行大数据
回答于 · 2016-06-02

IBM在大数据中有什么推荐的软件工具不？

工具总是为业务需求服务的，IBM面对各种数据服务都有对应解决方案：1. 日志分析，非结构化处理：IBM和hortonwork，pivtal一起发布了IOP，统一规范了hadoop的各个版本。另外有biginsight的发行版2. 数据仓库：MPP-DB2 DPF3. 内存列

赞同4
软件开发银行 LinuxONE 银行前置系统整合
回答于 · 2016-06-02

在LinuxOne中是否可以使用存储

是的，可以。

赞同3
IT咨询服务 Hadoop
回答于 · 2016-06-02

目前哪些行业用hadoop比较多？

最初hadoop的发布，是基于google的几篇论文，所以可以看出，hadoop最初的设计是和互联网密不可分的。但是随着IT的不断发展，各种数据蜂拥而至，所以hadoop逐渐成为主流的大数据平台，特别在一些电信，银行，互联网方面用的最为广泛。

赞同2
银行日志分析
回答于 · 2016-06-02

应用系统改造

同意楼上

赞同
IT咨询服务 spark
回答于 · 2016-06-02

什么是spark？

Spark是hadoop的计算框架，是由伯克利大学最初设计的算法，使得计算基本都在内存中进行，用于加速传统的MapReduce，特别shuffing的过程。目前很多大数据平台都采用这个计算框架。

赞同3
医药电信 Hadoop spark
回答于 · 2015-11-06

电信行业现有的IOE架构怎么迁移至spark，IBM streams平台架构

有sqoop能工具可以帮忙做迁移。基于经分几百个TB的规模，我们在某省移动采用了hadoop+NoSQL的方案，比greenplum性能提升了5倍左右。

赞同
电信运营商大数据电信 X86
回答于 · 2015-11-06

对计算资源（虚拟机或者物理主机，X86）的配置要求是否有计算模型？

考虑几点吧1, CPU要强，最好主频高，支持并发多线程。2. 内存要大，特别是Spark，基本数据都在内存中，内存大小直接对性能有影响。3. 内部通道要宽，CPU到内存，CPU到IO的数据通道。4. 网络要好，在分布式环境下，节点间的通信以及数据

赞同1
互联网服务系统运维 Hadoop
回答于 · 2015-11-06

HADOOP比JOB更消耗资源，怎样的建构使物理资源得到充分的发挥?

Job的优化一直是分布式计算的核心，最关键是要知道哪些job执行时间长，影响整个计算模型的结果，然后通过调整split大小，改变中间文件类型等手段加速。

赞同

关于 loveryue

用户名： loveryue
职位：软件开发工程师
公司： IBM
行业：互联网服务
社区声望：795
荣誉等级：0

关注TA的人

更多关注TA的人 >>

关于TWT 使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们
© 2024 talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30

X社区推广