chenjiaxing
作者chenjiaxing·2020-11-24 20:28
系统架构师·浪潮商用机器有限公司

某运营商基于POWER Linux和GPFS搭建大数据集群案例介绍及经验总结

字数 2375阅读 2484评论 0赞 0

一、案例介绍

   某省运营商基于 IPS POWER Linux 服务器搭建的大数据平台,主要用于重点领域大数据的高效采集和分析,挖掘数据价值。迄今为止,已建成集群平台规模达超过 100 个节点,存储容量超过 4PB ,每天处理的任务超过 3000 个,承载上网日志查证、客户标签体系构建、 APP 应用识别、实时营销、网管集中性能监控管理等公司内部业务,同时依托大数据平台,构建大数据能力开放生态链,与交通部、省高速等政企合作,实现大数据价值快速变现。

   大数据平台使用 GPFS-FPO 作为企业级的分布式文件系统, IBM GPFS-FPO 作为企业级的分布式文件系统,具有安全、稳定、 POSIX 兼容、对文件类型支持灵活等特点,特别适合企业级环境的分布式文件存储与共享;采用 IBM Symphony 作为企业级的分布式计算调度中间件,能灵活应对多租户大数据应用场景下的资源管理和任务调度需求,实现多应用多用户的资源共享、安全隔离及 SLA 保障,实现等多种大数据应用的调度和管理。

二、客户收益

  • 提高资源利用率:多个大数据应用共享一套资源平台,大大提高了资源利用率, 20 小时可以达到资源使用率平均 80% 以上。
  • 保障应用 SLA :基于应用 SLA 的任务调度和资源管理方式,保障关键应用的 SLA 。
  • 提高运维管理水平:完善的大数据平台管理中心,图形化监控管理用户、作业和资源。
  • 提高大数据平台可靠性: IPS Powerlinux 作为创新的新一代应用服务器,具有性能高、安全可靠、配置灵活、性价比高等特点,保证了系统稳定运行,实现 7*24 小时业务连续性。

三、经验总结

  1. 合理的架构设计能有效降低后期运维工作量
  • 在架构设计时,要充分考虑大数据平台的特性并进行针对性的设计、优化。一个优秀的架构能有效降低后期的运维成本 ;
  • 对并行文件系统 metadata 盘的合理规划;
  • 与应用结合,将海量的小文件合并成较大的文件、减少文件数量,避免大并发下资源的竞争;
  • 采用高性能的服务器,加快数据分析效率。大数据技术平台的出现提升了数据处理效率,其效率的提升是几何级数增长的,过去需要几天或更多时间处理的数据,现在可能在几分钟之内就会完成。大数据的高效计算能力,为企业节省了更多的时间。因此,企业级大数据平台使用高性能的计算节点,能更高效快速地处理和分析数据。
  • 采用高稳定性的服务器,减少设备宕机引发的维护工作等。虽然分布式文件系统一般有 3 份的数据保护,但如果集群中的节点频繁宕机,有可能造成 metadata 等元数据损坏,而对海量的数据进行 fsck 等操作,会浪费大量的时间成本和人力成本。
  1. 制定运维标准规范

规范制定和落实:大数据系统平台需面对接口部门多、上层承载业务各式各样、厂家技能不一等问题。需要构建一套大数据应用的开发、运维标准,明确多方职责及规章制度,制定和落实大数据平台设备入网、资源申请及业务上线、大数据平台使用等流程规范。

  1. 加强系统监控
  • 企业级大数据平台涉及底层硬件、操作系统、分布式文件系统、开源数据库、作业调度与资源分配系统等,每个系统都是相互依赖,牵一发而动全身。因此需要对各系统进行有效监控,提前预防可能存在的风险。
  • 加强对主机资源的监控,特别是对分布式文件系统空间使用率的监控。由于大数据平台是对海量数据进行分析处理,中间产生的临时数据和最终分析数据会占用大量存储空间,当文件系统空间使用率达到 70% 时,需要及时进行数据的清理,并将部分任务切换到备用平台,降低系统的工作负载。
  • 增加网络专业的监控和应急处理能力。网络抖动对分布式集群影响极大,需要加强网络状态的监控,网络相关的参数调整和安全加固也需要仔细审核和测试。
  • 加强对集群总体资源使用情况的实时监控。不仅限于单个节点的监控,而且要侧重于集群整体健康状况的监控,比如特别需要关注节点的性能均衡和数据均衡性,关注节点间的通信状况。
  • 加强租户使用资源情况的监控,包括每个租户 Job 完成情况及当前所分配的资源情况,各个租户最近 24 小时运行的 Job 任务数,了解各个租户 Job 调度情况,进而合理安排各个租户的任务调度。
  • 监控 job 的运行情况。每个租户会运行不同的 Job ,掌握各个租户每天 Job 运行情况,需要清楚 Job 相关信息,包括 Job 名称、 Job 运行状态、所属租户、运行时间、运行时长、期望多少资源、实际分配多少资源等。

4.GPFS-FPO 集群的优化建议

  • GPFS-FPO 的稳定性与网络、服务器的稳定性有很大的关系,因此要先保证服务器和网络的稳定,才能进一步保证 Gpfs-fpo 集群的稳定。
  • GPFS-FPO 集群建议使用万兆网卡,不建议使用千兆网卡(特别是对于要求 I/O 带宽高,延时低的应用)。
  • 建议大数据平台 GPFS-FPO 集群中的设备连接同一台网络交换机,不要同时分布在多台网络交换机上,避免网络交换机之间的带宽不足及网络抖动影响到集群性能和稳定性。
  • GPFS-FPO 的 metadata 盘容易成为集群中的性能瓶颈,建议使用高性能的 SSD 盘,可以避免元数据无法及时更新导致的各种问题(如文件系统 du 与 df 查到的大小不一致,数据删除非常慢等),同时可以提升维护效率(使用普通盘做为 metadata 盘时,删除集群中的一块数据盘用时大约 2-4 小时,加盘时间为 40 分钟;使用 ssd 盘做为 metadata 盘时,删除一块数据盘的时间大约 10-15 分钟,加盘时间为 5 分钟)。
  • 目前 GPFS-FPO 单个文件系统最大支持的磁盘数量是 2048 块,要注意做好文件系统的规划。
  • 对于承载 GFPS-FPO 的 PowerLinux 设备,建议使用最新的固件版本,包括系统固件、 RAID 卡、网卡等设备。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广