活动简介
Ceph是一个可靠地、自动重均衡、自动恢复的分布式存储系统,根据场景划分可以将Ceph分为三大块,分别是对象存储、块设备存储和文件系统服务。在虚拟化领域里,比较常用到的是Ceph的块设备存储,比如在OpenStack项目里,Ceph的块设备存储可以对接OpenStack的cinder后端存储、Glance的镜像存储和虚拟机的数据存储,比较直观的是Ceph集群可以提供一个raw格式的块存储来作为虚拟机实例的硬盘。
Ceph相比其它存储的优势点在于它不单单是存储,同时还充分利用了存储节点上的计算能力,在存储每一个数据时,都会通过计算得出该数据存储的位置,尽量将数据分布均衡,同时由于Ceph的良好设计,采用了CRUSH算法、HASH环等方法,使得它不存在传统的单点故障的问题,且随着规模的扩大性能并不会受到影响。
企业在实际Ceph遇到的五大问题:
一.扩容问题
Ceph中数据以PG为单位进行组织,因此当数据池中加入新的存储单元(OSD)时,通过调整OSDMAP会带来数据重平衡。正如提到的,如果涉及到多个OSD的扩容是可能导致可用PG中OSD小于min_size,从而发生PG不可用、IO阻塞的情况。为了尽量避免这种情况的出现,只能将扩容粒度变小,比如每次只扩容一个OSD或者一个机器、一个机柜(主要取决于存储隔离策略),但是这样注定会带来极大的运维工作量,甚至连扩容速度可能都赶不上数据增长速度。
二.数据迁移过程中的IO争用问题
在频繁数据迁移过程中带来的IO争用问题。当集群规模变大后,硬盘损坏、PG数量扩充可能会变得常态化。
三.PG数量调整问题
在解决了数据迁移过程中的PG可用性问题和IO争用问题后,提到的PG数量调整问题自然也就解决了。
四.集群利用率问题
存储成本问题主要是讲集群可用率问题,即:Ceph集群规模增大后,伪随机算法导致了存储资源分布不均衡,磁盘利用率方差过大的问题。
五.运维复杂度问题
Ceph本身是一个十分复杂的体系,要做到稳定运维非常看重团队的实力。
针对以上大家日常遇到的几类问题,twt社区会组织Ceph领域专家进行线上的答疑交流,您可以根据您在日常运维ceph过程中遇到的难点问题以及故障问题进行提出,社区Ceph专家会进行线上根据大家的问题进行分享解答。
答疑嘉宾:
李航 滴滴 存储架构师
多年的底层开发经验,在高性能nginx开发和分布式缓存redis cluster有着丰富的经验,目前从事分布式存储Ceph工作。先后在58同城、汽车之家、优酷土豆集团工作。 目前供职于滴滴基础平台运维部-技术专家岗位,主要负责分布式Ceph系统。个人主要关注的技术领域:高性能Nginx开发、分布式缓存、分布式存储。
zhuqibs 某国内著名餐饮连锁企业 运维负责人
从事过数据库、大数据和容器集群的工作,对DevOps流程和工具方面有比较深刻的理解。
宁泽阳 中信银行信用卡中心 IT系统运营管理
主要负责IaaS云平台、分布式存储等IT基础设施的规划建设等运维工作。