Ceph日常运维难点及故障解决在线答疑

活动简介

Ceph是一个可靠地、自动重均衡、自动恢复的分布式存储系统，根据场景划分可以将Ceph分为三大块，分别是对象存储、块设备存储和文件系统服务。在虚拟化领域里，比较常用到的是Ceph的块设备存储，比如在OpenStack项目里，Ceph的块设备存储可以对接OpenStack的cinder后端存储、Glance的镜像存储和虚拟机的数据存储，比较直观的是Ceph集群可以提供一个raw格式的块存储来作为虚拟机实例的硬盘。

Ceph相比其它存储的优势点在于它不单单是存储，同时还充分利用了存储节点上的计算能力，在存储每一个数据时，都会通过计算得出该数据存储的位置，尽量将数据分布均衡，同时由于Ceph的良好设计，采用了CRUSH算法、HASH环等方法，使得它不存在传统的单点故障的问题，且随着规模的扩大性能并不会受到影响。

企业在实际Ceph遇到的五大问题：

一.扩容问题

Ceph中数据以PG为单位进行组织，因此当数据池中加入新的存储单元（OSD）时，通过调整OSDMAP会带来数据重平衡。正如提到的，如果涉及到多个OSD的扩容是可能导致可用PG中OSD小于min_size，从而发生PG不可用、IO阻塞的情况。为了尽量避免这种情况的出现，只能将扩容粒度变小，比如每次只扩容一个OSD或者一个机器、一个机柜（主要取决于存储隔离策略），但是这样注定会带来极大的运维工作量，甚至连扩容速度可能都赶不上数据增长速度。

二.数据迁移过程中的IO争用问题

在频繁数据迁移过程中带来的IO争用问题。当集群规模变大后，硬盘损坏、PG数量扩充可能会变得常态化。

三.PG数量调整问题

在解决了数据迁移过程中的PG可用性问题和IO争用问题后，提到的PG数量调整问题自然也就解决了。

四.集群利用率问题

存储成本问题主要是讲集群可用率问题，即：Ceph集群规模增大后，伪随机算法导致了存储资源分布不均衡，磁盘利用率方差过大的问题。

五.运维复杂度问题

Ceph本身是一个十分复杂的体系，要做到稳定运维非常看重团队的实力。

针对以上大家日常遇到的几类问题，twt社区会组织Ceph领域专家进行线上的答疑交流，您可以根据您在日常运维ceph过程中遇到的难点问题以及故障问题进行提出，社区Ceph专家会进行线上根据大家的问题进行分享解答。

答疑嘉宾：

李航滴滴存储架构师

多年的底层开发经验，在高性能nginx开发和分布式缓存redis cluster有着丰富的经验，目前从事分布式存储Ceph工作。先后在58同城、汽车之家、优酷土豆集团工作。目前供职于滴滴基础平台运维部-技术专家岗位，主要负责分布式Ceph系统。个人主要关注的技术领域：高性能Nginx开发、分布式缓存、分布式存储。

zhuqibs 某国内著名餐饮连锁企业运维负责人

从事过数据库、大数据和容器集群的工作，对DevOps流程和工具方面有比较深刻的理解。

宁泽阳中信银行信用卡中心 IT系统运营管理

主要负责IaaS云平台、分布式存储等IT基础设施的规划建设等运维工作。

活动简介

活动资料

Ceph Cookbook中文版

ceph详细中文文档（1051页详尽解析）

互动嘉宾

活跃参与会员