心跳是用于节点间检测对方是否故障的,以便及时发现故障节点进入相应的故障处理流程。
OSD节点会监听public、cluster、front和back四个端口
OSD报告给Monitor:
OSD有事件发生时(比如故障、PG变更)。
自身启动5秒内。
OSD周期性的上报给Monito
Monitor统计下线OSD
Ceph通过伙伴OSD汇报失效节点和Monitor统计来自OSD的心跳两种方式判定OSD节点失效。
及时:伙伴OSD可以在秒级发现节点失效并汇报Monitor,并在几分钟内由Monitor将失效OSD下线。
适当的压力:由于有伙伴OSD汇报机制,Monitor与OSD之间的心跳统计更像是一种保险措施,因此OSD向Monitor发送心跳的间隔可以长达600秒,Monitor的检测阈值也可以长达900秒。Ceph实际上是将故障检测过程中中心节点的压力分散到所有的OSD上,以此提高中心节点Monitor的可靠性,进而提高整个集群的可扩展性。
容忍网络抖动:Monitor收到OSD对其伙伴OSD的汇报后,并没有马上将目标OSD下线,而是周期性的等待几个条件:
扩散:作为中心节点的Monitor并没有在更新OSDMap后尝试广播通知所有的OSD和Client,而是惰性的等待OSD和Client来获取。以此来减少Monitor压力并简化交互逻辑。
您已完成初始Ceph的配置之后,您可以部署和运行的Ceph。当你执行一个命令,如ceph health 或 ceph -s , Ceph的监视器将报告CEPH存储集群的当前状态。Ceph的监视器通过每个Ceph的OSD守护实例,以及相邻的Ceph OSD守护实例,了解Ceph的存储集群的相关状态。Ceph的监视器如果没有收到报告,或者如果它接收Ceph的存储集群的变化的报告,Ceph的监视器更新的的CEPH集群映射图的状态。
Ceph为Ceph的监视器/ Ceph的OSD守护程序交互提供合理的默认设置。但是,您可以覆盖默认值。以下部分描述如何用Ceph的监视器和Ceph的OSD守护实例互动来达到Ceph的存储集群监控的目的。
每个Ceph的OSD守护程序检查其他Ceph的OSD守护进程的心跳每6秒。Ceph的配置文件下的[OSD]部分加入OSD osd heartbeat interval ,或通过设定值在运行时,您可以更改心跳间隔。如果在20秒的宽限期内邻居的Ceph的OSD守护进程不显示心跳,Ceph的OSD守护进程可能考虑周边的Ceph OSD守护挂掉,并向一个Ceph的Monitor报告,这将更新的CEPH集群地图。一个OSD osd heartbeat grace 可以在Ceph的配置文件下的[OSD]部分设置,或在运行时,你通过设置这个值改变这个宽限期。
默认情况下,Ceph的OSD守护程序必须向Ceph的监视器报告三次:另一个Ceph的OSD守护程序已经挂掉,在Ceph的Monitor承认该报告Ceph的OSD守护挂掉之前。在(早期V0.62版本之前)Ceph的配置文件下的[MON]部分添加 osd min down reports setting,或者通过设定值在运行时,您可以更改OSD报告的挂掉的最低数量 。默认情况下,只有一个Ceph的OSD守护进程是必需报告另一个Ceph的OSD守护进程。您可以更改向Ceph监视器报告Ceph的OSD守护进程的Ceph的OSD Daemones 的数量,通过添加一个mon osd min down reporters设置在Ceph的配置文件中,或者通过设定值在运行时。
Ceph的OSD守护进程如果不能和Ceph的配置文件(或群集地图)中定义的OSD守护同行,它将每30秒ping一个Ceph的监视器,为了最新副本的集群映射图。Ceph的配置文件 下的[OSD]部分加入 osd mon heartbeat interval 设置,或通过在运行时设定值,您可以更改Ceph的监控心跳间隔。
Ceph的OSD守护进程如果不向Ceph的监视器报告,至少每120秒一次,Ceph的监视器会考虑Ceph的OSD守护已经挂掉。您可以更改Ceph的监控报告间隔,通过加入 osd mon report interval max 设置在Ceph的配置文件的[OSD]部分,或者通过设置在运行时的值。Ceph的OSD守护进程会尝试报告其状态每30秒。在Ceph的配置文件下的[OSD]部分加入 osd mon report interval min s设置,或者通过设定值在运行时,您可以更改Ceph的OSD守护报告间隔。
修改心跳设置时,你应该将它们包括在 您的配置文件的[global]部分。
作者:李航
个人简介: 多年的底层开发经验,在高性能nginx开发和分布式缓存redis cluster有着丰富的经验,目前从事分布式存储Ceph工作。先后在58 同城、汽车之家、优酷土豆集团工作。目前供职于滴滴基础平台运维部-技术专家岗位,主要负责分布式Ceph系统。个人主要关注的技术领域:高 性能Nginx开发、分布式缓存、分布式存储。
如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!
赞9
添加新评论0 条评论