「CEPH」- 通过 Prometheus 服务,来监控 Ceph Cluster 状态

问题描述

在 Ceph Dashboard 中,其结合 Promethes / Grafana / Exporter 等等组件来实现 Ceph Cluster 的监控;

我们的 Homelab 使用 PVE 虚拟化技术,其内置的超融合技术使用 Ceph 来提供存储,所以 PVE Ceph 是我们的监控环境;

该笔记将记录:在 Ceph 中,通过 Promethes + Grafana 监控 Ceph Cluster 的方法,以及相关问题的解决办法;

解决方案

参考 Ceph Monitoring Services 部分,以获取集群服务监控的详细说明;

最开始,我们希望使用 Orchestrator 来部署监控系统(Deploying monitoring with cephadm),这样 Prometheus Grafana Alertmanager 等等组件将部署在 PVE Cluster 内部,借助 Ceph Orchestrator 特性,将统一管理并降低运维工作量;

但是,这需要安装 Orchestrator Backend Cephadm(apt-get install ceph-mgr-cephadm)软件,但是安装会卸载 fuse 软件,并且 PVE 官方也没有给出关于 Ceph 监控的解决方案(或操作说明),所以我们担心这样做会破坏 PVE Cluster 集群的运行(功能);

所以,我们决定采用带外管理的方式,PVE Ceph 仅仅提供 Node Exporter / Ceph Exporter 服务,我们使用外部集群对 PVE Ceph Cluster 进行监控;

服务部署

#1 部署 Ceph Exporter 组件

ceph mgr module enable prometheus

注 1:针对未启用 Ceph Manager 的节点,不需要执行改命令;

#2 部署 Node Exporter 组件

在所有节点上执行,安装 Node Exporter 组件

apt-get install -y prometheus-node-exporter

#3 部署 Prometheus 组件

1)部署 Prometheus 服务:具体过程不再细述,建议参考官方文档;

2)服务配置:WIP

#4 部署 Grafana 组件

Ceph Dashboard — Ceph Documentation

插件:vonage-status-panel、grafana-piechart-panel
面板:https://github.com/ceph/ceph/tree/main/monitoring/ceph-mixin/dashboards_out

#5 部署 Alertmanager 组件

#6 部署 PrometheusAlert 组件