问题描述
在 Ceph Dashboard 中,其结合 Promethes / Grafana / Exporter 等等组件来实现 Ceph Cluster 的监控;
我们的 Homelab 使用 PVE 虚拟化技术,其内置的超融合技术使用 Ceph 来提供存储,所以 PVE Ceph 是我们的监控环境;
该笔记将记录:在 Ceph 中,通过 Promethes + Grafana 监控 Ceph Cluster 的方法,以及相关问题的解决办法;
解决方案
参考 Ceph Monitoring Services 部分,以获取集群服务监控的详细说明;
最开始,我们希望使用 Orchestrator 来部署监控系统(Deploying monitoring with cephadm),这样 Prometheus Grafana Alertmanager 等等组件将部署在 PVE Cluster 内部,借助 Ceph Orchestrator 特性,将统一管理并降低运维工作量;
但是,这需要安装 Orchestrator Backend Cephadm(apt-get install ceph-mgr-cephadm)软件,但是安装会卸载 fuse 软件,并且 PVE 官方也没有给出关于 Ceph 监控的解决方案(或操作说明),所以我们担心这样做会破坏 PVE Cluster 集群的运行(功能);
所以,我们决定采用带外管理的方式,PVE Ceph 仅仅提供 Node Exporter / Ceph Exporter 服务,我们使用外部集群对 PVE Ceph Cluster 进行监控;
服务部署
#1 部署 Ceph Exporter 组件
ceph mgr module enable prometheus
注 1:针对未启用 Ceph Manager 的节点,不需要执行改命令;
#2 部署 Node Exporter 组件
在所有节点上执行,安装 Node Exporter 组件
apt-get install -y prometheus-node-exporter
#3 部署 Prometheus 组件
1)部署 Prometheus 服务:具体过程不再细述,建议参考官方文档;
2)服务配置:WIP
#4 部署 Grafana 组件
Ceph Dashboard — Ceph Documentation
插件:vonage-status-panel、grafana-piechart-panel
面板:https://github.com/ceph/ceph/tree/main/monitoring/ceph-mixin/dashboards_out
#5 部署 Alertmanager 组件
#6 部署 PrometheusAlert 组件