问题描述
我们需要观测我们的容器云原生环境,包含 监控、日志、追踪 方面,以协助我们进行问题排查;
该笔记将记录:我们所使用的观测系统架构,以及部署观测系统的过程,以及常见问题的解决办法;
解决方案
监控:Exporter + Prometheus + Grafana,已是广泛使用的监控解决方案,所以我们也不再进行技术调研;
日志:我们直接使用 Grafana Loki 进行日志采集,目的是为了减少组件(直接使用 Grafana 进行日志展示);
追踪:根据研发要求,我们尝试使用 Jaeger 进行追踪,我们也将尝试引入其他性能追踪组件,来观察程序运行;
LGTM (Loki, Grafana, Tempo, Mimir) Stack
Loki for Logs
Grafana for Visualization
Tempo for Traces
Mimir, Prometheus, and Graphite for Metrics