问题描述
我们需要管理与运维 Kubernetes 集群,我们经常遇到与 etcd 相关的错误:
1)context canceled / context deadline exceeded
2)经常出现 etcd 服务重启;
3)在 Prometheus 中,监控经常发生 Leader 切换;
所以,我们准备进行 etcd 组件的学习,学会对 etcd 的使用、管理、问题排查;
解决方案
研究对象
etcd
研究工具
教育培训:极客时间/etcd 实战课(唐聪,腾讯云资深工程师,etcd 活跃贡献者)
书籍文献:《etcd 工作笔记:架构分析、优化与最佳实践》
官方文档:etcd/Documentation versions
博客文章:
研究目标
掌握 etcd 概念术语、工作原理、指标数据;
实现 etcd 常见问题进行排查,提高系统可用性;
参考文献
极客时间/etcd 实战课(唐聪,腾讯云资深工程师,etcd 活跃贡献者)
《etcd 工作笔记:架构分析、优化与最佳实践》
etcd/Documentation versions