「etcd」- 分布式、可靠的、键值存储

问题描述

我们需要管理与运维 Kubernetes 集群,我们经常遇到与 etcd 相关的错误:
1)context canceled / context deadline exceeded
2)经常出现 etcd 服务重启;
3)在 Prometheus 中,监控经常发生 Leader 切换;

所以,我们准备进行 etcd 组件的学习,学会对 etcd 的使用、管理、问题排查;

解决方案

研究对象

etcd

研究工具

教育培训:极客时间/etcd 实战课(唐聪,腾讯云资深工程师,etcd 活跃贡献者)
书籍文献:《etcd 工作笔记:架构分析、优化与最佳实践》
官方文档:etcd/Documentation versions
博客文章:

研究目标

掌握 etcd 概念术语、工作原理、指标数据;
实现 etcd 常见问题进行排查,提高系统可用性;

参考文献

极客时间/etcd 实战课(唐聪,腾讯云资深工程师,etcd 活跃贡献者)
《etcd 工作笔记:架构分析、优化与最佳实践》
etcd/Documentation versions