深入理解分布式核心组件etcd

发布于 2021-08-31 10:56 ,所属分类:中小学阅读学习资料

大家好,我是极客重生

我们都知道最近几年,随着 K8s 成为容器编排领域霸主,etcd 也越来越火,GitHub star 已超过 34.2K。当然这也与它的应用场景广泛密不可分,从服务发现到分布式锁,从配置存储到分布式协调,可以说,etcd 已成为云原生和分布式系统的存储基石。
作为当下最热门的云原生存储之一,etcd 在腾讯、阿里、Google、AWS、美团、字节跳动、拼多多、Shopee 等公司都有大量应用,覆盖的业务不仅有 K8s 相关的容器产品,更有视频、推荐、安全、游戏、存储、集群调度等核心业务。
但哪怕是 K8s 老兵,也很难保证不在 etcd 上翻车:

无论是从内存泄露到数据不一致,还是从节点crash到性能慢,再到死锁、OOM等稳定性问题等,甚至听说还有人通过混沌工程发现并修复了多个数据不一致Bug,其中一个Bug已经存在近3年之久,而且很严重,重启就可能会触发数据不一致。
上面这类棘手问题,在学习和使用 etcd、k8s 的过程中,只是冰山一角。快速解决的办法,还是要对症下药,这里分享给你一张etcd 典型问题图谱,你可以对照自己的经历仔细查阅。

这张图出自腾讯云资深工程师唐聪,他是腾讯云 etcd 负责人、2020 年etcd 社区全球 Top3 活跃贡献者,之前在社区没少看到他提交的代码。
后来我才知道,这几年他一直在和 Redis、etcd 打交道,解决过很多大规模业务增长中的存储稳定性、可扩展性等问题,积累了丰富的大规模集群实战、治理经验。参与 etcd 开源项目的贡献经历,也让他对 etcd 和分布式服务有了更深入的理解。
所以,他能从开发者的视角出发,为你分析问题、梳理最佳实践、解读特性设计方案、阐述社区未来演进方向等等。
在专栏中,他深入解析了 etcd 核心原理,系统梳理其高效学习路径,帮你掌握实践中各类复杂 etcd 问题的解决方案,和在 Kubernetes、服务发现等应用场景的最佳实践,构建高可靠的 etcd 集群运维体系。
唐聪说,这个专栏是他自己多年经验的交付,能解决你在学习、使用 etcd 过程中的很多问题。所以,跟着他学,你一定能用最低的学习成本,掌握 etcd 核心原理与最佳实践,让 etcd 真正为你所用,在工作中少踩坑、少交学费,多升职、多涨薪。

相关资源