SRE实战手册-从0到1带你搞定系统稳定性
从基础理论和实践操作两方面入手,一次性解决你心中的困惑,帮助你正确认识SRE,掌握可落地的实践方法。
这个课程分为基础篇和实践篇两大模块。
- 基础篇:带你从实践的角度理解SRE是什么,并以SRE的基本概念SLO和SLI作为切入点,教你一步步建立起SRE稳定性标准。最后结合具体的电商案例,分享在实际场景中设定稳定性目标应该考虑的因素。
- 实践篇:围绕“故障”这个影响稳定性的核心事件,分享故障发现、故障处理、故障复盘三个阶段的最佳实践。同时,着眼落地SRE时绕不开的组织架构问题,分享真实的组织架构设置实践和高效的跨团队协作经验。
资源目录
开篇词 (1讲)
开篇词|SRE是解决系统稳定性问题的灵丹妙药吗?
基础篇 (5讲)
01|SRE迷思:无所不能的角色?还是运维的升级?
02 | 系统可用性:没有故障,系统就一定是稳定的吗?
03 | SRE切入点:选择SLI,设定SLO
04 | 错误预算:达成稳定性目标的共识机制
05 | 案例:落地SLO时还需要考虑哪些因素?
实践篇 (5讲)
06 | 故障发现:如何建设On-Call机制?
07|故障处理:一切以恢复业务为最高优先级
08|故障复盘:黄金三问与判定三原则
09|案例:互联网典型的SRE组织架构是怎样的?
10 | 经验:都有哪些高效的SRE组织协作机制?
结束语 (2讲)
结束语|聊聊我的SRE落地心路历程
答疑|没什么能阻挡你拓展边界的渴望
部分资源收费是对搜集、整体及网站运营必须的支出做适当补偿,敬请谅解。
每位访客应尊重版权方的知识产权,支持版权方出版社和出版社
如遇到资源失效请联系客服QQ:1516278755