详情描述:
故障复盘的目的是减少故障的发生。有几个我目前认为不错的做法 故障在复盘的时候应该将当事人的名字用代码替代,可以营造更好的讨论氛围。
故障复盘需要有文档记录,包括故障发生的过程,时间线的记录,操作的记录,故障恢复的方法,故障根因的分析,为什么故障会发生的分析。文档应该隐去所有当事人的姓名对公司的所有人公开。很多公司对故障文档设置查看权限,我觉得没什么道理。有些公司的故障复盘甚至对外也是公开的
Blame Free 文化?之前我认为是好的。但是后来发现,有些不按照流程操作导致的问题确实多少应该 Blame 一下
比如下线服务的时候没有检查还没有 tcp 连接就直接下线了,或者操作的时候没有做 canary 就全部操作了,这种不理智的行为导致的故障。
感恩节祝愿:朋友客户们所用机器稳定、安全零故障!
感恩节新上:裸金属 服务器,配置高,超稳定,超实惠 ,性价比超高
欢迎随时咨询!
联系人 | 黄福利 |
---|