指挥目标:
-
快速确认影响范围
-
拉相关研发,判断问题根源
-
判断哪些事务可以并发执行,如有,拉相关同学到会上
-
相关群,置顶,相关监控找到,发群里 PIN 住。
-
相关关键信息,PIN 住,包括 region 信息,运维入口,关键机器 IP 列表等
-
预计修复的时间,如果太长,可能要通报各业务负责人,自行逃生
-
如何判断业务受损情况:
- 逻辑上:
- 产品:哪些产品受损?能否有一个大屏,可以快速感知???
- 是管控平面还是数据平面受损,能否有一个大屏,可以快速感知??
- 确认元集群是否受损?各个核心组件是否正常运行?
- 如果是管控平面,是租户侧还是只有运维侧
- 物理上:
- 哪些节点挂了?是否有集群超过冗余的故障发生了?
- 从集群角度?
- 哪些集群的 DNS 有问题?
- 哪些集群的 k8s etcd 有问题?
- 哪些集群当前的 api 是出现问题的?
- 逻辑上:
-
思考如何快速止损:
- 是否可以快速切换
- 是否要通知各业务方紧急逃生