stability/2-preventive-arch/应急指挥.md at main · ahan-ai/stability · GitHub

指挥目标：

快速确认影响范围
拉相关研发，判断问题根源
判断哪些事务可以并发执行，如有，拉相关同学到会上
相关群，置顶，相关监控找到，发群里 PIN 住。
相关关键信息，PIN 住，包括 region 信息，运维入口，关键机器 IP 列表等
预计修复的时间，如果太长，可能要通报各业务负责人，自行逃生
如何判断业务受损情况：
- 逻辑上：
  - 产品：哪些产品受损？能否有一个大屏，可以快速感知？？？
  - 是管控平面还是数据平面受损，能否有一个大屏，可以快速感知？？
  - 确认元集群是否受损？各个核心组件是否正常运行？
  - 如果是管控平面，是租户侧还是只有运维侧
- 物理上：
  - 哪些节点挂了？是否有集群超过冗余的故障发生了？
  - 从集群角度？
    - 哪些集群的 DNS 有问题？
    - 哪些集群的 k8s etcd 有问题？
    - 哪些集群当前的 api 是出现问题的？
思考如何快速止损：
- 是否可以快速切换
- 是否要通知各业务方紧急逃生