Skip to content

Latest commit

 

History

History
25 lines (22 loc) · 1.17 KB

应急指挥.md

File metadata and controls

25 lines (22 loc) · 1.17 KB

指挥目标:

  • 快速确认影响范围

  • 拉相关研发,判断问题根源

  • 判断哪些事务可以并发执行,如有,拉相关同学到会上

  • 相关群,置顶,相关监控找到,发群里 PIN 住。

  • 相关关键信息,PIN 住,包括 region 信息,运维入口,关键机器 IP 列表等

  • 预计修复的时间,如果太长,可能要通报各业务负责人,自行逃生

  • 如何判断业务受损情况:

    • 逻辑上:
      • 产品:哪些产品受损?能否有一个大屏,可以快速感知???
      • 是管控平面还是数据平面受损,能否有一个大屏,可以快速感知??
      • 确认元集群是否受损?各个核心组件是否正常运行?
      • 如果是管控平面,是租户侧还是只有运维侧
    • 物理上:
      • 哪些节点挂了?是否有集群超过冗余的故障发生了?
      • 从集群角度?
        • 哪些集群的 DNS 有问题?
        • 哪些集群的 k8s etcd 有问题?
        • 哪些集群当前的 api 是出现问题的?
  • 思考如何快速止损:

    • 是否可以快速切换
    • 是否要通知各业务方紧急逃生