故障排查和应急措施 Diagnosis

当线上出现故障时,如何分工和快速排查

一般从网关响应码、服务节点状态和数据库三方面入手

  1. 查看负载均衡流量情况

网关日志/ELK/SLB 等监控平台过滤 50x 相关日志,快速定位异常接口和服务

  1. 查看所有容器状态

# 默认namespace: vika-app 
kubectl --kubeconfig  /data/vika/app/config-k8s/kubeconfig get pods -n vika-app

是否都在Running呢?

fusion-serverroom-server出现大量restart 时,是数据库出现连接不上的情况。

  1. 查看CPU、磁盘使用量是否正常.

  1. 查看数据库性能情况

    • MySQL诊断 CPU/内存/磁盘使用率 监控:

    • MySQL10秒查询 错误日志、异常告警:

    • MySQL SQL慢查询: