千寻

道路很长, 开始了就别停下!

0%

社区稳定性之降级

目标

当遇到营销活动或者突发情况带来较大访问流量时,最大程度保证系统可用性,为用户输出稳定服务能力。

思考方向:

  • 根据监控,找到流量较大的业务、页面、功能
  • 与业务方讨论,找出页面中哪些功能是重要的,哪些是不重要的
  • 每个功能模块会调用哪些接口,自上而下,梳理每个接口的全链路,看哪些接口可以降级

所有接口都要纳入监控体系,监控的指标:

  • 接口的实时调用量
  • QPS
  • RT
  • 服务器的load、cpu、IO、内存
1
2
3
注意:
演练前要做性能压测,知道系统的容量瓶颈。配置报警阈值,如果触发,能及时通知相关工作人员。
紧急启动应急机制

业务案例

1、页面非核心功能屏蔽

banner位、话题位、猜你喜欢、达人推荐等非重要功能全部通过开关控制,必要时可全部关闭

2、接口流量控制

压测每个接口支持的调用上限,配置阀值,超过上限拒绝提供服务