记一次拐弯阁僚的接口耗时异常排查过程

作者:微信小助手

发布时间:2022-04-26T13:03:29

1 现象


某后端系统,处于整个调用链路偏后的位置,对接口性能有着比较严格的要求。因此对外承诺的三个 9 响应时间为 200 多毫秒。


然而,从某天开始一到上午流量高峰,服务耗时就报警。随机从集群内的某些机器上报了出来,过了流量高峰就好很多……


2 问题排查


一般排查接口耗时,基本都习惯从外部流量、相关内部接口、逻辑块耗时、底层存储耗时等接口层面来观察。


如果能在接口层面就找到了瓶颈是最理想的情况,否则就要从 JVM 层面来排查。比如线程运行异常、GC 异常等,势必要耗费更多精力了。


2.1 服务器性能、流量分配等外在因素


虽然这类问题发生的概率比较小,但是看到几十台机器中只有几台在报。感觉还是有必要排查一下。