记一次pod伸缩时流量提前进入的解决思路

973次阅读
没有评论

共计 565 个字符,预计需要花费 2 分钟才能阅读完成。

由于业务需求,需要在网关上新增一个配置,由于不支持软加载,对 pod 进行重启。为了方便晚上业务低峰期操作进度
在 9 点 22 时进行了 pod 扩容,从 6 扩展到 12 个。但是 9.30 后,前端状态码报警出现 502。
进行排查后发现。在 9 点 22 扩容时流量已经提前进入到了新的 pod 下,而新的 pod 启动时还没有就绪。
导致新的流量到达新 pod 时响应出错。
告警时间: 2021-03-23 21:30:21
告警域名: xxxxx
发生事件: 502 状态码 (10 分钟)>100
归属项目: xxx
业务用途: 网关服务
告警数量: 839
排查发现就绪检测如下

readinessProbe:
tcpSocket:
port: ${Port}
initialDelaySeconds: 5
periodSeconds: 10

这个参数 initialDelaySeconds:容器启动后要等待多少秒后存活和就绪探测器才被初始化

initialDelaySeconds 字段告诉 kubelet 在执行第一次探测前应该等待 5 秒

而我们的网关配置的时 5s

通常一个 java 应用的启动时间为半分钟到 2 分钟左右,

所以需要调整这个就绪的探测的时间值

目前调整如下

readinessProbe:
tcpSocket:
port: ${Port}
initialDelaySeconds: 25
periodSeconds: 10

后期在观察下效果

微信扫描下方的二维码阅读本文

正文完
 0
yx
版权声明:本站原创文章,由 yx 于2021-03-24发表,共计565字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
评论(没有评论)
验证码

bttech

文章搜索
一言一句话
-「
随机文章
降本增效之-应用部署到k8s

降本增效之-应用部署到k8s

之前应用都采用了传统的服务器部署,很多服务器都会有内存或者 cpu 浪费的情况。把所有的服务准备都迁移到 k8...
降本增效之-实现prometheus对阿里云oss nas监控

降本增效之-实现prometheus对阿里云oss nas监控

阿里云 oss nas 需要时刻巡检注意监控流量以及存储大小,需要监控是担心 oss 滥用,nas 的瓶颈问题...
ubuntu20安装部署comfyui脚本

ubuntu20安装部署comfyui脚本

基础环境参考上一篇文章安装基本的驱动 这个使用的曲线较高,有一定的学习成本。脚本如下直接使用即可! 微信扫描下...
ubuntu20 TeslaT4 安装stable diffusion-webui

ubuntu20 TeslaT4 安装stable diffusion-webui

升级系统 执行 nvidia-smi 查看是否安装了相关驱动 如果执行 nvidia-smi 没有相关命令就需...
降本增效之-自建k8s监控体系

降本增效之-自建k8s监控体系

使用阿里云 ack, 如果使用阿里云的监控体系一个月是需要几百块钱的监控费用,为了节约这笔费用。使用开源的 p...