摘要:docker 容器运行正常?假的,等到用户反馈才发现早就出错日志滚动几万行,关键信息全被淹没ELK、Prometheus 配起来又重又麻烦,根本不想搞
做运维或者开发的你,是不是也遇到过:
docker 容器运行正常?假的,等到用户反馈才发现早就出错日志滚动几万行,关键信息全被淹没ELK、Prometheus 配起来又重又麻烦,根本不想搞我以前维护一个生产集群,日志量每天 2GB+,等我 grep 出问题的那一刻,业务已经炸了半小时。
传统方案:
ELK、Loki、Prometheus 等,功能强,但部署复杂、资源消耗大简单 tail + grep?只能事后查,不会主动提醒直接监听 Docker 容器日志关键字/正则匹配,一旦发现异常立刻推送告警支持邮件、Slack、Webhook 等多种通知方式截图引用Github项目
解决方案
安装 LoggiFly(轻量到离谱)
docker run -d \-v /var/run/docker.sock:/var/run/docker.sock \loggifly/loggifly \--keyword "ERROR" \--notify slack:webhook_url不到一分钟,容器日志监控 + 告警全搞定。
工作原理
1、LoggiFly 挂载 Docker Socket
2、实时读取容器日志流
3、匹配到指定关键字时立即触发通知
生产突发故障 → 1 秒内 Slack 推送到你内存泄漏日志 → 在还没 OOM Kill 前就收到预警接口超时告警 → 直接丢到 Webhook 做自动扩容最重要的是,它不用你搭一整套 ELK,也不怕资源被吃光。
运维最怕的不是出问题,而是你最后一个知道。
LoggiFly 就像帮你请了个 24 小时盯着日志的小弟,一出事立刻拍你肩膀。
你现在的容器日志,是靠人盯,还是有自动告警?评论区说说!
来源:开源技术爱好者