Please turn JavaScript on

快猫星云 Flashcat | 一站式智能观测平台 on 快猫星云Flashcat

Is this your feed? Claim it!

Publisher:  Unclaimed!
Message frequency:  1.39 / day

Message History

概述 告警规则除了「什么情况下触发」,还需要定义「什么情况下恢复」。默认情况下,触发条件不再满足时告警就自动恢复——这对大多数场景够用,但有两类问题: 阈值附近抖动:指标在阈值上下反复跳动,导致告警「触发 → 恢复 → 又触发」反复横跳,通知刷屏。 无数据该不该恢复:采集中断、查询查不到数据时,到底应该把告警当成「已恢复」还是「继续告警」?不同数据源、不同业务的答案不一样。 「恢复条件」就是用来精细控制恢复时机的。配置入口:告警规则编辑页 → 触发条件区域 → 高级设置 → 恢复条件。它对简单模式和表达式模式都生效,且每个触发条件($A、$B…对应的每个阈值判断)可以单独配置。

Read full story
建设灭火图,最怕一开始就陷入工具配置。 很多团队一上来就问: 卡片规则怎么写? PromQL 怎么配? 日志字段选哪个? Trace 怎么下钻? 告警阈值设多少?

Read full story
很多团队选可观测性平台时,都会先问一个问题: 我们已经有 Grafana、Prometheus、ELK 了,为什么还需要 Flashcat? 这是一个很正常的问题。 因为从“能不能看数据”的角度看,开源组合已经很强。 Prometheus 能采指标。

Read full story
看完 Datadog、Dynatrace、Grafana、PagerDuty、ServiceNow,再看 BigPanda,会发现 AI SRE 还有一条很重要的路线。 Datadog 的重点是:AI SRE 要能自动查生产数据。

Read full story
这两年 AI Agent 框架冒出来很多。 Google 有 ADK,OpenAI 有 Agents SDK,Microsoft 从 AutoGen、Semantic Kernel 走到 Agent Framework,LangChain 推 LangGraph,CrewAI、LlamaIndex、Pydantic AI、Haystack、Mastra、Agno、Strands 也都在各自生态里快速迭代。

Read full story