Алерти збоїв агентів

Алерти повідомляють про помилки агентної системи.

На цій сторінці

Ідея за 30 секунд
Основна проблема
Як це працює
Типові production-метрики для алертів
Як читати alert-layer
Коли використовувати
Приклад реалізації
Investigation
Типові помилки
Занадто багато алертів без пріоритизації
Немає cooldown і дедуплікації
Немає synthetic-based алертів
Алерти не прив'язані до playbook
Висококардинальні labels у alert-metrics
Самоперевірка
FAQ
Пов'язані сторінки

Ідея за 30 секунд

Failure alerting для AI-агентів дає ранній сигнал, коли система входить у деградацію.

Його мета не просто "сповістити про помилку", а вчасно показати, що саме ламається: tools, LLM-кроки, latency або health checks.

Без алертів команда зазвичай дізнається про проблему від користувачів, а не від системи.

Основна проблема

Логи й трейсинг добре пояснюють інцидент після факту.

Але без алертів складно помітити момент, коли проблема тільки починається: зростає timeout rate, падає synthetic success, росте p95 latency. Через це легко пропустити перехід від локальної деградації до каскадного збою.

Далі розберемо, як будувати алерти так, щоб вони були корисними, а не шумними.

У production це часто виглядає так:

сигнал з’являється надто пізно, коли SLO вже порушено;
алерти шумлять через тимчасові сплески і їх починають ігнорувати;
одна проблема генерує десятки дублікатів у різних каналах;
немає зрозумілого маршруту: хто має реагувати і що робити першим.

Саме тому alert-layer варто проєктувати як окремий елемент observability, а не як "додатковий webhook".

Як це працює

Failure alerting зазвичай складається з трьох рівнів:

сигнали (error_rate, timeout_rate, latency_p95, health_score);
правила (threshold, window, severity, cooldown);
маршрутизація (on-call, team, playbook, escalation).

Ці рівні відповідають на питання «коли реагувати, хто реагує і як діяти». Логи й трейсинг потрібні, щоб швидко перейти від алерту до root cause. У production алерт зазвичай містить не лише severity, а й owner/team або playbook_link. Alert rules мають відображати порушення SLO, а не довільні thresholds.

Alert noise ≠ reliability. Якщо алерти спрацьовують часто й без пріоритету, команда починає їх ігнорувати.

Алерти з'являються там, де деградація вже зафіксована в метриках, latency або health checks. Synthetic alerts показують, що система "жива", але користувач уже не може виконати задачу.

Типові production-метрики для алертів

Метрика	Що показує	Навіщо потрібна
alert_fire_rate	як часто спрацьовують алерти	контроль шуму і стабільності правил
alert_dedup_rate	частка об’єднаних дублікатів	зменшення спам-сповіщень
mtta	mean time to acknowledge	оцінка швидкості реакції on-call
mttr	mean time to resolve	оцінка швидкості відновлення
false_positive_rate	частка хибних алертів	покращення якості правил
missed_incident_rate	скільки інцидентів пройшло без алерту	контроль покриття ризиків
escalation_rate	частка алертів, що пішли на escalation	контроль серйозних збоїв

mtta і mttr зазвичай рахуються на рівні incident-платформи (PagerDuty/Opsgenie/власний incident log), а не напряму в runtime-коді агента.

Щоб алерти були корисними, їх зазвичай сегментують за severity, workflow, release і component.

Важливо: не додавай у labels висококардинальні поля (run_id, request_id, user_id), інакше alert-metrics швидко втрачають керованість.

Як читати alert-layer

Що спрацювало → чому спрацювало → хто і що має зробити. Це три рівні, які завжди потрібно дивитися разом.

Важливо дивитися на тренди і кореляцію сигналів, а не на один ізольований алерт.

Далі дивимось на комбінації сигналів:

timeout_rate ↑ + latency_p95 ↑ → деградація сервісу вже впливає на користувачів;
health_score ↓ + synthetic_run_success_rate ↓ → критичний workflow перестає працювати end-to-end;
tool_error_rate ↑ + alert_fire_rate ↑ → нестабільний tool створює каскад алертів;
false_positive_rate ↑ + mtta ↑ → команда втрачає довіру до алертів;
missed_incident_rate ↑ + error_rate ↑ → є прогалини в правилах alerting.

Коли використовувати

Повний failure alerting не завжди потрібен.

Для простого прототипу інколи достатньо базового алерту на падіння сервісу.

Але системний alerting стає критичним, коли:

агентна система вже в production;
є SLO/SLA по доступності, latency або успішності workflow;
система залежить від кількох tools і зовнішніх API;
потрібна on-call реакція без ручного моніторингу дашбордів.

Приклад реалізації

Нижче — спрощений приклад alert-evaluator циклу. Приклад показує базовий підхід: threshold + window + cooldown + дедуплікація подій.

PYTHON

import time
from collections import defaultdict, deque

ALERT_RULES = {
    "high_timeout_rate": {
        "threshold": 0.05,
        "window_sec": 300,
        "severity": "high",
        "cooldown_sec": 600,
    },
    "latency_p95_regression": {
        "threshold": 2500,  # ms
        "window_sec": 300,
        "severity": "medium",
        "cooldown_sec": 600,
    },
    "synthetic_run_failed": {
        "threshold": 1,
        "window_sec": 120,
        "severity": "critical",
        "cooldown_sec": 300,
    },
}


class AlertEngine:
    def __init__(self):
        self.series = defaultdict(deque)  # metric_name -> [(ts, value), ...]
        self.last_fired_at = {}  # rule_name -> ts

    def ingest(self, metric_name, value, ts=None):
        ts = ts or time.time()
        self.series[metric_name].append((ts, value))

    def evaluate(self, ts=None):
        ts = ts or time.time()
        fired = []

        for rule_name, rule in ALERT_RULES.items():
            if self._in_cooldown(rule_name, ts, rule["cooldown_sec"]):
                continue

            if rule_name == "high_timeout_rate":
                value = self._latest_in_window("timeout_rate", ts, rule["window_sec"])
                if value is not None and value >= rule["threshold"]:
                    fired.append(self._build_alert(rule_name, value, rule, ts))

            if rule_name == "latency_p95_regression":
                value = self._latest_in_window("run_latency_p95_ms", ts, rule["window_sec"])
                if value is not None and value >= rule["threshold"]:
                    fired.append(self._build_alert(rule_name, value, rule, ts))

            if rule_name == "synthetic_run_failed":
                value = self._latest_in_window("synthetic_run_failed", ts, rule["window_sec"])
                if value is not None and value >= rule["threshold"]:
                    fired.append(self._build_alert(rule_name, value, rule, ts))

        return fired

    def _latest_in_window(self, metric_name, now_ts, window_sec):
        # NOTE:
        # Цей приклад перевіряє лише останню точку (спайки можуть викликати алерти).
        # У production (Prometheus/Datadog) зазвичай перевіряють
        # тривалість аномалії (наприклад, "for: 5m"),
        # щоб уникнути алертів на короткі сплески.
        # Альтернатива: перевіряти sustained breach упродовж усього window,
        # а не лише в останній точці.
        points = self.series[metric_name]
        while points and now_ts - points[0][0] > window_sec:
            points.popleft()
        return points[-1][1] if points else None

    def _sustained_breach(self, metric_name, now_ts, window_sec, threshold):
        points = self.series[metric_name]
        while points and now_ts - points[0][0] > window_sec:
            points.popleft()
        return points and all(v >= threshold for _, v in points)

    def _in_cooldown(self, rule_name, now_ts, cooldown_sec):
        last_ts = self.last_fired_at.get(rule_name)
        return last_ts is not None and now_ts - last_ts < cooldown_sec

    def _build_alert(self, rule_name, value, rule, now_ts):
        self.last_fired_at[rule_name] = now_ts
        return {
            "rule": rule_name,
            "severity": rule["severity"],
            "value": value,
            "timestamp": now_ts,
        }

У production алерт спрацьовує не від спайка, а коли поріг тримається протягом усього window.

Ось як alert-метрики виглядають у реальному дашборді:

Rule	fire_rate	false_positive	mtta	Статус
high_timeout_rate	12/day	18%	4m	warning: noisy
synthetic_run_failed	3/day	3%	2m	ok
latency_p95_regression	9/day	11%	6m	critical: SLO risk

Investigation

Коли спрацьовує алерт:

перевірити severity і чи це не дублікат у cooldown-вікні;
знайти корельовані сигнали в метриках (latency, timeout, health);
відкрити проблемні runs у трейсингу;
підтвердити root cause в логах і запустити playbook.

Типові помилки

Навіть коли алерти вже є, вони часто не працюють як треба через типові помилки нижче.

Занадто багато алертів без пріоритизації

Якщо всі алерти однаково критичні, команда швидко перестає їм довіряти.

Немає cooldown і дедуплікації

Одна проблема породжує десятки однакових сповіщень, що ускладнює реакцію on-call.

Немає synthetic-based алертів

Алерти тільки по інфраструктурних метриках не гарантують, що workflow реально працює. Через це можна пропустити ранній хаос мультиагентної системи.

Алерти не прив'язані до playbook

Сповіщення є, але команда не знає, що робити далі. Це збільшує MTTR під час інциденту.

Висококардинальні labels у alert-metrics

Додавання run_id або request_id у labels швидко перевантажує систему метрик і ускладнює аналіз.

Самоперевірка

Нижче — короткий checklist базового failure alerting перед релізом.

Є базові алерти на timeout_rate, error_rate і latency_p95
Є окремі алерти на synthetic_run_success_rate і health_score
Правила мають severity (low/medium/high/critical)
Є cooldown і дедуплікація повторних спрацьовувань
Алерти сегментовані за workflow, component і release
У labels немає run_id, request_id і user_id
Є playbook для кожного критичного алерту
Відстежуються mtta, mttr і false_positive_rate
Після інцидентів правила алертів переглядаються і оновлюються

Прогрес: 0/9

⚠ Бракує базової observability

Систему буде складно дебажити в production. Почніть з run_id, structured logs і tracing tool calls.

FAQ

Q: Чим failure alerting відрізняється від health checks?
A: Health checks показують стан системи зараз, а failure alerting визначає, коли і кого потрібно сповістити, щоб вчасно відреагувати.

Q: Який мінімум алертів потрібен на старті?
A: Почни з timeout_rate, error_rate, latency_p95 і synthetic_run_success_rate.

Q: Як зменшити шум від алертів?
A: Додай severity-рівні, cooldown, дедуплікацію і прибери правила, які часто дають false positive.

Q: Як зрозуміти, що алерти покривають реальні ризики?
A: Перевіряй missed_incident_rate після інцидентів і оновлюй правила там, де система деградувала без сповіщення.