FR
Pannes & Correctifs
Échecs réels et moyens pratiques de les arrêter en prod.
- Dérive silencieuse d’un agent (régressions) + détection + code★★☆Les agents ne cassent pas d’un coup. Ils dérivent via changements de modèle/tools/prompts jusqu’à shipper une régression en prod. Canary, golden tasks, replay et métriques détectent tôt.
- Budget explosion (quand un agent brûle de l’argent) + fixes + code★★☆Les budgets ne cassent pas d’un coup. Ils fuient via retries, prompt bloat et tool spam. Voilà comment ça explose en prod et comment capper le spend par run.
- Pannes en cascade (comment un agent amplifie une outage) + code★★☆Quand les tools dégradent, des retries naïfs et des boucles agent amplifient l’outage. Circuit breakers, bulkheads et safe-mode évitent que ton agent DDoS tes dépendances.
- Deadlocks en systèmes multi-agents (failure + fixes + code)★★☆Des agents qui attendent des agents = deadlock distribué avec des logs plus jolis. Leases, timeouts et orchestration empêchent les runs bloqués en prod.
- Sources hallucinées par un agent (failure mode + fixes + code)★★☆Les agents citent des URLs qu’ils n’ont jamais ouvertes. Voilà pourquoi ça arrive en prod et comment forcer des citations basées sur de vraies preuves.
- AI Agent Infinite Loop (Détecter + corriger, avec code)★★☆Ton agent boucle. Il est 03:00. La facture monte. Voilà les causes, ce qui casse, et les kill-switches qu’on utilise vraiment.
- Gestion d’outage partielle (degrade mode + code)★★☆Un tool est down, d’autres marchent. Sans degrade mode, l’agent thrash et brûle le budget. Voilà comment renvoyer du partiel avec une stop reason claire.
- Attaques de prompt injection sur des agents (failure + défenses + code)★★☆La prompt injection n’est pas un jailbreak. C’est du texte non fiable qui arrive via des tools. Voilà comment ça casse en prod et comment mettre la policy en code.
- Corruption de réponse tool (schema drift + truncation) + code★★☆Des outputs de tools corrompus ou driftés mènent à de mauvaises actions. Validation stricte, size limits et fail-closed évitent d’agir sur du garbage.
- Incidents de surconsommation de tokens (prompt bloat) + code★★☆Le prompt bloat est un incident prod : latence ↑, coût ↑, et truncation qui droppe ta policy. Voici comment le gérer avec un budget de contexte.
- Tool spam loops (failure mode + fixes + code)★★☆Quand un agent appelle le même tool en boucle, tu payes. Voilà comment le tool spam arrive en prod et comment le stopper.
- Pourquoi les agents échouent en production (et comment l’éviter)★★☆La plupart des pannes d’agents ne sont pas mystérieuses. Il manque des budgets, l’application de politiques, des outils sont instables, et l’observabilité est inexistante. Voici la taxonomie des pannes qu’on utilise en production.