ES
Fallos y Soluciones
Modos de fallo reales y cómo frenarlos en producción.
- Deriva silenciosa del agente (regresión de calidad) + detección + código★★☆Los agentes no fallan de golpe: derivan por cambios en modelo/tool/prompt hasta que shipeas una regresión. Canary, golden tasks, replay y métricas detectan drift temprano.
- Explosión de presupuesto (cuando un agente quema dinero) + fixes + código★★☆Los budgets no fallan de golpe: se filtran por retries, prompt bloat y tool spam. Cómo pasan en producción y cómo capar gasto por run.
- Fallos en cascada de tools (cómo un agente amplifica outages) + código★★☆Cuando los tools degradan, retries ingenuos y loops amplifican outages. Usa circuit breakers, bulkheads y safe-mode para que el agente no DDoSee tus dependencias.
- Deadlocks en sistemas multi-agente (failure mode + fixes + código)★★☆Agentes esperando agentes es deadlock distribuido con logs más bonitos. Cómo pasa en producción y cómo leases, timeouts y orquestación lo previenen.
- Fuentes alucinadas en agentes de IA (fallo + fixes + código)★★☆Los agentes citarán URLs que nunca han abierto. Por qué pasa en producción y cómo forzar citas basadas en evidencia real.
- AI Agent Infinite Loop (Detectar + arreglar, con código)★★☆Tu agente está loopeando. Son las 03:00. La factura sube. Causas, qué se rompe, y los kill‑switches que usamos de verdad.
- Outage parcial (fallo del agente + degrade mode + código)★★☆Algunos tools caen, otros funcionan. Los agentes que insisten thrash y queman budgets. Cómo degradar seguro con resultados parciales y stop reasons claros.
- Prompt Injection en agentes (fallo + defensas + código)★★☆Prompt injection no es un jailbreak. Es texto no confiable entrando por tools. Así engañan a agentes en producción y cómo poner la policy en código.
- Corrupción de respuestas de tools (schema drift + truncation) + código★★☆Outputs corruptos o con drift terminan en acciones equivocadas. Valida outputs, impón límites de tamaño y falla cerrado para que el agente no actúe sobre basura.
- Incidentes de exceso de tokens (prompt bloat) + fixes + código★★☆El prompt bloat es un incidente de producción: sube latencia, sube coste, y trunca tu policy. Cómo pasa y cómo presupuestar contexto sin romper todo.
- Tool Spam Loops (fallo del agente + fixes + código)★★☆Cuando un agente llama el mismo tool una y otra vez, lo pagas. Así nace el tool spam en producción y cómo pararlo.
- Por qué los agentes fallan en producción (y cómo prevenirlo)★★☆La mayoría de los fallos de agentes no son misteriosos. Faltan presupuestos, falta enforcement de políticas, los tools son inestables, y no hay observabilidad. Esta es la taxonomía de fallos que usamos en producción.