Patrón de agente con memoria: contexto entre sesiones

Construye agentes que recuerdan hechos del usuario y resultados previos para respuestas consistentes y personalizadas sin perder control.
En esta página
  1. Esencia del patron
  2. Problema
  3. Solucion
  4. Como funciona
  5. En codigo se ve asi
  6. Como se ve durante la ejecucion
  7. Cuando encaja - y cuando no
  8. Encaja
  9. No encaja
  10. En que se diferencia de RAG
  11. Cuando usar Memory-Augmented (vs otros patrones)
  12. Como combinar con otros patrones
  13. En resumen
  14. Ventajas y Desventajas
  15. FAQ
  16. Que sigue

Esencia del patron

Memory-Augmented Agent es un patron en el que el agente tiene una capa de memoria separada: guarda hechos importantes, los recupera cuando hace falta y los usa en pasos o sesiones siguientes.

Cuando usarlo: cuando es importante recordar hechos entre pasos o sesiones y usarlos en decisiones posteriores.


En lugar del modelo "cada solicitud empieza desde cero", el agente:

  • captura hechos utiles de la interaccion
  • los guarda en memoria estructurada
  • recupera memoria relevante antes de responder
  • actualiza o elimina entradas obsoletas

Patron de agente Memory-Augmented: contexto entre sesiones

Problema

Imagina que trabajas con un agente en varias sesiones.

En la primera sesion, defines reglas:

  • escribe en ucraniano
  • responde de forma concisa
  • aplica una excepcion para clientes Enterprise

En la siguiente sesion, el agente "olvida" esto y tienes que repetir todo.

Sin memoria gestionada, cada sesion nueva se ve como la primera para el agente.

Consecuencias:

  • respuestas inconsistentes
  • repeticiones innecesarias para el usuario
  • errores por contexto perdido
  • menor valor en workflows largos

Ese es el problema: sin una capa de memoria, el agente no acumula contexto util y trabaja solo dentro de la solicitud actual.

Solucion

Memory-Augmented introduce memory-policy para escritura y retrieval entre sesiones.

Analogia: es como una ficha de cliente en un sistema de servicio. Se registra solo lo importante, no todo el dialogo palabra por palabra. Asi, la siguiente interaccion empieza con contexto relevante.

Principio clave: la memoria debe ser selectiva y gestionada, no "guardar todo indiscriminadamente".

El agente puede sugerir que recordar, pero la capa de memoria determina:

  • que se puede escribir
  • que se debe recuperar para una nueva solicitud
  • cuando un registro esta obsoleto y debe eliminarse

Proceso controlado:

  1. Capture: extraer hechos significativos
  2. Store: guardar con metadata (source, timestamp, TTL)
  3. Retrieve: obtener memoria relevante
  4. Apply: incluirla en el contexto de respuesta
  5. Update/Delete: eliminar entradas obsoletas

Esto da:

  • consistencia entre sesiones
  • personalizacion sin instrucciones repetidas
  • almacenamiento controlado de decisiones y excepciones
  • menos repeticiones manuales para el usuario

Funciona bien si:

  • solo se guardan hechos significativos
  • existe policy de escritura/lectura (privacy + scope)
  • se aplica lifecycle (TTL, update, delete)
  • retrieval devuelve entradas relevantes y actuales

El modelo puede "querer" recordar cualquier cosa, pero memory-policy define el contenido del contexto de largo plazo.

Como funciona

Diagram

La memoria no es lo mismo que el historial raw completo del chat.

En production no se guarda todo, sino solo hechos significativos con fecha, fuente y policy de ciclo de vida del registro.

Descripcion del flujo completo: Capture → Store → Retrieve → Apply

Capture
El sistema extrae hechos de la interaccion actual: preferencias del usuario, decisiones, parametros estables.

Store
Los hechos se escriben en memory store con metadata: timestamp, confidence, scope, TTL, policy tags.

Retrieve
Antes de responder, el sistema busca entradas de memoria relevantes para esta solicitud especifica.

Apply
El agente incluye esas entradas en el contexto de trabajo y forma la respuesta usando experiencia previa.

En codigo se ve asi

PYTHON
facts = extract_memory_facts(user_message)

approved = supervisor.review_memory_write(
    user_id=user_id,
    items=facts,
)

memory.upsert(user_id=user_id, items=approved)

relevant = memory.search(
    user_id=user_id,
    query=goal,
    top_k=5,
)

context = build_context(base_context, memory_items=relevant)
answer = agent.respond(context)

return answer

La memoria debe estar gestionada: con limites de tamano, reglas de actualizacion y eliminacion de hechos obsoletos.

Como se ve durante la ejecucion

TEXT
Goal: personalizar la respuesta usando preferencias guardadas del usuario

Session 1:
User: Escribe respuestas en ingles y de forma concisa.
Memory saved:
- language = en (source=session_1)
- response_style = concise (source=session_1)

Session 2:
User: Explica la diferencia entre SLA y SLO.
Retrieve:
- language = en
- response_style = concise

Agent response:
- en ingles
- en formato conciso

Ejemplo completo de agente Memory-Augmented

PYPython
TSTypeScript · pronto

Cuando encaja - y cuando no

Encaja

SituacionPor que Memory encaja
La personalizacion entre sesiones es importanteMemory guarda contexto relevante del usuario y hace consistente el comportamiento del agente.
Hay procesos largos con interacciones repetidasEl agente continua desde el estado previo en lugar de reiniciar cada vez.
Se deben conservar parametros estables y decisiones anterioresMemory reduce decisiones duplicadas y mantiene estables los ajustes.
El contexto del usuario afecta la calidad de respuestas y accionesEl agente usa historial de interaccion y adapta el output con mayor precision.

No encaja

SituacionPor que Memory no encaja
Tareas puntuales donde las sesiones no estan relacionadasGuardar estado agrega overhead sin beneficio practico.
Una politica de seguridad estricta prohibe guardar datosUn contorno Memory no puede cumplir requisitos de compliance en este modelo.
No existe proceso lifecycle para limpieza y actualizacion de memoriaSin gestion de retention, la memoria se vuelve obsoleta y degrada la calidad de decisiones.

Porque la capa de memoria agrega overhead operativo: almacenamiento, indexacion, retention y controles de privacy.

En que se diferencia de RAG

RAGMemory-Augmented
Fuente de contextoBase de conocimiento externa y documentosInteracciones previas y estado del usuario
Que optimizaPrecision factual y citabilidadConsistencia y personalizacion
Tipo de datosPoliticas, referencia, documentacionPreferencias, decisiones, historial de acciones
Riesgo principalRetrieval debilMemoria obsoleta o excesiva

RAG responde: "que dice la base de conocimiento".

Memory-Augmented responde: "que es importante recordar sobre este usuario y proceso en particular".

Cuando usar Memory-Augmented (vs otros patrones)

Usa Memory-Augmented cuando se debe guardar y reutilizar contexto entre pasos o sesiones.

Prueba rapida:

  • si necesitas "recordar preferencias, decisiones y estado del usuario" -> Memory-Augmented
  • si necesitas "encontrar hechos en documentos externos para la solicitud actual" -> RAG Agent
Comparacion con otros patrones y ejemplos

Chuleta rapida:

Si la tarea se ve asi...Usa
Necesitas encontrar conocimiento en fuentes externas y generar respuesta a partir de esoRAG Agent
Necesitas guardar y reutilizar contexto del usuario entre pasos o sesionesMemory-Augmented Agent

Ejemplos:

RAG: "Responde preguntas del cliente solo usando la base interna de politicas y muestra fuentes".

Memory-Augmented: "Recuerda que este cliente ya eligio el plan Pro y aplicalo en las siguientes respuestas".

Como combinar con otros patrones

  • Memory + RAG: el agente combina contexto personal con fuentes verificadas para que la respuesta sea precisa y relevante para el usuario.
  • Memory + ReAct: en cada paso, el agente considera decisiones previas para no repetir las mismas acciones.
  • Memory + Supervisor: Supervisor controla que se puede escribir en memoria y que se permite recuperar desde ella.

En resumen

En resumen

Memory-Augmented Agent:

  • Guarda hechos utiles entre sesiones
  • Recupera memoria relevante antes de responder
  • Hace consistente el comportamiento del agente
  • Mejora la personalizacion sin perder control

Ventajas y Desventajas

Ventajas

recuerda contexto importante entre sesiones

menos preguntas repetidas al usuario

las respuestas se vuelven mas consistentes

funciona mejor para tareas largas

Desventajas

la memoria debe limpiarse y actualizarse regularmente

hay riesgo de guardar datos innecesarios

el contexto obsoleto degrada la calidad de la respuesta

FAQ

Q: Significa memoria (memory) que el agente recuerda absolutamente todo?
A: No. En production solo se guardan hechos utiles bajo reglas de seleccion, TTL y controles de seguridad.

Q: Como evitar guardar datos sensibles o innecesarios?
A: Usa clasificacion de datos, redaction, field allowlist y politicas de retention/delete.

Q: Que hacer con memoria obsoleta o en conflicto?
A: Agrega timestamp y confidence, revalida registros criticos y prioriza hechos mas nuevos.

Que sigue

Memory-Augmented agrega contexto de largo plazo al agente.

Pero como verificar que la respuesta final sea consistente y sin errores obvios antes de enviarla al usuario?

⏱️ 10 min de lecturaActualizado Mar, 2026Dificultad: ★★★
Continuación práctica

Ejemplos de implementación del patrón

Continúa con la implementación usando proyectos de ejemplo.

Integrado: control en producciónOnceOnly
Guardrails para agentes con tool-calling
Lleva este patrón a producción con gobernanza:
  • Presupuestos (pasos / topes de gasto)
  • Permisos de herramientas (allowlist / blocklist)
  • Kill switch y parada por incidente
  • Idempotencia y dedupe
  • Audit logs y trazabilidad
Mención integrada: OnceOnly es una capa de control para sistemas de agentes en producción.
Autor

Esta documentación está curada y mantenida por ingenieros que despliegan agentes de IA en producción.

El contenido es asistido por IA, con responsabilidad editorial humana sobre la exactitud, la claridad y la relevancia en producción.

Los patrones y las recomendaciones se basan en post-mortems, modos de fallo e incidentes operativos en sistemas desplegados, incluido durante el desarrollo y la operación de infraestructura de gobernanza para agentes en OnceOnly.