Патерн Memory-Augmented Agent: контекст між сесіями

Як агент зберігає факти про користувача і попередні результати, щоб відповідати послідовно, персоналізовано та контрольовано.

На цій сторінці

Суть патерна
Проблема
Рішення
Як працює
У коді це виглядає так
Як це виглядає під час виконання
Коли підходить — і коли ні
Підходить
Не підходить
Чим відрізняється від RAG
Коли використовувати Memory-Augmented (vs інші патерни)
Як комбінувати з іншими патернами
Коротко
Переваги та Недоліки
FAQ
Що далі

Суть патерна

Memory-Augmented Agent - це патерн, у якому агент має окремий шар пам'яті: зберігає важливі факти, витягує їх за потреби і використовує під час наступних кроків або сесій.

Коли потрібен: коли важливо пам'ятати факти між кроками або сесіями й використовувати їх у наступних рішеннях.

Замість моделі "кожен запит з нуля", агент:

фіксує корисні факти з взаємодії
зберігає їх у структурованій пам'яті
дістає релевантне перед відповіддю
оновлює або видаляє застарілі записи

Патерн Memory-Augmented Agent: контекст між сесіями

Проблема

Уяви, що ти працюєш з агентом у кілька сесій.

У першій сесії ти задаєш правила:

пиши українською
відповідай коротко
враховуй виняток для клієнта Enterprise

У наступній сесії агент це "забуває", і все доводиться повторювати.

Без керованої пам'яті кожна нова сесія для агента виглядає як перша.

Наслідки:

втрата послідовності відповідей
зайві повтори для користувача
помилки через пропущений контекст
нижча цінність у довгих workflow

У цьому й проблема: без шару пам'яті агент не накопичує корисний контекст і працює лише в межах поточного запиту.

Рішення

Memory-Augmented вводить memory-policy для запису і пошуку між сесіями.

Аналогія: це як картка клієнта в сервісі. Туди записують тільки важливе, а не весь діалог слово в слово. Тому наступна взаємодія починається з релевантного контексту.

Ключовий принцип: Пам'ять має бути вибірковою і керованою, а не "зберігати все підряд".

Агент може пропонувати, що запам'ятати, але шар пам'яті визначає:

що можна записувати
що саме діставати під новий запит
коли запис застарів і має бути видалений

Керований процес:

Захоплення фактів: витягти значущі факти
Збереження: записати з metadata (source, timestamp, TTL)
Пошук: дістати релевантну пам'ять
Застосування: включити її в контекст відповіді
Оновлення/видалення: прибрати застаріле

Це дає:

послідовність між сесіями
персоналізацію без повторних інструкцій
контрольоване зберігання рішень і винятків
менше ручних повторів для користувача

Працює добре, якщо:

зберігаються лише значущі факти
є policy на запис/читання (privacy + scope)
діє lifecycle (TTL, update, delete)
пошук повертає релевантне й актуальне

Модель може "хотіти" пам'ятати будь-що, але саме memory-policy визначає вміст довгострокового контексту.

Як працює

Diagram

Пам'ять не дорівнює повному raw history чату.

У production зберігають не все підряд, а лише значущі факти з датою, джерелом і політикою життя запису.

Опис повного флоу: Capture → Store → Retrieve → Apply

Захоплення фактів
Система витягує факти з поточної взаємодії: переваги користувача, рішення, стабільні параметри.

Збереження
Факти записуються в memory store із метаданими: timestamp, confidence, scope, TTL, policy tags.

Пошук
Перед відповіддю система шукає релевантні записи пам'яті саме для цього запиту.

Застосування
Агент включає ці записи у робочий контекст і формує відповідь з урахуванням минулого досвіду.

У коді це виглядає так

PYTHON

facts = extract_memory_facts(user_message)

approved = supervisor.review_memory_write(
    user_id=user_id,
    items=facts,
)

memory.upsert(user_id=user_id, items=approved)

relevant = memory.search(
    user_id=user_id,
    query=goal,
    top_k=5,
)

context = build_context(base_context, memory_items=relevant)
answer = agent.respond(context)

return answer

Пам'ять має бути керованою: із лімітами розміру, правилами оновлення та видалення застарілих фактів.

Як це виглядає під час виконання

TEXT

Goal: персоналізувати відповідь за збереженими перевагами користувача

Session 1:
User: Пиши відповіді англійською і коротко.
Memory saved:
- language = en (source=session_1)
- response_style = concise (source=session_1)

Session 2:
User: Поясни різницю між SLA і SLO.
Retrieve:
- language = en
- response_style = concise

Agent response:
- англійською
- у короткому форматі

Повний приклад Memory-Augmented агента

PYPython

TSTypeScript · скоро

Коли підходить — і коли ні

Підходить

	Ситуація	Чому Memory підходить
✅	Важлива персоналізація між сесіями	Memory зберігає релевантний контекст користувача і робить поведінку агента послідовною.
✅	Є довгі процеси із повторними зверненнями	Агент продовжує роботу від попереднього стану, а не починає щоразу з нуля.
✅	Потрібно зберігати стабільні параметри і попередні рішення	Memory зменшує дублювання рішень і підтримує сталість налаштувань.
✅	Контекст користувача впливає на якість відповіді та дій	Агент враховує історію взаємодії і точніше адаптує результат.

Не підходить

	Ситуація	Чому Memory не підходить
❌	Одноразові задачі, де сесії не пов'язані	Зберігання стану додає накладні витрати без практичної користі.
❌	Сувора політика безпеки забороняє збереження даних	Memory-контуру неможливо відповідати вимогам комплаєнсу в такій моделі.
❌	Немає процесу життєвого циклу очищення й оновлення пам'яті	Без керування ретеншном пам'ять швидко застаріває і погіршує якість рішень.

Бо шар пам'яті додає операційні накладні витрати: зберігання, індексація, ретеншн і privacy-контроль.

Чим відрізняється від RAG

	RAG	Memory-Augmented
Джерело контексту	Зовнішня база знань і документи	Попередні взаємодії та стан користувача
Що оптимізує	Фактичну точність і цитованість	Послідовність і персоналізацію
Тип даних	Політики, довідка, документація	Уподобання, рішення, історія дій
Головний ризик	Слабкий пошук	Застаріла або зайва пам'ять

RAG відповідає: "що каже база знань".

Memory-Augmented відповідає: "що важливо пам'ятати саме про цього користувача і процес".

Коли використовувати Memory-Augmented (vs інші патерни)

Використовуйте Memory-Augmented, коли потрібно зберігати та використовувати контекст між кроками або сесіями.

Короткий тест:

якщо потрібно "пам'ятати уподобання, рішення і стан користувача" -> Memory-Augmented
якщо потрібно "знаходити факти у зовнішніх документах для поточного запиту" -> RAG Agent

Порівняння з іншими патернами та приклади

Швидка шпаргалка:

Якщо задача виглядає так...	Використовуйте
Потрібно знайти знання у зовнішніх джерелах і за ними сформувати відповідь	RAG Agent
Потрібно зберігати та використовувати контекст користувача між кроками або сесіями	Memory-Augmented Agent

Приклади:

RAG: "Відповідай на питання клієнта лише за внутрішньою базою політик і покажи джерела".

Memory-Augmented: "Пам'ятай, що клієнт уже обрав тариф Pro, і враховуй це в наступних відповідях".

Не впевнені, чи тут уже потрібна довготривала пам'ять агента? Спроєктувати Агента →

Як комбінувати з іншими патернами

Memory + RAG: агент поєднує персональний контекст із перевіреними джерелами, щоб відповідь була і точна, і релевантна користувачу.
Memory + ReAct: на кожному кроці агент враховує попередні рішення, щоб не повторювати однакові дії.
Memory + Supervisor: Supervisor контролює, що можна записувати в пам'ять і що дозволено звідти діставати.

Коротко

Memory-Augmented Agent:

Зберігає корисні факти між сесіями
Дістає релевантну пам'ять перед відповіддю
Робить поведінку агента послідовною
Підсилює персоналізацію без втрати контролю

Переваги та Недоліки

Переваги

пам'ятає важливий контекст між сесіями

менше повторних запитань до користувача

відповіді стають більш послідовними

краще працює з довгими задачами

Недоліки

пам'ять треба регулярно чистити й оновлювати

є ризик зберегти зайві дані

застарілий контекст псує відповідь

FAQ

Q: Чи означає пам'ять, що агент пам'ятає абсолютно все?
A: Ні. У продакшні зберігають лише корисні факти за правилами відбору, TTL і безпеки.

Q: Як не зберігати чутливі або зайві дані?
A: Використовують класифікацію даних, редагування/маскування, список дозволених полів і політики retention/delete.

Q: Що робити із застарілою або конфліктною пам'яттю?
A: Додають timestamp і confidence, перевалідують критичні записи та пріоритезують новіші факти.