Hierarchical summarization

Материал из Montelibero
Перейти к навигацииПерейти к поиску

Hierarchical summarization — многоуровневое сжатие истории сессии, при котором хранятся версии разной детализации: краткая → средняя → полная.

Проблема =

Полная история сессии занимает слишком много токенов. Но полное сжатие в один summary теряет детали. Нужен баланс: recent events — подробно, old events — кратко.

Архитектура уровней =

  • Level 0 (full) — все сообщения. Хранятся последние N сообщений или до лимита.
  • Level 1 (concise) — каждый блок сжат в 2–3 предложения. Хранятся блоки, которые вышли из level 0.
  • Level 2 (brief) — каждый блок level 1 сжат в одно предложение. Долгосрочная память.
  • Level 3 (index) — заголовки тем, ключевые решения, факты. Для быстрого поиска.

Когда происходит сжатие =

  • При заполнении лимита level 0 — старые сообщения уходят в level 1.
  • Периодически — background consolidation.
  • По запросу — агент сам решает сжать, если видит переполнение.

Стратегии сжатия =

  • Fixed-size blocks — каждые 50 сообщений → summary.
  • Topic-based — границы сжатия по смене темы.
  • Importance-based — важные сообщения сохраняются подробнее.
  • Semantic clustering — группировка по эмбеддингам.

В сессии =

Hierarchical summarization позволяет сессии работать длительно без деградации качества. Агент «видит» и recent events (подробно), и долгосрочный контекст (кратко).

Связанные понятия

  • Token budget — hierarchical summarization — инструмент управления бюджетом.
  • Prompt compression — сжатие как частный случай.
  • Память ИИ — многоуровневая память — эволюция episodic memory.