Hierarchical summarization
Материал из Montelibero
Перейти к навигацииПерейти к поиску
Hierarchical summarization — многоуровневое сжатие истории сессии, при котором хранятся версии разной детализации: краткая → средняя → полная.
Проблема =
Полная история сессии занимает слишком много токенов. Но полное сжатие в один summary теряет детали. Нужен баланс: recent events — подробно, old events — кратко.
Архитектура уровней =
- Level 0 (full) — все сообщения. Хранятся последние N сообщений или до лимита.
- Level 1 (concise) — каждый блок сжат в 2–3 предложения. Хранятся блоки, которые вышли из level 0.
- Level 2 (brief) — каждый блок level 1 сжат в одно предложение. Долгосрочная память.
- Level 3 (index) — заголовки тем, ключевые решения, факты. Для быстрого поиска.
Когда происходит сжатие =
- При заполнении лимита level 0 — старые сообщения уходят в level 1.
- Периодически — background consolidation.
- По запросу — агент сам решает сжать, если видит переполнение.
Стратегии сжатия =
- Fixed-size blocks — каждые 50 сообщений → summary.
- Topic-based — границы сжатия по смене темы.
- Importance-based — важные сообщения сохраняются подробнее.
- Semantic clustering — группировка по эмбеддингам.
В сессии =
Hierarchical summarization позволяет сессии работать длительно без деградации качества. Агент «видит» и recent events (подробно), и долгосрочный контекст (кратко).
Связанные понятия
- Token budget — hierarchical summarization — инструмент управления бюджетом.
- Prompt compression — сжатие как частный случай.
- Память ИИ — многоуровневая память — эволюция episodic memory.