Token budget
Материал из Montelibero
Token budget — стратегия управления лимитом токенов в контекстном окне: что сохранить, что выбросить, когда сжать или summarizirовать.
Зачем
Контекстное окно конечно. Чем длиннее сессия, тем больше токенов уже занято историей. Если не управлять бюджетом — в какой-то момент важный контекст вытесняется старым или модель начинает «забывать» инструкции.
Инструменты управления
- Приоритизация — системные инструкции важнее истории; они остаются в начале.
- Truncation — обрезать старые сообщения при достижении лимита.
- Summarization — заменить блок сообщений одним summary.
- Semantic compression — выделить ключевые факты из длинного текста и заменить их компактной формой.
Стратегии =
- FIFO (First In First Out) — выбрасывать самые старые сообщения.
- Saliency-based — выбрасывать менее важные сообщения (шапки, случайные реплики).
- Hierarchical — хранить краткую версию в контексте, полную в памяти, подтягивать по необходимости.
Связанные понятия =
- Контекстное окно — причина, по которой бюджет нужен.
- Prompt compression — один из методов управления бюджетом.
- Память ИИ — механизм хранения вытесненного контекста.