Prompt compression
Материал из Montelibero
Prompt compression — сжатие промпта для сокращения числа токенов при сохранении ключевой информации.
Зачем
Контекстное окно ограничено. Системные промпты, длинные инструкции и справочные данные занимают место, которое могло бы использоваться для полезного контекста. Prompt compression позволяет выжать максимум из доступных токенов.
Методы
- Удаление избыточности — убрать Waterlog, очевидные повторы, канцелярит.
- Резюмирование — заменить длинный контекст его кратким пересказом.
- Сжатие инструкций — переформулировать правила короче без потери смысла.
- Иерархическое сжатие — хранить краткую версию в контексте, полную — в памяти.
Риски
Слишком агрессивное сжатие может:
- Удалить важные нюансы.
- Нарушить структуру, важную для модели.
- Потерять контекст, критичный для задачи.
Связанные понятия
- Промпт — объект сжатия.
- Контекстное окно — причина, почему сжатие нужно.
- Токен — единица, которую сжатие экономит.