Cost optimization
Материал из Montelibero
Перейти к навигацииПерейти к поиску
Cost optimization (оптимизация расходов) — стратегия снижения затрат на использование языковых моделей при сохранении качества результатов.
Почему важна
LLM стоит деньги за каждый токен. Длинная сессия с дорогой моделью может стоить десятки долларов. При масштабировании расходы растут линейно с использованием.
Методы
Выбор модели
- Model routing — дешёвая модель для простых задач, дорогая для сложных.
- Fallback — сначала дешёвая, если не справляется → дорогая.
Управление контекстом
- Prompt compression — сжатие инструкций.
- Token budget — ограничение расходов на сессию.
- Summarization — замена длинной истории кратким пересказом.
Оптимизация модели
- Квантизация — уменьшение размера модели.
- Distillation — замена большой модели маленькой.
- Caching — кэширование ответов на повторяющиеся запросы.
Оптимизация запросов
- Batching — объединение мелких запросов в один.
- Короткие промпты — меньше токенов → меньше стоимость.
- Ограничение длины ответа — max_tokens.
Связанные понятия
- Model routing — основной метод оптимизации.
- Token budget — ограничение расходов.
- Квантизация — снижение стоимости inference.