Cost optimization

Cost optimization (оптимизация расходов) — стратегия снижения затрат на использование языковых моделей при сохранении качества результатов.

Почему важна

LLM стоит деньги за каждый токен. Длинная сессия с дорогой моделью может стоить десятки долларов. При масштабировании расходы растут линейно с использованием.

Методы

Выбор модели

Model routing — дешёвая модель для простых задач, дорогая для сложных.
Fallback — сначала дешёвая, если не справляется → дорогая.

Управление контекстом

Prompt compression — сжатие инструкций.
Token budget — ограничение расходов на сессию.
Summarization — замена длинной истории кратким пересказом.

Оптимизация модели

Квантизация — уменьшение размера модели.
Distillation — замена большой модели маленькой.
Caching — кэширование ответов на повторяющиеся запросы.

Оптимизация запросов

Batching — объединение мелких запросов в один.
Короткие промпты — меньше токенов → меньше стоимость.
Ограничение длины ответа — max_tokens.

Связанные понятия

Model routing — основной метод оптимизации.
Token budget — ограничение расходов.
Квантизация — снижение стоимости inference.

Cost optimization

Содержание

Почему важна

Методы

Выбор модели

Управление контекстом

Оптимизация модели

Оптимизация запросов

Связанные понятия

Навигация

Действия на странице

Действия на странице

Персональные инструменты

Main

Поиск

Навигация

Инструменты