Model routing
Материал из Montelibero
Перейти к навигацииПерейти к поиску
Model routing (маршрутизация моделей) — стратегия выбора оптимальной модели для каждого запроса в зависимости от его сложности.
Зачем
Дорогие модели (GPT-4, Claude Opus) точнее, но стоят в 10–30 раз дороже дешёвых (GPT-4o-mini, Haiku). Не все запросы требуют дорогой модели. Routing направляет простые задачи на дешёвые, а сложные — на дорогие.
Критерии маршрутизации
- Сложность задачи — простой факт vs многошаговое рассуждение.
- Требуемая точность — черновик vs финальный ответ.
- Тип контента — код, текст, анализ изображений.
- Бюджет — остаток токенов на месяц.
Подходы
- Правила — фиксированные правила: «код → GPT-4, факты → Haiku».
- Classifier — модель-классификатор определяет сложность запроса и выбирает модель.
- Fallback — сначала дешёвая, если не справляется → дорогая.
- Комбо — дешёвая для черновика, дорогая для финального ответа.
В сессии
Сессия может использовать разные модели для разных этапов: дешёвую для heartbeat, дорогую для сложных задач пользователя, reasoning model для анализа.
Связанные понятия
- LLM — модели, между которыми маршрутизируются запросы.
- Token budget — бюджет определяет, когда можно позволить дорогую модель.
- Cost optimization — routing — основной инструмент оптимизации.