Model routing

Model routing (маршрутизация моделей) — стратегия выбора оптимальной модели для каждого запроса в зависимости от его сложности.

Зачем

Дорогие модели (GPT-4, Claude Opus) точнее, но стоят в 10–30 раз дороже дешёвых (GPT-4o-mini, Haiku). Не все запросы требуют дорогой модели. Routing направляет простые задачи на дешёвые, а сложные — на дорогие.

Критерии маршрутизации

Сложность задачи — простой факт vs многошаговое рассуждение.
Требуемая точность — черновик vs финальный ответ.
Тип контента — код, текст, анализ изображений.
Бюджет — остаток токенов на месяц.

Подходы

Правила — фиксированные правила: «код → GPT-4, факты → Haiku».
Classifier — модель-классификатор определяет сложность запроса и выбирает модель.
Fallback — сначала дешёвая, если не справляется → дорогая.
Комбо — дешёвая для черновика, дорогая для финального ответа.

В сессии

Сессия может использовать разные модели для разных этапов: дешёвую для heartbeat, дорогую для сложных задач пользователя, reasoning model для анализа.

Связанные понятия

LLM — модели, между которыми маршрутизируются запросы.
Token budget — бюджет определяет, когда можно позволить дорогую модель.
Cost optimization — routing — основной инструмент оптимизации.

Model routing

Содержание

Зачем

Критерии маршрутизации

Подходы

В сессии

Связанные понятия

Навигация

Действия на странице

Действия на странице

Персональные инструменты

Main

Поиск

Навигация

Инструменты