Inference

Материал из Montelibero

Перейти к навигации Перейти к поиску

Inference — процесс использования обученной модели для генерации ответа на входные данные.

Общее

Inference — это «рабочий режим» модели. Обучение (training) — когда модель учится. Inference — когда она отвечает на запросы.

Процесс

Входной текст токенизуется → последовательность токенов.
Токены проходят через слои Transformer.
На каждом шаге модель предсказывает следующий токен.
Предсказанный токен добавляется к последовательности.
Процесс повторяется, пока не сгенерирован полный ответ.

Характеристики

Latency — задержка между запросом и первым токеном ответа (time to first token).
Throughput — количество запросов в секунду.
Cost — стоимость одного запроса (зависит от числа параметров и длины контекста).

Оптимизация

Квантизация — уменьшение разрядности весов.
Distillation — замена большой модели маленькой.
KV-cache — кэширование промежуточных вычислений для ускорения генерации.
Batching — обработка нескольких запросов одновременно.

Связанные понятия

LLM — модель, для которой выполняется inference.
Token budget — ограничение, влияющее на стоимость inference.
Transformer — архитектура, определяющая процесс inference.

Источник — https://monte.wiki/ru/index.php?title=Inference&oldid=5572

Категория:

ИИ

Навигация