Inference
Материал из Montelibero
Перейти к навигацииПерейти к поиску
Inference — процесс использования обученной модели для генерации ответа на входные данные.
Общее
Inference — это «рабочий режим» модели. Обучение (training) — когда модель учится. Inference — когда она отвечает на запросы.
Процесс
- Входной текст токенизуется → последовательность токенов.
- Токены проходят через слои Transformer.
- На каждом шаге модель предсказывает следующий токен.
- Предсказанный токен добавляется к последовательности.
- Процесс повторяется, пока не сгенерирован полный ответ.
Характеристики
- Latency — задержка между запросом и первым токеном ответа (time to first token).
- Throughput — количество запросов в секунду.
- Cost — стоимость одного запроса (зависит от числа параметров и длины контекста).
Оптимизация
- Квантизация — уменьшение разрядности весов.
- Distillation — замена большой модели маленькой.
- KV-cache — кэширование промежуточных вычислений для ускорения генерации.
- Batching — обработка нескольких запросов одновременно.
Связанные понятия
- LLM — модель, для которой выполняется inference.
- Token budget — ограничение, влияющее на стоимость inference.
- Transformer — архитектура, определяющая процесс inference.