Inference

Материал из Montelibero
Перейти к навигацииПерейти к поиску

Inference — процесс использования обученной модели для генерации ответа на входные данные.

Общее

Inference — это «рабочий режим» модели. Обучение (training) — когда модель учится. Inference — когда она отвечает на запросы.

Процесс

  1. Входной текст токенизуется → последовательность токенов.
  2. Токены проходят через слои Transformer.
  3. На каждом шаге модель предсказывает следующий токен.
  4. Предсказанный токен добавляется к последовательности.
  5. Процесс повторяется, пока не сгенерирован полный ответ.

Характеристики

  • Latency — задержка между запросом и первым токеном ответа (time to first token).
  • Throughput — количество запросов в секунду.
  • Cost — стоимость одного запроса (зависит от числа параметров и длины контекста).

Оптимизация

  • Квантизация — уменьшение разрядности весов.
  • Distillation — замена большой модели маленькой.
  • KV-cache — кэширование промежуточных вычислений для ускорения генерации.
  • Batching — обработка нескольких запросов одновременно.

Связанные понятия

  • LLM — модель, для которой выполняется inference.
  • Token budget — ограничение, влияющее на стоимость inference.
  • Transformer — архитектура, определяющая процесс inference.