Distillation

Материал из Montelibero
Перейти к навигацииПерейти к поиску

Distillation (дистилляция знаний) — метод передачи знаний от большой модели (teacher) к маленькой (student) с минимальной потерей качества.

Общее

Большая модель работает точно, но медленно и дорого. Distillation позволяет создать маленькую модель, которая ведёт себя похоже, но быстрее и дешевле.

Как работает

  1. Teacher (большая модель) генерирует ответы на наборе данных.
  2. Student (маленькая модель) обучается повторять не только финальные ответы, но и распределение вероятностей (soft labels) teacher-модели.
  3. Student учится «думать как teacher», но с меньшим числом параметров.

Что передаётся

  • Soft labels — вероятности для каждого токена, а не только финальный ответ. Содержат больше информации, чем hard labels.
  • Intermediate representations — промежуточные представления teacher (опционально).
  • Attention patterns — паттерны внимания teacher.

Результат

Student модель в 5–10 раз меньше teacher, при этом сохраняет 90–95% качества на целевых задачах.

Связанные понятия

  • LLM — модель, подлежащая дистилляции.
  • Fine-tuning — может применяться после дистилляции для донастройки.
  • Квантизация — другой метод оптимизации, может комбинироваться с дистилляцией.