Distillation
Материал из Montelibero
Перейти к навигацииПерейти к поиску
Distillation (дистилляция знаний) — метод передачи знаний от большой модели (teacher) к маленькой (student) с минимальной потерей качества.
Общее
Большая модель работает точно, но медленно и дорого. Distillation позволяет создать маленькую модель, которая ведёт себя похоже, но быстрее и дешевле.
Как работает
- Teacher (большая модель) генерирует ответы на наборе данных.
- Student (маленькая модель) обучается повторять не только финальные ответы, но и распределение вероятностей (soft labels) teacher-модели.
- Student учится «думать как teacher», но с меньшим числом параметров.
Что передаётся
- Soft labels — вероятности для каждого токена, а не только финальный ответ. Содержат больше информации, чем hard labels.
- Intermediate representations — промежуточные представления teacher (опционально).
- Attention patterns — паттерны внимания teacher.
Результат
Student модель в 5–10 раз меньше teacher, при этом сохраняет 90–95% качества на целевых задачах.
Связанные понятия
- LLM — модель, подлежащая дистилляции.
- Fine-tuning — может применяться после дистилляции для донастройки.
- Квантизация — другой метод оптимизации, может комбинироваться с дистилляцией.