Distillation

Distillation (дистилляция знаний) — метод передачи знаний от большой модели (teacher) к маленькой (student) с минимальной потерей качества.

Общее

Большая модель работает точно, но медленно и дорого. Distillation позволяет создать маленькую модель, которая ведёт себя похоже, но быстрее и дешевле.

Как работает

Teacher (большая модель) генерирует ответы на наборе данных.
Student (маленькая модель) обучается повторять не только финальные ответы, но и распределение вероятностей (soft labels) teacher-модели.
Student учится «думать как teacher», но с меньшим числом параметров.

Что передаётся

Soft labels — вероятности для каждого токена, а не только финальный ответ. Содержат больше информации, чем hard labels.
Intermediate representations — промежуточные представления teacher (опционально).
Attention patterns — паттерны внимания teacher.

Результат

Student модель в 5–10 раз меньше teacher, при этом сохраняет 90–95% качества на целевых задачах.

Связанные понятия

LLM — модель, подлежащая дистилляции.
Fine-tuning — может применяться после дистилляции для донастройки.
Квантизация — другой метод оптимизации, может комбинироваться с дистилляцией.

Distillation

Содержание

Общее

Как работает

Что передаётся

Результат

Связанные понятия

Навигация

Действия на странице

Действия на странице

Персональные инструменты

Main

Поиск

Навигация

Инструменты