Fine-tuning
Материал из Montelibero
Перейти к навигацииПерейти к поиску
Fine-tuning — дообучение языковой модели на специализированном наборе данных для улучшения качества в конкретной области.
Общее
Базовая модель обучена на всём. Fine-tuning берёт эту модель и дополнительно тренирует на данных, специфичных для задачи. Результат — модель лучше понимает специализированный язык, формат и паттерны.
Зачем
- Специализация — модель лучше работает в узкой области (юриспруденция, медицина, код).
- Экономия промпта — инструкции можно сократить, поведение «встроено» в веса.
- Форматирование — строгое следование нужному формату вывода.
- Стоимость — маленькая fine-tuned модель может быть дешевле большой общего назначения.
Методы
- SFT (Supervised Fine-Tuning) — дообучение на парах «вопрос → хороший ответ».
- RLHF — fine-tuning через обучение с подкреплением.
- **LoRA/QLoRA** — эффективное fine-tuning с минимальным изменением весов.
В сессии
Fine-tuned модель может заменить системный промпт для узкой задачи. Например, модель для резюмирования юридических документов не нуждается в длинной инструкции «как писать резюме».