Fine-tuning

Материал из Montelibero
Перейти к навигацииПерейти к поиску

Fine-tuning — дообучение языковой модели на специализированном наборе данных для улучшения качества в конкретной области.

Общее

Базовая модель обучена на всём. Fine-tuning берёт эту модель и дополнительно тренирует на данных, специфичных для задачи. Результат — модель лучше понимает специализированный язык, формат и паттерны.

Зачем

  • Специализация — модель лучше работает в узкой области (юриспруденция, медицина, код).
  • Экономия промпта — инструкции можно сократить, поведение «встроено» в веса.
  • Форматирование — строгое следование нужному формату вывода.
  • Стоимость — маленькая fine-tuned модель может быть дешевле большой общего назначения.

Методы

  • SFT (Supervised Fine-Tuning) — дообучение на парах «вопрос → хороший ответ».
  • RLHF — fine-tuning через обучение с подкреплением.
  • **LoRA/QLoRA** — эффективное fine-tuning с минимальным изменением весов.

В сессии

Fine-tuned модель может заменить системный промпт для узкой задачи. Например, модель для резюмирования юридических документов не нуждается в длинной инструкции «как писать резюме».

Связанные понятия

  • LLM — объект fine-tuning.
  • RLHF — метод, используемый в fine-tuning.
  • Промпт — после fine-tuning потребность в длинных промптах снижается.