Fine-tuning

Fine-tuning — дообучение языковой модели на специализированном наборе данных для улучшения качества в конкретной области.

Общее

Базовая модель обучена на всём. Fine-tuning берёт эту модель и дополнительно тренирует на данных, специфичных для задачи. Результат — модель лучше понимает специализированный язык, формат и паттерны.

Зачем

Специализация — модель лучше работает в узкой области (юриспруденция, медицина, код).
Экономия промпта — инструкции можно сократить, поведение «встроено» в веса.
Форматирование — строгое следование нужному формату вывода.
Стоимость — маленькая fine-tuned модель может быть дешевле большой общего назначения.

Методы

SFT (Supervised Fine-Tuning) — дообучение на парах «вопрос → хороший ответ».
RLHF — fine-tuning через обучение с подкреплением.
**LoRA/QLoRA** — эффективное fine-tuning с минимальным изменением весов.

В сессии

Fine-tuned модель может заменить системный промпт для узкой задачи. Например, модель для резюмирования юридических документов не нуждается в длинной инструкции «как писать резюме».

Связанные понятия

LLM — объект fine-tuning.
RLHF — метод, используемый в fine-tuning.
Промпт — после fine-tuning потребность в длинных промптах снижается.

Fine-tuning

Содержание

Общее

Зачем

Методы

В сессии

Связанные понятия

Навигация

Действия на странице

Действия на странице

Персональные инструменты

Main

Поиск

Навигация

Инструменты