RLHF
Материал из Montelibero
Перейти к навигацииПерейти к поиску
RLHF (Reinforcement Learning from Human Feedback, обучение с подкреплением на основе обратной связи от людей) — метод дообучения языковой модели, при котором люди оценивают качество ответов, а модель учится предпочитать высоко оценённые.
Процесс
- SFT — модель дообучается на размеченных примерах (хорошие ответы на вопросы).
- Модель вознаграждения — отдельная модель обучается предсказывать, какой ответ человек предпочтёт.
- PPO — основная модель оптимизируется через обучение с подкреплением, максимизируя оценку модели вознаграждения.
Результат
После RLHF модель:
- Лучше следует инструкциям.
- Отказывает в генерации вредного контента.
- Даёт более структурированные и полезные ответы.
- Меньше галлюцинирует (в среднем).
Связанные понятия
- Alignment — цель, которой достигают через RLHF.
- Галлюцинация — RLHF снижает частоту галлюцинаций.
- LLM — модель, дообучаемая через RLHF.