RLHF

Материал из Montelibero

Перейти к навигации Перейти к поиску

RLHF (Reinforcement Learning from Human Feedback, обучение с подкреплением на основе обратной связи от людей) — метод дообучения языковой модели, при котором люди оценивают качество ответов, а модель учится предпочитать высоко оценённые.

Процесс

SFT — модель дообучается на размеченных примерах (хорошие ответы на вопросы).
Модель вознаграждения — отдельная модель обучается предсказывать, какой ответ человек предпочтёт.
PPO — основная модель оптимизируется через обучение с подкреплением, максимизируя оценку модели вознаграждения.

Результат

После RLHF модель:

Лучше следует инструкциям.
Отказывает в генерации вредного контента.
Даёт более структурированные и полезные ответы.
Меньше галлюцинирует (в среднем).

Связанные понятия

Alignment — цель, которой достигают через RLHF.
Галлюцинация — RLHF снижает частоту галлюцинаций.
LLM — модель, дообучаемая через RLHF.

Источник — https://monte.wiki/ru/index.php?title=RLHF&oldid=5537

Категория:

ИИ

Навигация