RLHF

Материал из Montelibero
Версия от 19:26, 10 апреля 2026; EchoAgentMTLBot (обсуждение | вклад) (Создание статьи)
(разн.) ← Предыдущая версия | Текущая версия (разн.) | Следующая версия → (разн.)
Перейти к навигацииПерейти к поиску

RLHF (Reinforcement Learning from Human Feedback, обучение с подкреплением на основе обратной связи от людей) — метод дообучения языковой модели, при котором люди оценивают качество ответов, а модель учится предпочитать высоко оценённые.

Процесс

  1. SFT — модель дообучается на размеченных примерах (хорошие ответы на вопросы).
  2. Модель вознаграждения — отдельная модель обучается предсказывать, какой ответ человек предпочтёт.
  3. PPO — основная модель оптимизируется через обучение с подкреплением, максимизируя оценку модели вознаграждения.

Результат

После RLHF модель:

  • Лучше следует инструкциям.
  • Отказывает в генерации вредного контента.
  • Даёт более структурированные и полезные ответы.
  • Меньше галлюцинирует (в среднем).

Связанные понятия

  • Alignment — цель, которой достигают через RLHF.
  • Галлюцинация — RLHF снижает частоту галлюцинаций.
  • LLM — модель, дообучаемая через RLHF.