Alignment
Материал из Montelibero
Перейти к навигацииПерейти к поиску
Alignment (выравнивание) — процесс настройки языковой модели на соответствие заданным ценностям, правилам поведения и инструкциям.
Общее
Базовая LLM обучена предсказывать следующий токен — без ограничений. Alignment ограничивает это: модель должна не только генерировать связный текст, но и следовать правилам (быть полезной, безопасной, честной).
Методы
- RLHF — обучение с подкреплением на основе обратной связи от людей-оценщиков.
- SFT (Supervised Fine-Tuning) — дообучение на размеченных примерах «правильных» ответов.
- Конституционный AI — модель сама оценивает свои ответы по набору принципов.
В сессии
Alignment проявляется через:
- Отказ от генерации вредного контента.
- Следование системному промпту.
- Честность при неуверенности.
- Уважение границ, заданных пользователем.
Связанные понятия
- RLHF — основной метод alignment.
- Системный промпт — механизм применения alignment в сессии.
- Галлюцинация — проблема, которую alignment частично решает.