Alignment

Alignment (выравнивание) — процесс настройки языковой модели на соответствие заданным ценностям, правилам поведения и инструкциям.

Общее

Базовая LLM обучена предсказывать следующий токен — без ограничений. Alignment ограничивает это: модель должна не только генерировать связный текст, но и следовать правилам (быть полезной, безопасной, честной).

Методы

RLHF — обучение с подкреплением на основе обратной связи от людей-оценщиков.
SFT (Supervised Fine-Tuning) — дообучение на размеченных примерах «правильных» ответов.
Конституционный AI — модель сама оценивает свои ответы по набору принципов.

В сессии

Alignment проявляется через:

Отказ от генерации вредного контента.
Следование системному промпту.
Честность при неуверенности.
Уважение границ, заданных пользователем.

Связанные понятия

RLHF — основной метод alignment.
Системный промпт — механизм применения alignment в сессии.
Галлюцинация — проблема, которую alignment частично решает.

Alignment

Содержание

Общее

Методы

В сессии

Связанные понятия

Навигация

Действия на странице

Действия на странице

Персональные инструменты

Main

Поиск

Навигация

Инструменты