Bias
Материал из Montelibero
Перейти к навигацииПерейти к поиску
Bias (предвзятость) — систематическое искажение ответов языковой модели, унаследованное из обучающих данных.
Общее
Модель обучается на данных, созданных людьми. Люди предвзяты. Модель наследует предвзятость — гендерную, расовую, культурную, возрастную.
Примеры:
- «Няня» → ассоциируется с женщинами.
- «CEO» → ассоциируется с мужчинами.
- Определённые культуры представлены шире других.
Источники
- Обучающие данные — интернет, книги, статьи содержат предвзятость.
- Разметка — люди-оценщики вносят свои предпочтения.
- Архитектура — структура модели может усиливать определённые паттерны.
Борьба
- Фильтрация данных — удаление явно предвзятого контента из обучающей выборки.
- Counterfactual data augmentation — добавление сбалансированных примеров.
- RLHF — дообучение с акцентом на нейтральность.
- Evaluation — проверка модели на bias-тестах.