Bias

Материал из Montelibero

Перейти к навигации Перейти к поиску

Bias (предвзятость) — систематическое искажение ответов языковой модели, унаследованное из обучающих данных.

Общее

Модель обучается на данных, созданных людьми. Люди предвзяты. Модель наследует предвзятость — гендерную, расовую, культурную, возрастную.

Примеры:

«Няня» → ассоциируется с женщинами.
«CEO» → ассоциируется с мужчинами.
Определённые культуры представлены шире других.

Источники

Обучающие данные — интернет, книги, статьи содержат предвзятость.
Разметка — люди-оценщики вносят свои предпочтения.
Архитектура — структура модели может усиливать определённые паттерны.

Борьба

Фильтрация данных — удаление явно предвзятого контента из обучающей выборки.
Counterfactual data augmentation — добавление сбалансированных примеров.
RLHF — дообучение с акцентом на нейтральность.
Evaluation — проверка модели на bias-тестах.

Связанные понятия

Dataset — источник bias.
RLHF — метод частичной коррекции bias.
AI safety — bias входит в проблемы безопасности.

Источник — https://monte.wiki/ru/index.php?title=Bias&oldid=5562

Категория:

ИИ

Навигация