AI safety

Материал из Montelibero

Перейти к навигации Перейти к поиску

AI safety (безопасность ИИ) — область исследований и практик, направленных на предотвращение вреда от систем искусственного интеллекта.

Уровни

Непосредственный — вред от текущих моделей (галлюцинации, bias, дезинформация).
Среднесрочный — злоупотребление ИИ (deepfakes, автоматизация атак).
Долгосрочный — риски от сверхразумных систем (alignment problem, потеря контроля).

Проблемы

Галлюцинация — модель выдаёт ложную информацию как факт.
Bias — модель воспроизводит предвзятость обучающих данных.
Prompt injection — злоумышленник перехватывает управление.
Jailbreak — обход защитных ограничений модели.
Dual use — технология используется как во благо, так и во вред.

Подходы

Alignment — выравнивание модели с человеческими ценностями.
RLHF — обучение на основе человеческой обратной связи.
Red teaming — целенаправленный поиск уязвимостей в модели.
Interpretability — понимание того, как модель принимает решения.

Связанные понятия

Alignment — основа без�пасности ИИ.
Галлюцинация — одна из проблем безопасности.
Jailbreak — вектор атаки.

Источник — https://monte.wiki/ru/index.php?title=AI_safety&oldid=5560

Категория:

ИИ

Навигация