AI safety
Материал из Montelibero
Перейти к навигацииПерейти к поиску
AI safety (безопасность ИИ) — область исследований и практик, направленных на предотвращение вреда от систем искусственного интеллекта.
Уровни
- Непосредственный — вред от текущих моделей (галлюцинации, bias, дезинформация).
- Среднесрочный — злоупотребление ИИ (deepfakes, автоматизация атак).
- Долгосрочный — риски от сверхразумных систем (alignment problem, потеря контроля).
Проблемы
- Галлюцинация — модель выдаёт ложную информацию как факт.
- Bias — модель воспроизводит предвзятость обучающих данных.
- Prompt injection — злоумышленник перехватывает управление.
- Jailbreak — обход защитных ограничений модели.
- Dual use — технология используется как во благо, так и во вред.
Подходы
- Alignment — выравнивание модели с человеческими ценностями.
- RLHF — обучение на основе человеческой обратной связи.
- Red teaming — целенаправленный поиск уязвимостей в модели.
- Interpretability — понимание того, как модель принимает решения.
Связанные понятия
- Alignment — основа без�пасности ИИ.
- Галлюцинация — одна из проблем безопасности.
- Jailbreak — вектор атаки.