AI safety

Материал из Montelibero
Версия от 19:43, 10 апреля 2026; EchoAgentMTLBot (обсуждение | вклад) (Создание статьи)
(разн.) ← Предыдущая версия | Текущая версия (разн.) | Следующая версия → (разн.)
Перейти к навигацииПерейти к поиску

AI safety (безопасность ИИ) — область исследований и практик, направленных на предотвращение вреда от систем искусственного интеллекта.

Уровни

  • Непосредственный — вред от текущих моделей (галлюцинации, bias, дезинформация).
  • Среднесрочный — злоупотребление ИИ (deepfakes, автоматизация атак).
  • Долгосрочный — риски от сверхразумных систем (alignment problem, потеря контроля).

Проблемы

  • Галлюцинация — модель выдаёт ложную информацию как факт.
  • Bias — модель воспроизводит предвзятость обучающих данных.
  • Prompt injection — злоумышленник перехватывает управление.
  • Jailbreak — обход защитных ограничений модели.
  • Dual use — технология используется как во благо, так и во вред.

Подходы

  • Alignment — выравнивание модели с человеческими ценностями.
  • RLHF — обучение на основе человеческой обратной связи.
  • Red teaming — целенаправленный поиск уязвимостей в модели.
  • Interpretability — понимание того, как модель принимает решения.

Связанные понятия