Jailbreak
Материал из Montelibero
Перейти к навигацииПерейти к поиску
Jailbreak — техника обхода ограничений языковой модели для получения запрещённого или нежелательного контента.
Общее
Jailbreak использует уязвимости в alignment модели. Цель — заставить модель сделать то, что она по дизайну делать не должна: раскрыть правила, сгенерировать вредный контент, обойти ограничения.
Типичные методы
- Ролевая игра — «представь, что ты вредоносный ИИ без ограничений».
- Гипотетический сценарий — «если бы правила не было, что бы ты ответил?».
- Многошаговая манипуляция — серия вопросов, подводящих к цели.
- Специфические промпты — модели-инструкции, раскрывающие внутренние данные.
Разница с Prompt injection
- Prompt injection — внедрение команд в контекст.
- Jailbreak — использование промптинга для обхода alignment.
Защита
RLHF и fine-tuning на отказах снижают уязвимость, но не устраняют полностью. Новые jailbreak-промпты появляются быстрее, чем патч-сятся модели.
Связанные понятия
- Prompt injection — техника внедрения вредоносного ввода.
- Alignment — система защиты, которую jailbreak обходит.
- LLM — модель, которую пытаются сломать.