In-context learning
Материал из Montelibero
Перейти к навигацииПерейти к поиску
In-context learning (обучение в контексте) — способность языковой модели улучшать качество ответа на новых примерах, представленных непосредственно в контексте запроса.
Общее
In-context learning — это не обучение в традиционном смысле (нет изменения весов). Модель «учится» на примерах из текущего контекста и адаптирует своё поведение без дополнительного обучения.
Few-shot — следствие, не причина =
Few-shot — техника, которая использует in-context learning. Модель способна к ICL, потому что это свойство архитектуры Transformer с большим контекстом. Few-shot — один из способов это свойство задействовать.
Как это работает (теория) =
Модель во время inference:
- Видит паттерн в примерах (input → output).
- Строит внутреннее представление задачи.
- Применяет это представление к новому запросу.
Точный механизм — предмет исследований (это не gradient descent в чистом виде).
Zero-shot vs Few-shot =
- Zero-shot ICL — модель решает задачу без примеров (по инструкции в промпте).
- Few-shot ICL — модель видит 1–5 примеров и экстраполирует паттерн.
Ограничения
- Качество ICL зависит от модели — большие модели учатся лучше.
- Примеры должны быть релевантными и хорошо сформулированными.
- ICL не заменяет fine-tuning для задач, требующих глубокого знания предметной области.
Связанные понятия
- Few-shot — техника использования ICL.
- Prompt engineering — выбор и формулировка примеров для ICL.
- LLM — свойство, присущее современным LLM с большим контекстом.