Reasoning model
Материал из Montelibero
Перейти к навигацииПерейти к поиску
Reasoning model (модель рассуждений) — языковая модель, обученная с акцентом на пошаговое рассуждение перед генерацией ответа.
Общее
Обычная модель генерирует ответ напрямую. Reasoning model сначала продумывает решение (chain-of-thought), а затем формулирует итоговый ответ. Это разделение встроено в процесс генерации, а не вызвано промптом.
Примеры
- OpenAI o1/o3 — демонстрирует явное рассуждение перед финальным ответом.
- DeepSeek R1 — модель с выделенным этапом рефлексии и самокорректировки.
- Claude 3.7 Sonnet (extended thinking) — встроенный режим размышления перед ответом.
Чем отличается от обычной LLM =
- Скрытое рассуждение — модель генерирует внутренний процесс, который не показывается пользователю (или показывается опционально).
- Качество vs скорость — reasoning models обычно медленнее, но точнее в сложных задачах.
- Другая архитектура — обучение через reinforcement learning на задачах, требующих рассуждений.
Chain-of-thought vs Reasoning model =
CoT вызывается промптом — модель «просят» думать пошагово. Reasoning model — модель обучена рассуждать по умолчанию. CoT работает на любой модели; reasoning model — встроенная способность.
В сессии =
Reasoning models тратят больше токенов на генерацию (внутреннее рассуждение скрыто от пользователя, но занимает место в budget). Это нужно учитывать при планировании.
Связанные понятия =
- LLM — базовая модель, рассуждающая модель — её разновидность.
- Chain-of-thought — техника, которую reasoning model выполняет встроенно.
- Token budget — reasoning models требуют большего бюджета токенов.