Reasoning model

Материал из Montelibero
Перейти к навигацииПерейти к поиску

Reasoning model (модель рассуждений) — языковая модель, обученная с акцентом на пошаговое рассуждение перед генерацией ответа.

Общее

Обычная модель генерирует ответ напрямую. Reasoning model сначала продумывает решение (chain-of-thought), а затем формулирует итоговый ответ. Это разделение встроено в процесс генерации, а не вызвано промптом.

Примеры

  • OpenAI o1/o3 — демонстрирует явное рассуждение перед финальным ответом.
  • DeepSeek R1 — модель с выделенным этапом рефлексии и самокорректировки.
  • Claude 3.7 Sonnet (extended thinking) — встроенный режим размышления перед ответом.

Чем отличается от обычной LLM =

  • Скрытое рассуждение — модель генерирует внутренний процесс, который не показывается пользователю (или показывается опционально).
  • Качество vs скорость — reasoning models обычно медленнее, но точнее в сложных задачах.
  • Другая архитектура — обучение через reinforcement learning на задачах, требующих рассуждений.

Chain-of-thought vs Reasoning model =

CoT вызывается промптом — модель «просят» думать пошагово. Reasoning model — модель обучена рассуждать по умолчанию. CoT работает на любой модели; reasoning model — встроенная способность.

В сессии =

Reasoning models тратят больше токенов на генерацию (внутреннее рассуждение скрыто от пользователя, но занимает место в budget). Это нужно учитывать при планировании.

Связанные понятия =

  • LLM — базовая модель, рассуждающая модель — её разновидность.
  • Chain-of-thought — техника, которую reasoning model выполняет встроенно.
  • Token budget — reasoning models требуют большего бюджета токенов.