Self-consistency
Материал из Montelibero
Перейти к навигацииПерейти к поиску
Self-consistency — техника повышения качества ответов модели путём генерации нескольких цепочек рассуждений (CoT) и выбора наиболее консенсусного ответа.
Общее
Chain-of-thought даёт один ответ через рассуждение. Self-consistency генерирует несколько (N = 5–20) независимых цепочек рассуждений и выбирает ответ, который встречается чаще всего.
Как работает
- Запрос + «думай пошагово» → модель генерирует рассуждение → ответ A.
- Повторить N раз → ответы A, B, A, C, A.
- Выбрать наиболее частый: A (3 из 5).
- Финальный ответ: A.
Зачем
Разные цепочки рассуждений могут привести к одной ошибке (модель ошибается в одном месте). Консенсусный выбор снижает вероятность случайной ошибки.
Результат
Self-consistency значительно улучшает результаты на задачах:
- Математика (GSM8K, MATH).
- Логическое рассуждение.
- Общие знания.
Стоимость: в N раз больше токенов на генерацию (и на запрос, и на ответы).
Связанные понятия
- Chain-of-thought — основа для self-consistency.
- Temperature — влияет на разнообразие цепочек (нужна умеренная > 0 для вариативности).
- Reasoning model — reasoning models естественно поддерживают self-consistency.