Top-p sampling

Материал из Montelibero
Перейти к навигацииПерейти к поиску

Top-p / nucleus sampling — стратегия выбора следующего токена, ограничивающая выбор наиболее вероятными вариантами.

Проблема Temperature =

Temperature управляет общей случайностью. Top-p управляет точнее: не просто «какая случайность», а «из какого количества лучших вариантов выбирать».

Как работает =

Модель выдаёт распределение вероятностей для следующего токена.

  1. Отсортировать токены по убыванию вероятности.
  2. Накапливать вероятности, начиная с самого вероятного.
  3. Взять все токены, пока сумма не превысит p (например, p=0.9).
  4. Выбрать следующий токен из этого набора (top-p set).

При p=1.0 — все токены, результат как при обычном семплировании. При p=0.1 — только самые вероятные токены (~10% вероятностной массы). При p=0.0 — только один токен (greedy).

Top-p vs Temperature =

  • Temperature — глобальная настройка случайности.
  • Top-p — локальная настройка: «брать только из верхних p%».

Обычно используют оба вместе: temperature=0.7 + top-p=0.9.

Связанные понятия

  • Temperature — дополняет top-p.
  • LLM — модель генерирует распределение вероятностей.
  • Token — объект выбора в top-p сэмплировании.