Top-p sampling
Материал из Montelibero
Перейти к навигацииПерейти к поиску
Top-p / nucleus sampling — стратегия выбора следующего токена, ограничивающая выбор наиболее вероятными вариантами.
Проблема Temperature =
Temperature управляет общей случайностью. Top-p управляет точнее: не просто «какая случайность», а «из какого количества лучших вариантов выбирать».
Как работает =
Модель выдаёт распределение вероятностей для следующего токена.
- Отсортировать токены по убыванию вероятности.
- Накапливать вероятности, начиная с самого вероятного.
- Взять все токены, пока сумма не превысит p (например, p=0.9).
- Выбрать следующий токен из этого набора (top-p set).
При p=1.0 — все токены, результат как при обычном семплировании. При p=0.1 — только самые вероятные токены (~10% вероятностной массы). При p=0.0 — только один токен (greedy).
Top-p vs Temperature =
- Temperature — глобальная настройка случайности.
- Top-p — локальная настройка: «брать только из верхних p%».
Обычно используют оба вместе: temperature=0.7 + top-p=0.9.
Связанные понятия
- Temperature — дополняет top-p.
- LLM — модель генерирует распределение вероятностей.
- Token — объект выбора в top-p сэмплировании.