Токен

Материал из Montelibero
Перейти к навигацииПерейти к поиску

Токен — базовая единица текста, которую языковая модель обрабатывает на уровне входных данных.

Общее

Токен — не символ и не слово, а фрагмент текста переменной длины. В большинстве реализаций: 1 токен ≈ 4 символа в английском тексте или ~¾ слова. В русском — чуть больше, из-за морфологии.

Примерное соотношение:

  • 1 токен ≈ 4 символа английского текста
  • 1 токен ≈ ¾ русского слова
  • 1000 токенов ≈ 750 слов ≈ 3–4 страницы

Токенизация

Процесс разделения текста на токены называется токенизацией. Разные модели используют разные токенизаторы — поэтому одно и то же слово может стоить разное количество токенов у разных моделей.

Контекст и стоимость

Контекстное окно измеряется в токенах. Чем длиннее текст — тем больше токенов и тем выше:

  • Стоимость обработки (API pricing обычно per token).
  • Нагрузка на модель.
  • Риск вытеснения важного контекста.

Связанные понятия

  • Контекстное окно — лимит на количество токенов за один запрос.
  • LLM — модель, обрабатывающая токены.