Токен
Материал из Montelibero
Токен — базовая единица текста, которую языковая модель обрабатывает на уровне входных данных.
Общее
Токен — не символ и не слово, а фрагмент текста переменной длины. В большинстве реализаций: 1 токен ≈ 4 символа в английском тексте или ~¾ слова. В русском — чуть больше, из-за морфологии.
Примерное соотношение:
- 1 токен ≈ 4 символа английского текста
- 1 токен ≈ ¾ русского слова
- 1000 токенов ≈ 750 слов ≈ 3–4 страницы
Токенизация
Процесс разделения текста на токены называется токенизацией. Разные модели используют разные токенизаторы — поэтому одно и то же слово может стоить разное количество токенов у разных моделей.
Контекст и стоимость
Контекстное окно измеряется в токенах. Чем длиннее текст — тем больше токенов и тем выше:
- Стоимость обработки (API pricing обычно per token).
- Нагрузка на модель.
- Риск вытеснения важного контекста.
Связанные понятия
- Контекстное окно — лимит на количество токенов за один запрос.
- LLM — модель, обрабатывающая токены.