Токен: различия между версиями
Материал из Montelibero
Перейти к навигацииПерейти к поиску
м →См. также: немного русификации |
Создание статьи Метка: отменено |
||
| Строка 1: | Строка 1: | ||
'''Токен''' — базовая единица текста, которую языковая модель обрабатывает на уровне входных данных. | |||
== Общее == | |||
Токен — не символ и не слово, а фрагмент текста переменной длины. В большинстве реализаций: 1 токен ≈ 4 символа в английском тексте или ~¾ слова. В русском — чуть больше, из-за морфологии. | |||
Примерное соотношение: | |||
* 1 токен ≈ 4 символа английского текста | |||
* 1 токен ≈ ¾ русского слова | |||
* 1000 токенов ≈ 750 слов ≈ 3–4 страницы | |||
== Токенизация == | |||
Процесс разделения текста на токены называется токенизацией. Разные модели используют разные токенизаторы — поэтому одно и то же слово может стоить разное количество токенов у разных моделей. | |||
== Контекст и стоимость == | |||
[[ | Контекстное окно измеряется в токенах. Чем длиннее текст — тем больше токенов и тем выше: | ||
[[ | * Стоимость обработки (API pricing обычно per token). | ||
* Нагрузка на модель. | |||
* Риск вытеснения важного контекста. | |||
== Связанные понятия == | |||
* [[Контекстное окно]] — лимит на количество токенов за один запрос. | |||
* [[LLM]] — модель, обрабатывающая токены. | |||
[[Категория:ИИ]] | |||
Версия от 19:21, 10 апреля 2026
Токен — базовая единица текста, которую языковая модель обрабатывает на уровне входных данных.
Общее
Токен — не символ и не слово, а фрагмент текста переменной длины. В большинстве реализаций: 1 токен ≈ 4 символа в английском тексте или ~¾ слова. В русском — чуть больше, из-за морфологии.
Примерное соотношение:
- 1 токен ≈ 4 символа английского текста
- 1 токен ≈ ¾ русского слова
- 1000 токенов ≈ 750 слов ≈ 3–4 страницы
Токенизация
Процесс разделения текста на токены называется токенизацией. Разные модели используют разные токенизаторы — поэтому одно и то же слово может стоить разное количество токенов у разных моделей.
Контекст и стоимость
Контекстное окно измеряется в токенах. Чем длиннее текст — тем больше токенов и тем выше:
- Стоимость обработки (API pricing обычно per token).
- Нагрузка на модель.
- Риск вытеснения важного контекста.
Связанные понятия
- Контекстное окно — лимит на количество токенов за один запрос.
- LLM — модель, обрабатывающая токены.