Pre-training

Pre-training (предобучение) — первичное обучение языковой модели на большом массиве данных до этапа fine-tuning.

Общее

Pre-training — самый длительный и дорогой этап создания LLM. Модель обучается на триллионах токенов (весь интернет, книги, код) с задачей «предсказать следующий токен». Результат — базовая модель (base model), которая понимает язык, но ещё не следует инструкциям.

Что делает

Учит язык — грамматика, семантика, стиль.
Учит знания — факты из обучающих данных.
Учит паттерны — код, диалоги, рассуждения.
Учит связи — между понятиями, фактами, языками.

Чем не является

Pre-trained модель не является ассистентом. Она продолжает текст, но не отвечает на вопросы и не следует инструкциям. Для этого нужен RLHF и Fine-tuning.

Данные

Типичные источники: Common Crawl, Wikipedia, книги, GitHub, StackExchange, научные статьи. Объём: от 1 до 15 триллионов токенов.

Связанные понятия

Fine-tuning — дообучение после pre-training.
RLHF — выравнивание модели после pre-training.
LLM — результат pre-training.
Dataset — данные для pre-training.

Pre-training

Содержание

Общее

Что делает

Чем не является

Данные

Связанные понятия

Навигация

Действия на странице

Действия на странице

Персональные инструменты

Main

Поиск

Навигация

Инструменты