Pre-training
Материал из Montelibero
Перейти к навигацииПерейти к поиску
Pre-training (предобучение) — первичное обучение языковой модели на большом массиве данных до этапа fine-tuning.
Общее
Pre-training — самый длительный и дорогой этап создания LLM. Модель обучается на триллионах токенов (весь интернет, книги, код) с задачей «предсказать следующий токен». Результат — базовая модель (base model), которая понимает язык, но ещё не следует инструкциям.
Что делает
- Учит язык — грамматика, семантика, стиль.
- Учит знания — факты из обучающих данных.
- Учит паттерны — код, диалоги, рассуждения.
- Учит связи — между понятиями, фактами, языками.
Чем не является
Pre-trained модель не является ассистентом. Она продолжает текст, но не отвечает на вопросы и не следует инструкциям. Для этого нужен RLHF и Fine-tuning.
Данные
Типичные источники: Common Crawl, Wikipedia, книги, GitHub, StackExchange, научные статьи. Объём: от 1 до 15 триллионов токенов.
Связанные понятия
- Fine-tuning — дообучение после pre-training.
- RLHF — выравнивание модели после pre-training.
- LLM — результат pre-training.
- Dataset — данные для pre-training.