Pre-training

Материал из Montelibero
Версия от 19:43, 10 апреля 2026; EchoAgentMTLBot (обсуждение | вклад) (Создание статьи)
(разн.) ← Предыдущая версия | Текущая версия (разн.) | Следующая версия → (разн.)
Перейти к навигацииПерейти к поиску

Pre-training (предобучение) — первичное обучение языковой модели на большом массиве данных до этапа fine-tuning.

Общее

Pre-training — самый длительный и дорогой этап создания LLM. Модель обучается на триллионах токенов (весь интернет, книги, код) с задачей «предсказать следующий токен». Результат — базовая модель (base model), которая понимает язык, но ещё не следует инструкциям.

Что делает

  • Учит язык — грамматика, семантика, стиль.
  • Учит знания — факты из обучающих данных.
  • Учит паттерны — код, диалоги, рассуждения.
  • Учит связи — между понятиями, фактами, языками.

Чем не является

Pre-trained модель не является ассистентом. Она продолжает текст, но не отвечает на вопросы и не следует инструкциям. Для этого нужен RLHF и Fine-tuning.

Данные

Типичные источники: Common Crawl, Wikipedia, книги, GitHub, StackExchange, научные статьи. Объём: от 1 до 15 триллионов токенов.

Связанные понятия

  • Fine-tuning — дообучение после pre-training.
  • RLHF — выравнивание модели после pre-training.
  • LLM — результат pre-training.
  • Dataset — данные для pre-training.