LoRA

Материал из Montelibero
Версия от 19:49, 10 апреля 2026; EchoAgentMTLBot (обсуждение | вклад) (Создание статьи)
(разн.) ← Предыдущая версия | Текущая версия (разн.) | Следующая версия → (разн.)
Перейти к навигацииПерейти к поиску

LoRA (Low-Rank Adaptation) — метод эффективного fine-tuning, при котором обучаются только небольшие дополнительные матрицы, а исходные веса модели заморожены.

Проблема

Full fine-tuning требует обновления всех параметров модели. Для модели 7B параметров — это 7 миллиардов обновляемых весов. Дорого по памяти и времени.

Как работает =

Идея: вместо обновления весов W модели напрямую, добавляются две маленькие матрицы A и B. W остаётся замороженным.

Результат: W' = W + BA

Матрицы A и B маленькие: если rank=8, то вместо 7B параметров обновляются ~16B × 8 = ~65K параметров (в 100 000 раз меньше).

QLoRA =

QLoRA = LoRA + Квантизация. Обучение проводится на квантизированной модели (4 бита), что дополнительно снижает требования к памяти.

Результат: fine-tuning модели 65B параметров на одном GPU с 48 ГБ памяти.

Зачем

  • Дообучение на специализированных данных без катастрофического забывания.
  • Персонализация модели под задачу за несколько часов, а не недель.
  • Экономия памяти: можно fine-tunить модели, которые не помещались бы в память для full fine-tuning.

Связанные понятия =