LoRA

LoRA (Low-Rank Adaptation) — метод эффективного fine-tuning, при котором обучаются только небольшие дополнительные матрицы, а исходные веса модели заморожены.

Проблема

Full fine-tuning требует обновления всех параметров модели. Для модели 7B параметров — это 7 миллиардов обновляемых весов. Дорого по памяти и времени.

Как работает =

Идея: вместо обновления весов W модели напрямую, добавляются две маленькие матрицы A и B. W остаётся замороженным.

Результат: W' = W + BA

Матрицы A и B маленькие: если rank=8, то вместо 7B параметров обновляются ~16B × 8 = ~65K параметров (в 100 000 раз меньше).

QLoRA =

QLoRA = LoRA + Квантизация. Обучение проводится на квантизированной модели (4 бита), что дополнительно снижает требования к памяти.

Результат: fine-tuning модели 65B параметров на одном GPU с 48 ГБ памяти.

Зачем

Дообучение на специализированных данных без катастрофического забывания.
Персонализация модели под задачу за несколько часов, а не недель.
Экономия памяти: можно fine-tunить модели, которые не помещались бы в память для full fine-tuning.

Связанные понятия =

Fine-tuning — LoRA разновидность fine-tuning.
Квантизация — используется в QLoRA.
Distillation — LoRA может быть результатом дистилляции.

LoRA

Содержание

Проблема

Как работает =

QLoRA =

Зачем

Связанные понятия =

Навигация

Действия на странице

Действия на странице

Персональные инструменты

Main

Поиск

Навигация

Инструменты