Квантизация

Материал из Montelibero
Перейти к навигацииПерейти к поиску

Квантизация — снижение точности весов модели для уменьшения размера и увеличения скорости при минимальной потере качества.

Общее

Веса модели хранятся в 32-битных числах (float32). Квантизация преобразует их в меньшую разрядность:

  • FP16 — 16 бит на вес (2 байта).
  • INT8 — 8 бит (1 байт), потеря точности умеренная.
  • INT4 — 4 бита (0.5 байта), потеря заметная, но часто приемлемая.
  • INT2/INT3 — экстремальная квантизация для специализированных случаев.

Эффект

Модель 7B параметров:

  • FP32 → ~28 ГБ
  • INT8 → ~7 ГБ
  • INT4 → ~3.5 ГБ

Уменьшение в 4–8 раз без полной переобучения.

Качество

INT8 — практически без потери качества. INT4 — умеренная деградация, часто компенсируемая выбором правильной модели. INT2 — для очень ограниченного железа.

Зачем

  • Меньше RAM → модель запускается на обычном железе.
  • Быстрее inference → меньше задержка.
  • Дешевле inference → экономия на API.

Связанные понятия

  • LLM — объект квантизации.
  • Fine-tuning — квантизация может применяться после fine-tuning.