Квантизация
Материал из Montelibero
Квантизация — снижение точности весов модели для уменьшения размера и увеличения скорости при минимальной потере качества.
Общее
Веса модели хранятся в 32-битных числах (float32). Квантизация преобразует их в меньшую разрядность:
- FP16 — 16 бит на вес (2 байта).
- INT8 — 8 бит (1 байт), потеря точности умеренная.
- INT4 — 4 бита (0.5 байта), потеря заметная, но часто приемлемая.
- INT2/INT3 — экстремальная квантизация для специализированных случаев.
Эффект
Модель 7B параметров:
- FP32 → ~28 ГБ
- INT8 → ~7 ГБ
- INT4 → ~3.5 ГБ
Уменьшение в 4–8 раз без полной переобучения.
Качество
INT8 — практически без потери качества. INT4 — умеренная деградация, часто компенсируемая выбором правильной модели. INT2 — для очень ограниченного железа.
Зачем
- Меньше RAM → модель запускается на обычном железе.
- Быстрее inference → меньше задержка.
- Дешевле inference → экономия на API.
Связанные понятия
- LLM — объект квантизации.
- Fine-tuning — квантизация может применяться после fine-tuning.