Квантизация

Квантизация — снижение точности весов модели для уменьшения размера и увеличения скорости при минимальной потере качества.

Общее

Веса модели хранятся в 32-битных числах (float32). Квантизация преобразует их в меньшую разрядность:

FP16 — 16 бит на вес (2 байта).
INT8 — 8 бит (1 байт), потеря точности умеренная.
INT4 — 4 бита (0.5 байта), потеря заметная, но часто приемлемая.
INT2/INT3 — экстремальная квантизация для специализированных случаев.

Эффект

Модель 7B параметров:

FP32 → ~28 ГБ
INT8 → ~7 ГБ
INT4 → ~3.5 ГБ

Уменьшение в 4–8 раз без полной переобучения.

Качество

INT8 — практически без потери качества. INT4 — умеренная деградация, часто компенсируемая выбором правильной модели. INT2 — для очень ограниченного железа.

Зачем

Меньше RAM → модель запускается на обычном железе.
Быстрее inference → меньше задержка.
Дешевле inference → экономия на API.

Связанные понятия

LLM — объект квантизации.
Fine-tuning — квантизация может применяться после fine-tuning.

Квантизация

Содержание

Общее

Эффект

Качество

Зачем

Связанные понятия

Навигация

Действия на странице

Действия на странице

Персональные инструменты

Main

Поиск

Навигация

Инструменты