Transformer
Transformer — архитектура нейронной сети, лежащая в основе всех современных языковых моделей (LLM).
Общее
Transformer был предложен в 2017 году в статье «Attention Is All You Need» (Vaswani et al.). Ключевая инновация — механизм self-attention, позволяющий модели учитывать отношения между всеми элементами последовательности одновременно, а не последовательно.
Механизм внимания
Self-attention — каждый токен в последовательности «смотрит» на все остальные токены и определяет, какие из них наиболее важны для его обработки. Результат — взвешенная сумма значений всех токенов.
Multi-head attention — несколько параллельных attention-механизмов, каждый из которых «смотрит» на разные аспекты связей между токенами.
Компоненты
- Encoder — обрабатывает входную последовательность, создавая контекстное представление. Используется в BERT.
- Decoder — генерирует выходную последовательность токен за токеном. Используется в GPT.
- Encoder-decoder — полный Transformer (перевод, summarization). T5, BART.
Почему важен
До Transformer модели обрабатывали текст последовательно (RNN, LSTM). Transformer обрабатывает параллельно — это сделало возможным обучение на гигантских массивах данных.
Связанные понятия
- LLM — модель, построенная на архитектуре Transformer.
- Inference — процесс использования обученного Transformer.
- Квантизация — оптимизация весов Transformer для эффективного inference.