Transformer

Transformer — архитектура нейронной сети, лежащая в основе всех современных языковых моделей (LLM).

Общее

Transformer был предложен в 2017 году в статье «Attention Is All You Need» (Vaswani et al.). Ключевая инновация — механизм self-attention, позволяющий модели учитывать отношения между всеми элементами последовательности одновременно, а не последовательно.

Механизм внимания

Self-attention — каждый токен в последовательности «смотрит» на все остальные токены и определяет, какие из них наиболее важны для его обработки. Результат — взвешенная сумма значений всех токенов.

Multi-head attention — несколько параллельных attention-механизмов, каждый из которых «смотрит» на разные аспекты связей между токенами.

Компоненты

Encoder — обрабатывает входную последовательность, создавая контекстное представление. Используется в BERT.
Decoder — генерирует выходную последовательность токен за токеном. Используется в GPT.
Encoder-decoder — полный Transformer (перевод, summarization). T5, BART.

Почему важен

До Transformer модели обрабатывали текст последовательно (RNN, LSTM). Transformer обрабатывает параллельно — это сделало возможным обучение на гигантских массивах данных.

Связанные понятия

LLM — модель, построенная на архитектуре Transformer.
Inference — процесс использования обученного Transformer.
Квантизация — оптимизация весов Transformer для эффективного inference.

Transformer

Содержание

Общее

Механизм внимания

Компоненты

Почему важен

Связанные понятия

Навигация

Действия на странице

Действия на странице

Персональные инструменты

Main

Поиск

Навигация

Инструменты