Трансформер (Transformer) — это архитектура нейронной сети, предложенная исследователями из Google в 2017 году в статье «Attention Is All You Need». Трансформер стал фундаментом практически всех современных языковых моделей и моделей генерации изображений, совершив революцию в области искусственного интеллекта.
Ключевое нововведение трансформера — механизм самовнимания (self-attention). В отличие от предшествующих рекуррентных сетей (RNN), которые обрабатывали текст последовательно слово за словом, трансформер анализирует все слова одновременно и вычисляет степень связи каждого слова с каждым другим в предложении. Это позволяет модели улавливать дальние зависимости в тексте — например, понимать, к какому существительному относится местоимение через несколько предложений.
Оригинальная архитектура состоит из двух частей: энкодера (кодировщика) и декодера (генератора). Энкодер преобразует входной текст в числовые представления, а декодер генерирует выходной текст. На практике разные модели используют разные комбинации: GPT использует только декодер, BERT — только энкодер, а T5 — оба компонента.
Трансформеры применяются далеко за пределами обработки текста. На их основе работают модели генерации изображений (Stable Diffusion, DALL-E), распознавания речи (Whisper), компьютерного зрения (Vision Transformer), генерации музыки и даже предсказания структуры белков (AlphaFold).
Главное преимущество трансформера — масштабируемость. Он эффективно использует параллельные вычисления на GPU, что позволило наращивать размер моделей до сотен миллиардов параметров. Именно эта способность к масштабированию привела к появлению больших языковых моделей и современному прорыву в генеративном ИИ.