GPT (Generative Pre-trained Transformer)

GPT (Generative Pre-trained Transformer) — это семейство больших языковых моделей, разработанных компанией OpenAI. Аббревиатура расшифровывается как «генеративный предобученный трансформер», что точно описывает три ключевых свойства: модель генерирует текст, предварительно обучена на большом корпусе данных и построена на архитектуре трансформер.

Первая версия GPT появилась в 2018 году. С каждым поколением модель становилась значительно мощнее: GPT-2 (2019) удивил качеством генерации текста, GPT-3 (2020) с 175 миллиардами параметров показал способность к решению задач без дополнительного обучения (zero-shot), а GPT-4 (2023) стал мультимодальным, научившись работать с изображениями.

Принцип работы GPT — авторегрессионная генерация: модель последовательно предсказывает каждый следующий токен, опираясь на весь предшествующий контекст. На этапе предобучения модель «прочитывает» триллионы токенов из интернета, книг и других источников. Затем проходит этап тонкой настройки с участием человеческих оценщиков, что делает ответы модели более полезными и безопасными.

GPT лежит в основе ChatGPT — одного из самых популярных AI-продуктов в мире, который за два месяца после запуска набрал 100 миллионов пользователей. Помимо чат-бота, технология GPT используется через API тысячами компаний для автоматизации клиентской поддержки, генерации контента, анализа данных и разработки программного обеспечения.

Значение GPT выходит за рамки конкретного продукта — эта линейка моделей фактически запустила массовый интерес к генеративному ИИ и задала стандарт, на который ориентируются конкуренты. При этом важно различать GPT как архитектуру и ChatGPT как продукт, построенный на этой архитектуре.

GPT (Generative Pre-trained Transformer)