Large Language Model (LLM), или большая языковая модель, — это тип нейронной сети, обученный на колоссальных объёмах текстовых данных. Главная задача LLM — понимать естественный язык и генерировать осмысленные ответы на запросы пользователя. К наиболее известным LLM относятся GPT от OpenAI, Claude от Anthropic, LLaMA от Meta и Gemini от Google.
Принцип работы LLM основан на статистическом предсказании следующего слова (токена) в последовательности. Модель анализирует контекст предыдущих слов и выбирает наиболее вероятное продолжение. Несмотря на кажущуюся простоту этого механизма, при масштабировании до миллиардов параметров и обучении на триллионах токенов возникает способность к обобщению, рассуждению и решению сложных задач.
Обучение LLM проходит в несколько этапов. Сначала модель проходит предобучение (pre-training) на больших текстовых корпусах — книгах, статьях, веб-страницах. Затем следует этап выравнивания (alignment), на котором модель учат следовать инструкциям и отвечать полезно, безопасно и честно. Для этого часто используют обучение с подкреплением на основе обратной связи от людей (RLHF).
LLM применяются практически повсеместно: от чат-ботов и поисковых систем до генерации кода, анализа документов, перевода, суммаризации и автоматизации бизнес-процессов. Они стали фундаментом для целого класса AI-продуктов.
Значимость LLM трудно переоценить — именно они сделали искусственный интеллект массово доступным инструментом. Однако у них есть ограничения: склонность к галлюцинациям, зависимость от качества обучающих данных и высокие вычислительные затраты на обучение и инференс.