Токены — это минимальные единицы текста, с которыми работает языковая модель. Нейросеть не оперирует буквами или целыми словами — она разбивает текст на токены, которые могут представлять собой слово, часть слова, знак препинания или даже отдельный символ. Этот процесс разбиения называется токенизацией.
Для английского языка один токен в среднем соответствует примерно 3/4 слова — то есть 100 токенов это около 75 слов. Для русского языка соотношение менее выгодное: из-за кириллицы и более длинных словоформ одно русское слово может занимать 2-3 токена. Каждая модель использует свой токенизатор — алгоритм, определяющий правила разбиения. Наиболее распространены методы BPE (Byte Pair Encoding) и SentencePiece.
Токены играют ключевую роль в нескольких аспектах. Контекстное окно — максимальное количество токенов, которые модель может обработать за один запрос. У современных моделей это от 8 тысяч до миллиона и более токенов. Ценообразование API языковых моделей обычно строится на количестве обработанных токенов (входных и выходных отдельно). Скорость генерации измеряется в токенах в секунду.
При работе с AI-инструментами понимание токенов помогает оптимизировать затраты: более лаконичные промпты расходуют меньше токенов, а значит, дешевле. Также важно учитывать лимит контекстного окна — если разговор или документ превышает его, модель «забывает» начало.
Токены — это фундаментальная метрика мира языковых моделей. Понимание того, как работает токенизация, позволяет эффективнее использовать AI-инструменты, контролировать расходы и корректно оценивать возможности моделей.