Stable Diffusion (технология)

Stable Diffusion — это технология генерации изображений, основанная на принципе латентной диффузии. Метод был представлен в 2022 году группой исследователей из Мюнхенского университета совместно с компанией Stability AI. В отличие от конкурентов (DALL-E, Midjourney), модель была выпущена с открытым исходным кодом, что кардинально повлияло на развитие всей индустрии генеративных изображений.

Принцип работы основан на процессе диффузии — постепенном добавлении и последующем удалении шума. На этапе обучения модель учится восстанавливать изображения из зашумлённых версий. На этапе генерации модель начинает с чистого шума и пошагово «очищает» его, превращая в осмысленное изображение, соответствующее текстовому описанию пользователя.

Ключевое технологическое решение — работа в латентном пространстве. Вместо обработки изображения в полном разрешении модель оперирует его сжатым математическим представлением. Это радикально снижает вычислительные требования: генерация изображения возможна даже на потребительских видеокартах с 4-8 ГБ видеопамяти. Для связи текстового описания с изображением используется модель CLIP, которая «переводит» слова в числовые векторы, понятные генератору.

Stable Diffusion применяется для создания иллюстраций, концепт-арта, дизайна, рекламных материалов, а также в качестве основы для специализированных моделей. Благодаря открытости технологии вокруг неё выросла экосистема расширений: LoRA для стилизации, ControlNet для управления композицией, inpainting для редактирования фрагментов.

Значимость Stable Diffusion — в доступности. Технология показала, что генерация изображений нейросетью возможна без облачных серверов и подписок, непосредственно на компьютере пользователя.

Stable Diffusion (технология)