ControlNet — это нейросетевая архитектура, которая добавляет точное пространственное управление к моделям генерации изображений. Технология была представлена в 2023 году исследователем Львином Чжаном из Стэнфордского университета и быстро стала стандартным инструментом в экосистеме Stable Diffusion.
Проблема, которую решает ControlNet, — недостаточная управляемость генерации. Обычный текстовый промпт описывает, что должно быть на изображении, но не может точно задать позу человека, расположение объектов или геометрию сцены. ControlNet решает это, принимая дополнительный входной сигнал — управляющее условие.
Технически ControlNet создаёт обучаемую копию части диффузионной модели и связывает её с оригиналом через специальные соединения (zero convolutions). Управляющее условие подаётся на вход этой копии и влияет на процесс генерации, не разрушая знания базовой модели. Такая архитектура позволяет обучать ControlNet на относительно небольших датасетах.
Существуют различные типы управляющих условий: Canny — контурные линии объектов; OpenPose — скелетная разметка поз человека; Depth — карта глубины сцены; Scribble — грубые наброски от руки; Segmentation — семантическая карта областей. Каждый тип обучается отдельно и отвечает за свой аспект управления.
ControlNet применяется в дизайне, архитектурной визуализации, анимации, создании раскадровок и везде, где требуется не просто красивая картинка, а точное следование заданной композиции.
Значимость ControlNet в том, что он превратил генерацию изображений из «лотереи» в управляемый инструмент, пригодный для профессиональной работы, где творческий контроль принципиально важен.