Stable Diffusion

Stable Diffusion на русском: как установить, настроить и генерировать изображения локально

Stable Diffusion — единственный топовый генератор изображений, который можно запустить на своём компьютере бесплатно. Разбираем установку через Automatic1111, ComfyUI и Forge, выбор моделей, работу с LoRA и практические приёмы генерации.

Stable Diffusion — это открытая нейросеть для генерации изображений по текстовому описанию, которую можно запустить локально на собственном компьютере. В отличие от Midjourney или DALL-E, здесь нет подписки, нет цензуры по умолчанию и нет зависимости от чужих серверов. Если вы когда-нибудь искали «стабл диффужн» или «stable diffusion на русском» — это руководство проведёт от нуля до первой генерации и дальше, к серьёзной работе с моделями, LoRA и тонкой настройке.

Что такое Stable Diffusion и почему это важно

Stable Diffusion — проект компании Stability AI, впервые опубликованный в августе 2022 года. Ключевое отличие от конкурентов: код и веса модели открыты. Это значит, что сообщество может обучать свои модели, создавать расширения и интерфейсы — и за четыре года экосистема разрослась до масштабов, с которыми закрытые сервисы конкурировать не могут.

По состоянию на март 2026 года актуальны несколько поколений моделей:

SD 1.5 — ветеран, генерация 512×512 px. Огромная библиотека fine-tuned моделей и LoRA. До сих пор используется для стилизованных иллюстраций и аниме
SDXL 1.0 — генерация 1024×1024 px, заметно лучше анатомия и детали. Основная рабочая лошадка для большинства задач
SD 3.5 Medium / Large — архитектура на основе MMDiT (Multi-Modal Diffusion Transformer), улучшенная работа с текстом на изображениях, более точное следование промптам
SDXL Turbo и SD3 Turbo — ускоренные версии, генерация за 1–4 шага вместо 20–30, почти в реальном времени

Для сравнения с облачными генераторами изображений загляните в подборку бесплатных нейросетей для картинок — там же найдёте варианты, не требующие установки.

Системные требования для Stable Diffusion

Главный ресурс — видеопамять (VRAM). Вот реалистичные минимумы:

Модель	Минимум VRAM	Комфортно	Разрешение
SD 1.5	4 ГБ	6–8 ГБ	512×512
SDXL 1.0	6 ГБ	8–12 ГБ	1024×1024
SD 3.5 Medium	8 ГБ	12 ГБ	1024×1024
SD 3.5 Large	10 ГБ	16+ ГБ	1024×1024

Видеокарта. NVIDIA — основной выбор, начиная от GTX 1660 (6 ГБ) для SD 1.5 и RTX 3060 (12 ГБ) для SDXL. Карты AMD работают через DirectML или ROCm, но поддержка слабее: часть расширений не совместима, скорость на 30–50% ниже при прочих равных. Владельцам Mac с Apple Silicon (M1/M2/M3/M4) доступен бэкенд MPS — работает, но медленнее аналогичных по цене карт NVIDIA.

Оперативная память. 16 ГБ — минимум, 32 ГБ — комфорт. При работе с SDXL и несколькими LoRA модель может занимать 10–15 ГБ RAM в дополнение к VRAM.

Диск. Один чекпоинт SDXL весит 6–7 ГБ, SD 1.5 — около 2 ГБ. Коллекция из 5–10 моделей плюс LoRA легко займёт 50–80 ГБ. SSD обязателен — с HDD загрузка модели занимает минуты вместо секунд.

Стабл диффужн: три основных интерфейса для установки

Сама модель Stable Diffusion — это набор весов нейросети. Для работы нужен интерфейс (фронтенд), который загружает модель, принимает промпт и отображает результат. Три основных варианта:

1. Automatic1111 (A1111) — классика

Для кого: новичков и тех, кто хочет «просто генерировать картинки» без глубокого погружения в пайплайны.

Automatic1111 Web UI — первый и самый распространённый интерфейс. Веб-приложение на Gradio, запускается локально в браузере. Все настройки — через визуальные элементы: ползунки, выпадающие списки, чекбоксы.

Установка на Windows:

Установите Python 3.10.x (именно 3.10 — более новые версии могут вызвать конфликты зависимостей). При установке обязательно отметьте «Add Python to PATH»
Установите Git для Windows
Откройте терминал в папке, где хотите разместить программу, и выполните:
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
Перейдите в папку: cd stable-diffusion-webui
Запустите: webui-user.bat

Первый запуск скачает необходимые зависимости и базовую модель SD 1.5 (~4 ГБ). После завершения в браузере откроется адрес http://127.0.0.1:7860.

Установка на Linux:

sudo apt install python3.10 python3.10-venv git
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui
./webui.sh

Плюсы A1111: огромная экосистема расширений (ControlNet, ADetailer, Regional Prompter), подробная документация, большинство туториалов в интернете написаны именно для него.

Минусы: медленнее Forge на 15–30%, интерфейс перегружен при большом количестве расширений, архитектура устарела для новых моделей вроде SD3.

2. Stable Diffusion WebUI Forge — быстрее и экономнее

Для кого: пользователей с ограниченной видеопамятью и тех, кто хочет максимальную производительность.

Forge — форк A1111 от разработчика lllyasviel (автора ControlNet). Интерфейс идентичен A1111, но внутри — переработанный пайплайн генерации. Результат: на 15–30% быстрее, потребление VRAM ниже на 1–3 ГБ, нативная поддержка SD3 и SDXL Turbo.

Установка:

git clone https://github.com/lllyasviel/stable-diffusion-webui-forge.git
cd stable-diffusion-webui-forge
# Windows: webui-user.bat
# Linux: ./webui.sh

Расширения от A1111 по большей части совместимы. Если вы начинаете с нуля — Forge предпочтительнее A1111. Если уже работаете в A1111 — миграция безболезненна: скопируйте папки models, embeddings и extensions.

3. ComfyUI — нодовый интерфейс для полного контроля

Для кого: продвинутых пользователей, разработчиков пайплайнов, тех, кому нужна автоматизация.

ComfyUI строит процесс генерации из визуальных нодов (узлов), соединённых связями. Каждый нод — одна операция: загрузка модели, кодирование промпта, сэмплирование, декодирование, постобработка. Это похоже на Blender Geometry Nodes или Unreal Engine Blueprints.

Установка:

git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI
pip install -r requirements.txt
python main.py

Для Windows доступен портативный пакет: скачайте архив с GitHub Releases, распакуйте, запустите run_nvidia_gpu.bat.

Плюсы ComfyUI: максимальная гибкость, самый быстрый бэкенд (быстрее Forge на 10–20%), встроенный менеджер расширений ComfyUI Manager, удобная работа с пайплайнами (workflow), нативная поддержка всех актуальных моделей.

Минусы: порог входа выше, нодовый интерфейс непривычен для новичков, отладка ошибок сложнее.

Рекомендация: начинающим — Forge. Через месяц активного использования — пробуйте ComfyUI. Для автоматизации (пакетная генерация, интеграция в пайплайн) — однозначно ComfyUI.

Первая генерация в Stable Diffusion: пошагово

Допустим, вы установили Forge и открыли http://127.0.0.1:7860. Вот что делать дальше:

Выберите модель. Вверху интерфейса — выпадающий список «Stable Diffusion checkpoint». По умолчанию может стоять SD 1.5. Для начала этого достаточно, но для качественных результатов скачайте SDXL-модель (об этом ниже)
Введите промпт. В поле «Prompt» опишите, что хотите получить. Пример: a cozy wooden cabin in a snowy forest, warm light from windows, evening sky with stars, photorealistic, 8k, detailed
Введите негативный промпт. В поле «Negative prompt» — то, чего хотите избежать: blurry, low quality, watermark, text, deformed hands, extra fingers
Настройте параметры. Sampling method: DPM++ 2M Karras (универсальный выбор). Steps: 25 (баланс качества и скорости). CFG Scale: 7 (насколько строго модель следует промпту). Размер: 512×512 для SD 1.5, 1024×1024 для SDXL
Нажмите «Generate». Через 5–30 секунд (зависит от видеокарты) появится изображение

Не нравится результат? Измените seed (поле «Seed», значение -1 — случайный) и нажмите снова. Каждый seed даёт уникальный результат при том же промпте. Нашли удачный — зафиксируйте seed для воспроизводимости.

Для продвинутой работы с промптами рекомендуем статью о техниках промпт-инжиниринга — описанные там принципы применимы и к Stable Diffusion.

Модели Stable Diffusion: чекпоинты, LoRA и эмбеддинги

Одна из главных сил экосистемы — тысячи кастомных моделей, каждая со своей специализацией.

Чекпоинты (Checkpoints)

Это полные модели, обученные или дообученные на определённых данных. Размер: 2–7 ГБ. Скачиваются с CivitAI или Hugging Face. Популярные чекпоинты для SDXL:

Juggernaut XL — фотореализм, портреты, предметная съёмка. Один из лучших для коммерческих задач
DreamShaper XL — баланс между фотореализмом и иллюстрацией, универсальная модель
Pony Diffusion V6 XL — аниме и стилизованная иллюстрация, обширная поддержка тегов
RealVisXL — фотографическое качество, особенно хорош для пейзажей и архитектуры
SDXL Base 1.0 + Refiner — официальная модель от Stability AI, базовый уровень качества

Файлы чекпоинтов помещаются в папку models/Stable-diffusion/ вашей установки.

LoRA (Low-Rank Adaptation)

LoRA — это лёгкие дополнения к базовой модели, обученные на узких задачах: конкретный стиль, персонаж, объект. Размер: 10–300 МБ. LoRA не заменяет чекпоинт, а модифицирует его поведение.

Применение: в промпте добавьте <lora:имя_файла:0.8>, где 0.8 — сила влияния (от 0 до 1). Можно комбинировать несколько LoRA одновременно, но при суммарной силе больше 1.5 результат начинает деградировать.

Примеры применения:

LoRA на стиль конкретного художника — применяется поверх универсального чекпоинта
LoRA на конкретный продукт — для генерации маркетинговых изображений с вашим товаром
LoRA на конкретное лицо — для стабильного персонажа в серии изображений (обучение на 10–20 фотографиях)

Файлы LoRA помещаются в models/Lora/.

Textual Inversion (Embeddings)

Ещё более лёгкий способ обучить модель новому концепту: файлы по 10–100 КБ, обучаются быстро (1–2 часа на RTX 3060). Применяются как токены в промпте. Эффективны для запоминания стилей и простых объектов, но менее гибкие, чем LoRA.

Практические советы по работе со Stable Diffusion

1. Генерируйте пакетами. Вместо одного изображения задайте Batch count: 4. Четыре варианта за один запуск — выберите лучший, зафиксируйте seed и дорабатывайте.

2. Используйте Hires fix для увеличения. Прямая генерация в высоком разрешении (например, 2048×2048) даёт артефакты — дублирование объектов, нарушение композиции. Правильный подход: генерация в базовом разрешении (1024×1024 для SDXL), затем Hires fix с денойзингом 0.3–0.5 и апскейлером 4x-UltraSharp или ESRGAN_4x.

3. ControlNet — ваш главный инструмент контроля. ControlNet позволяет задать модели структуру изображения: позу человека, контуры объектов, карту глубины, линейный рисунок. Установите расширение ControlNet и скачайте нужные модели. Типичные препроцессоры:

Canny — извлекает контуры, идеален для архитектуры и предметов
OpenPose — определяет позу человека, незаменим для портретов и фигур
Depth — карта глубины, сохраняет пространственное расположение объектов
IP-Adapter — перенос стиля или облика с референсного изображения

4. ADetailer автоматически доработает лица. Расширение ADetailer (After Detailer) находит лица на сгенерированном изображении и перерисовывает их с повышенной детализацией. Решает главную проблему SD — искажённые лица на общих планах. Включается одним чекбоксом.

5. Подбирайте сэмплер под задачу. DPM++ 2M Karras — универсальный. Euler a — более «творческий», больше вариативность. DPM++ SDE Karras — лучше детали, но медленнее. Для Turbo-моделей — Euler или DPM++ SDE с 4–8 шагами.

6. CFG Scale — не выше 10. Значение 1–3: модель «фантазирует», результат далёк от промпта. Значение 7–8: оптимальный баланс. Значение 12+: изображение становится перенасыщенным и контрастным, появляются артефакты.

Stable Diffusion vs облачные альтернативы: когда что выбирать

Локальный запуск — не единственный вариант. Сравним с основными альтернативами:

Критерий	SD локально	Midjourney	DALL-E 3	SD в облаке (RunPod, Vast.ai)
Стоимость	Бесплатно (после покупки GPU)	$10–60/мес	По токенам ChatGPT	$0.3–0.8/час GPU
Скорость (SDXL, 1024px)	5–15 сек (RTX 4070)	30–60 сек	10–20 сек	3–8 сек (A100)
Кастомизация	Полная	Минимальная	Минимальная	Полная
Модели	Любые	Только своя	Только своя	Любые
Приватность	100%	Нет	Нет	Условная
Порог входа	Высокий	Низкий	Низкий	Средний

Выбирайте локальный SD, если: нужна полная кастомизация (свои модели, LoRA), важна приватность данных, планируете генерировать сотни изображений в месяц, есть подходящая видеокарта.

Выбирайте облачный SD (RunPod, Vast.ai), если: нет мощной видеокарты, но нужна гибкость SD. Аренда A100 на RunPod — около $0.74/час; за вечер работы потратите $2–3, что дешевле подписки Midjourney при эпизодическом использовании.

Выбирайте Midjourney, если: приоритет — скорость и качество «из коробки» без настройки. Подробнее о работе с ним — в пошаговом руководстве по Midjourney.

Бесплатные облачные варианты: Google Colab (с ограничениями), Clipdrop от Stability AI, Hugging Face Spaces. Если хочется попробовать генерацию без установки — смотрите обзор бесплатных нейросетей для создания картинок.

Частые проблемы и их решения

«CUDA out of memory». Не хватает видеопамяти. Решения: уменьшите разрешение, включите --medvram или --lowvram в аргументах запуска (файл webui-user.bat, строка COMMANDLINE_ARGS), используйте модель SD 1.5 вместо SDXL, отключите лишние LoRA.

Чёрные или зелёные изображения. На картах NVIDIA 16xx-серии и некоторых старых GPU нужно добавить --no-half в аргументы запуска. Если это карта AMD — убедитесь, что установлен корректный бэкенд (DirectML или ROCm).

Медленная генерация. Проверьте, что используется GPU, а не CPU: в терминале при запуске должно быть «Using device: cuda». Обновите драйверы NVIDIA до последней версии. В Forge включите опцию «Forge Optimizations» в настройках.

Искажённые лица и руки. Классическая проблема SD. Используйте ADetailer для лиц, добавьте «detailed hands, five fingers on each hand» в промпт, применяйте ControlNet OpenPose для контроля позы, используйте инпейнтинг для точечного исправления проблемных областей.

Модель не загружается. Проверьте, что файл чекпоинта скачан полностью (сравните размер с указанным на CivitAI). Убедитесь, что формат модели совместим: SD 1.5-модели не работают в режиме SDXL и наоборот.

Итого: с чего начать со Stable Diffusion прямо сейчас

Оцените оборудование. Есть NVIDIA с 6+ ГБ VRAM? Переходите к установке. Нет — попробуйте облачный вариант через RunPod или бесплатные сервисы
Установите Forge — оптимальный баланс простоты и производительности для начинающих
Скачайте один чекпоинт SDXL. Для начала — DreamShaper XL или Juggernaut XL с CivitAI
Сгенерируйте 50 изображений с разными промптами, экспериментируя с CFG, шагами и сэмплерами
Установите ControlNet и ADetailer — два расширения, которые радикально поднимают контроль и качество
Освойте LoRA — скачайте 2–3 стилевых LoRA и попробуйте комбинировать их с базовой моделью
Переходите на ComfyUI, когда почувствуете ограничения Forge — нодовый интерфейс откроет возможности для сложных пайплайнов и автоматизации

Stable Diffusion — это не просто «ещё один генератор картинок». Это открытая платформа, где вы контролируете каждый аспект процесса. Кривая обучения круче, чем у Midjourney, но и потолок возможностей несравнимо выше. Начните с простого, наращивайте сложность по мере необходимости — и через пару недель будете генерировать изображения, которые невозможно получить ни в одном облачном сервисе.