Проект принимает участие в конкурсе

[концепция]

Нейросети зачастую генерируют слишком безликие, стоковые по стилю изображения. Мне захотелось обучить Stable Diffusion на фото заброшенных пространств и заодно совершить по ним диджитал трип в процессе их поиска. Мне было интересно, насколько при генерации удастся сохранить самобытную грубую фактуру покинутых зданий изнутри и снаружи, а также ощущение чего-то зловещего и одновременно захватывающего, характерное для исходных фотографий.

[исходные изображения]

90 исходных изображений, обрезанных до 1024×1024

Источник: Wikimedia Commons Категория: Abandoned building Лицензии: CC-BY-4.0, CC-BY-SA-4.0

Slovakia, Komárno, hospital, abandoned building, Random photos 1989

big
Исходный размер 1024x1024

Slovakia, Komárno, hospital, abandoned building, Random photos 1989

Slovakia, Komárno, hospital, abandoned building, Random photos 1989

0

Inside an abandoned support building of Vantaankoski mill in Vantaanlaakso, Vantaa, Finland, 2021 April, Xim // Piramida Svalbard, Bjoertvedt // Slovakia, Komárno, hospital, abandoned building, Random photos 1989

0

Slovakia, Komárno, hospital, abandoned building, Random photos 1989 // Slovakia, Patince, abandoned building, Random photos 1989

Offices of an abandoned building, 01 September 2025, Miosranik // Slovakia, Sliač, Kúpele, abandoned building, Random photos 1989

[результирующие изображения]

1. интерьеры

0

prompt // photo in zabroshennoe style: bathroom interior in Russia, bathroom interior with a mirror, empty hospital room, empty post office, empty school in Japan, kitchen interior in Russia, living room interior in Russia, living room interior, normal flat interior 2, lecture room in a university

2. индустриальное и техническое

0

prompt // photo in zabroshennoe style: empty bearing factory in China, high quality factory interior, control panels, attention to details, high quality factory interior, a facility, black mesa facility, chocolate bar factory, empty oil rig in tundra, empty tow truck, soviet ampere building, soviet union research facility, 1980s

3. общественное и объектное

0

prompt // photo in zabroshennoe style: high-quality close-up portrait of a plastic mannequin, panoramic lens, 4k, small details, North Korean hotel, times square, new york, pool complex in Alps, basketball court in Slovakia, Concrete Brutalist obelisk in Slovakia, empty pool in the backyard, pop-star concert, underground pool

[процесс обучения модели]

Исходный размер 2004x704
  1. Установлены необходимые библиотеки и скрипты через pip install. Загружен датасет и сохранён в нужную директорию.
Исходный размер 2004x1460
Исходный размер 2004x578
  1. Изображения датасета обрезаны до разрешения 1024×1024. С помощью модели BLIP сгенерированы текстовые описания для каждого кадра, которые затем использовались как подписи для связывания визуального стиля с объектами и сценами.
Исходный размер 2002x1324
  1. Подготовлены конфигурационные параметры для запуска обучения: выбран метод DreamBooth в сочетании с LoRA, настроены пути к датасету и кастомным капшенам.
Исходный размер 1988x832
  1. Запущен скрипт обучения на базе Stable Diffusion XL 1.0. Метод LoRA позволил дообучить модель под стиль заброшенности с низкими вычислительными затратами, обучая только небольшое количество параметров.
Исходный размер 1972x1306
  1. Обученная модель (LoRA-веса) выгружена на Hugging Face Hub для сохранения и дальнейшего использования.
Исходный размер 1996x434
  1. Загружена базовая модель Stable Diffusion XL 1.0 и VAE, подключены обученные LoRA-веса, содержащие выученный стиль. Выполнена генерация изображений.

[комментарий результатов]

  1. Сохранение черт стиля исходных изображений: облупившаяся потрескавшаяся краска, грязь, плесень, беспорядок; сохранение атмосферы лиминальности и отсутствие людей на изображениях
  2. Несовпадение черт стиля исходных изображений: у генераций в общей массе стала явно выражена превалирующая цветовая гамма из розового, зеленого или желтого; появилась насыщенность и однородность цветов; добавились включенные источники освещения; визуально помещения утратили следы присутствия человека и стали обезличенными
  3. Артефакты генераций: искаженная типографика, несуществующая геометрия, нарушенная планировка
  4. Несмотря на то, что исходный датасет включал в себя только интерьеры, нейросеть справлялась с генерацией и иных сюжетов, сохраняя при этом характерные черты стиля

Использование метода адаптации Stable Diffusion обогатило визуальный язык генераций и позволило создать серию уникальных изображений в единой стилистике. Несмотря на ряд неточностей и наличие артефактов при генерациях, LoRA справилась со своей задачей.

[техническая реализация]

Процесс обучения. Архитектура и параметры: — Базовая модель: Stable Diffusion XL 1.0 — Метод адаптации: Dreambooth с LoRA — Размер датасета: 90 изображений — Количество шагов: 2000 — Скорость обучения: 2e-5 — Разрешение: 1024×1024 пикселей

Обучение проводилось на датасете, содержащем фотографии интерьеров различных заброшенных зданий. Описания фотографий генерировались автоматически при помощи BLIP. Для улучшения скорости обучения использовалась техника gradient checkpointing, для улучшения качества результатов использовалась snr_gamma.

[описание использованных моделей]

  1. Stable Diffusion XL 1.0 — базовая архитектура для генерации изображений.

  2. BLIP (Bootstrapping Language-Image Pre-training) — модель для автоматической аннотации обучающих изображений, генерации текстовых описаний, связывающих визуальное содержание с текстом.

  3. DreamBooth + LoRA — методика персонализации базовой модели под заданный визуальный стиль. DreamBooth обеспечивает привязку стиля к модели, LoRA (Low-Rank Adaptation) позволяет ускорить процесс и снизить вычислительные затраты за счёт обучения ограниченного набора параметров.

  4. AutoencoderKL (VAE) — компонент внутри диффузионной архитектуры, отвечающий за преобразование изображений в латентное пространство и обратно, что является ключевым элементом процесса генерации.