Обучение генеративной нейросети Stable Diffusion в стиле Клода Моне на Deziiign

Проект о том, как современный городской пейзаж можно перевести в оптику Клода Моне, где архитектура перестает быть твердым объектом и становится средой света, тумана и отражений

Идея проекта

В этом проекте меня интересовало не буквальное копирование картин Клода Моне, а перенос его художественного языка в новую среду. Я рассматривала стиль Моне не как набор узнаваемых сюжетов, а как особый способ видеть пространство: через рассеянный свет, влажный воздух, воду, туман и дрожащие отражения. Поэтому итоговая серия строится не вокруг повторения известных полотен, а вокруг современной городской сцены, показанной так, как если бы она была увидена через живописную оптику позднего импрессионизма

Современный город в этом проекте представлен не как жесткая система улиц и зданий, а как изменчивая световая среда. Важными становятся не предметные детали сами по себе, а состояние воздуха, качество освещения, размывание контуров и взаимодействие архитектуры с водой, дождем и туманом. Мне было важно проверить, можно ли обучить модель не просто рисовать «похоже на Моне», а удерживать более тонкие признаки его визуального мышления: ослабление формы, работу с атмосферой и сериальность одного мотива в разных состояниях света

Исходные изображения для обучения

Для обучения был собран датасет из 20 open-access работ Клода Моне. Все изображения были приведены к квадратному формату 1:1, чтобы использовать их в DreamBooth + LoRA обучении. В подборку вошли работы, где особенно заметны мотивы воды, мостов, городской архитектуры, фасадов в дымке, тумана и отражений

Такой датасет был выбран осознанно. Он обучает модель не абстрактному «импрессионизму вообще», а конкретному визуальному режиму, связанному с поздним Моне. За счет этого обученная нейросеть лучше удерживает мягкие контуры, вибрирующую поверхность цвета, растворение архитектуры в атмосфере и переход формы в свет

Примеры исходных изображений

Визуально датасет строился вокруг нескольких устойчивых тем:

— мосты и вода; — городская архитектура в дымке; — фасад как световая поверхность; — туман и рассеянная видимость; — отражения в реке и на влажной поверхности.

1. Моне К. Мост Ватерлоо. Серый день 1903/ 2. Моне К. Здания парламента на закате (The Houses of Parliament, Sunset) 1903

1. Моне К. Японский мостик 1899/ 2. Моне К. Сена в Живерни 1897/ 3. Моне К. Мост Ватерлоо, Лондон, в сумерках 1904

Процесс обучения

В работе использовалась модель Stable Diffusion XL Base 1.0, дообученная методом DreamBooth \+ LoRA. Обучение проводилось на базе подготовленного датасета из 20 изображений с текстовыми подписями, в которых стиль задавался через токен MONETLIGHT.

Основные параметры обучения:

— базовая модель: Stable Diffusion XL Base 1.0; — метод: DreamBooth \+ LoRA; — разрешение обучения: 512; — train_batch_size=1; — gradient_accumulation_steps=4; — learning_rate=1e-4; — max_train_steps=500.

Целью обучения было не воспроизведение конкретных картин, а перенос пластики, атмосферы и живописного характера работ Моне в новые сцены. После завершения обучения были сохранены промежуточные чекпоинты и финальные веса LoRA, на основе которых затем была сгенерирована итоговая серия изображений.

Установка библиотек/ training script

Работа проходила поэтапно. Сначала я собрала и отобрала изображения, затем привела их к единому квадратному формату и подготовила текстовые подписи для обучения. После этого в Google Colab был настроен ноутбук с кодом, подключены необходимые библиотеки, загружен training script и собран архив с датасетом. Далее была запущена процедура дообучения базовой модели Stable Diffusion XL в режиме DreamBooth + LoRA.

Основные переменные/ Основной этап обучения

После завершения обучения отдельные блоки кода отвечают за загрузку базовой модели вместе с обученными весами LoRA и за генерацию новых изображений по текстовым промптам. Именно эта часть используется для создания итоговой серии, где современный городской пейзаж переводится в визуальную оптику Моне

Подключение обученной LoRA/ Генерация изображения

Итоговая серия изображений

Итоговая серия состоит из 8 изображений, в которых современный городской пейзаж переводится в оптику Моне через туман, влажный воздух, отражения, воду и рассеянный свет.

Серия построена как набор разных состояний городской среды: рассвет, дождь, туман, закат, парк, двор, набережная и ночная улица. Это важно, потому что проект не сводится к одному повторяющемуся кадру, а показывает вариативность внутри одного стилистического режим

Набережная на рассвете/ Дождливый бульвар в синий час

Серия начинается с изображения набережной на рассвете. Здесь город почти полностью собран из световой дымки: архитектура отступает на второй план, а вода и мягкие голубовато-розовые тона становятся главными носителями композиции. Это изображение особенно близко к поздним сериям Моне, где пространство строится не через твердый контур, а через атмосферу.

Следующее изображение, дождливый бульвар в синий час, показывает более отчетливую городскую сцену. Здесь появляются фигуры с зонтами, мокрый асфальт и теплые огни, отражающиеся на поверхности улицы. Несмотря на современность сюжета, сцена остается живописной: пространство не описывается буквально, а собирается через свечение, влажность и мягкое расплывание формы.

Исходный размер 2004x1280

Ночная улица и отражения фонарей/ Тихий двор после дождя/ Прогулка у воды на закате

Кадр с ночной улицей и отражениями фонарей показывает, что обученная модель может работать и с вечерним городским освещением. Янтарные огни окон и фонарей расплываются по влажной поверхности улицы, сохраняя общий принцип атмосферного растворения формы. Это важное расширение диапазона серии: от утреннего тумана и дневной дымки к более темной и контрастной вечерней сцене.

Тихий двор после дождя делает серию более камерной. Вместо монументального городского вида появляется повседневное пространство, где фасады, деревья и лужи объединяются в мягкую пастельную композицию. За счет этого серия не выглядит однообразной и показывает, что модель способна работать не только с крупными видовыми сценами, но и с более интимными городскими состояниями.

Прогулка у воды на закате — один из самых цельных кадров по цвету. Розово-голубая дымка, отражения и открытая водная поверхность делают это изображение особенно близким к живописному строю Моне. Здесь хорошо читается то, как свет и вода становятся важнее твердых границ формы.

Городской парк после дождя/ Мост в вечернем тумане/ Трамвайная линия в утреннем тумане

В изображении городского парка после дождя модель уходит дальше всего в сторону почти абстрактной трактовки пространства. Деревья, дорожки и фигуры не исчезают полностью, но становятся частью единой колеблющейся световой среды. Этот результат особенно важен для концепции проекта, потому что показывает: модель переняла не только палитру, но и принцип растворения формы.

Кадр с мостом в вечернем тумане наиболее явно связывает итоговую серию с речными и лондонскими мотивами Моне. Силуэт моста, шпили и вода существуют как бы внутри одной воздушной массы. Здесь особенно заметно, как нейросеть удерживает туман, серебристую воду и ослабленный контур архитектуры.

Изображение трамвайной линии в утреннем тумане важно тем, что переносит стиль в современность наиболее явно. Трамвай — это объект, которого нет в исходном датасете как прямого мотива, но модель встраивает его в общую атмосферную ткань изображения. Это подтверждает, что результат не сводится к копированию исходных картин, а действительно работает как стилистический перенос.

Итоговая серия была собрана на основе следующих промптов:

painting in MONETLIGHT style, moscow river embankment at dawn, pale mist, soft reflections on water, blue pink atmosphere, impressionist brushwork painting in MONETLIGHT style, rainy boulevard at blue hour, shimmering reflections on wet pavement, luminous impressionist brushwork painting in MONETLIGHT style, city park after rain, pale green light, damp paths, soft haze, impressionist brushwork painting in MONETLIGHT style, bridge over river in evening fog, silver water, diffused sunset light, impressionist brushwork painting in MONETLIGHT style, tram line in morning mist, wet street, peach and blue atmosphere, impressionist brushwork painting in MONETLIGHT style, quiet courtyard with trees after rain, reflective puddles, soft pastel light, impressionist brushwork painting in MONETLIGHT style, riverside promenade at sunset, pink sky reflected in water, glowing haze, impressionist brushwork painting in MONETLIGHT style, night street with lantern reflections after rain, blurred lights, moody impressionist brushwork

Анализ результата

В итоговой серии удалось передать несколько ключевых черт, связанных с визуальным языком Клода Моне. Прежде всего это работа с рассеянным светом, мягким контуром и состояниями воздуха. Архитектура почти нигде не существует как жестко очерченный объект: она либо растворяется в тумане, либо распадается на цветовые отношения. Вода, мокрый асфальт и отражающие поверхности играют роль носителей света и делают сцену подвижной.

Важно и то, что серия не замыкается на одном мотиве. Внутри нее есть разные состояния городской среды: рассвет, дождь, туман, закат, вечер, парк, двор, улица, набережная

Благодаря этому видно, что модель усвоила не один-единственный шаблон изображения, а целую систему пластических признаков

Наиболее убедительно в серии сработали:

туман и атмосферная дымка; отражения на воде и мокром асфальте; ослабление контура; мягкие переходы между холодными и теплыми зонами света; превращение архитектуры в цветовую среду, а не в жесткий объект.

При этом результат остается генеративным, а не реконструктивным. Это значит, что модель не копирует Моне, а создает новые сцены, в которых узнаются черты его живописного языка. Иногда архитектура становится слишком расплывчатой или пространство теряет предметную устойчивость, но именно это хорошо показывает границу между точной визуальной реконструкцией и художественным переносом стиля. Это и было моей первоначальной идеей

Описание применения генеративной модели

Основная визуальная часть проекта выполнена на базе Stable Diffusion XL Base 1.0, дообученной методом DreamBooth + LoRA на специально собранном датасете open-access работ Клода Моне. Модель использовалась для генерации новой серии изображений в заданном стилистическом режиме

Использованные модели и ссылки:

Stable Diffusion XL Base 1.0 — https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0 DreamBooth / Diffusers — https://huggingface.co/docs/diffusers/training/dreambooth

Техническая реализация

Архитектура и параметры: — Базовая модель: Stable Diffusion XL 1.0 — Метод адаптации: DreamBooth + LoRA — Размер датасета: 20 изображений — Количество шагов: 500 — Разрешение: 512×512 пикселей

Обучение проводилось на специально отобранном датасете из open-access работ Клода Моне, объединенных общими визуальными признаками: туманом, водой, отражениями, мягким светом и ослабленным контуром архитектуры. Для повышения стабильности обучения использовались gradient checkpointing, 8-битная оптимизация и mixed precision (fp16). После завершения обучения полученные веса LoRA были использованы для генерации итоговой серии изображений в стиле Моне

Ноутбук с кодом