КОНЦЕПЦИЯ
На первом курсе я проводила визуальное исследование, посвящённое влиянию художника эпохи позднего Возрождения, Эль Греко, на модернистов. Меня всегда восхищала его уникальная манера: удлинённые фигуры, драматический свет, экспрессивные жесты и мистическая атмосфера.
эль греко «кающаяся мария магдалина» 1579 // эль греко «пьета» 1592 (фрагменты)
В рамках данного проекта я решила пойти дальше формального анализа и научить генеративную нейросеть Stable Diffusion воспроизводить уникальный стиль Эль Греко, чтобы создать серию оригинальных изображений, продолжающих эстетику художника.
примеры исходных изображений для обучения
Для обучения был собран датасет из 39 изображений работ Эль Греко. Я отобрала произведения, наиболее ярко демонстрирующие характерные черты стиля: удлинённые пропорции фигур, контрастное освещение, экспрессивные позы и жесты, холодные, мерцающие тона. Я решила выбрать только те картины, на которых изображены люди (портреты и религиозные сюжеты).
>> ПАПКА С ИЗОБРАЖЕНИЯМИ <<
типы исходных изображений: портреты и религиозные сюжеты
Все изображения были приведены к квадратному формату 1:1 и снабжены текстовыми подписями с помощью модели BLIP. Это необходимо для обучения DreamBooth, где требуется текстовая пара «изображение — описание». Чтобы модель усвоила связь между визуальным стилем и текстовым промптом, к каждой сгенерированной подписи был добавлен префикс «a painting in the style of EL GRECO, „.
генерация подписей через BLIP
ОБУЧЕНИЕ
После началось само обучение Stable Diffusion с использованием технологии LoRA. Базовая модель: stabilityai/stable-diffusion-xl-base-1.0. Разрешение 512×512, скорость обучения: 1e-4, количество шагов: 500 (с чекпоинтами каждые 250 шагов). В итоге обучение заняло около часа.
обучение stable diffusion
ПЕРВЫЙ ПРОМПТ
Для начала я решила попробовать максимально простой промпт и сгенерировать портрет женщины в красном: «a painting in the style of EL GRECO, a portrait of a woman in red clothes»
количество шагов 25
количество шагов 50
количество шагов 100 vs количество шагов 200
Я решила поэкспериментировать с количеством шагов в генерации, оптимальным числом оказалось 50.
ГЕНЕРАЦИЯ
Далее я приступила к генерации изображений, похожих на сюжеты картин Эль Греко.
После я решила попробовать сгенерировать различные нетипичные сюжеты для картин Эль Греко, а также другие жанры (натюрморты, пейзажи и картины с животными), которые не были представлены в исходных изображениях для обучения модели.
Также мне было интересно попробовать сгенерировать современные и футуристичные сюжеты с помощью обученной нейросети. Целью было проверить то, будут ли успешны генерации и как стиль Эль Греко будет применён на нетипичные предметы и сцены.
Помимо успешных и интересных генераций, попадались также неудачные. В них читался стиль, но смысл промпта передан не был. Например, нейросеть недостаточно хорошо справилась с задачей изобразить кофейню и аэропорт:
ВЫВОДЫ
ЧТО УДАЛОСЬ ПЕРЕДАТЬ Модель успешно усвоила ключевые визуальные признаки стиля: — Удлинённые пропорции лиц и фигур. — Холодная, приглушённая цветовая гамма. — Драматическое освещение: яркие блики на лице при общем затемнённом фоне. — Экспрессивные позы и жесты, характерные для религиозных сюжетов Эль Греко.
ВАРИАТИВНОСТЬ Несмотря на общую стилистику, сгенерированные изображения отличаются по композиции, ракурсу и деталям одежды. Это свидетельствует о том, что модель не просто копирует конкретные картины, а обобщила стиль и способна создавать новые образы в рамках заданной эстетики.
ОГРАНИЧЕНИЯ В некоторых генерациях заметны артефакты: искажения пропорций рук, размытые детали и тд. Однако в целом консистентность стиля высокая.
>> НОУТБУК С КОДОМ ОБУЧЕНИЯ <<




