Проект принимает участие в конкурсе

Концепция

Меня всегда привлекала мрачная и загадочная эстетика готики. Потому мне показалось интересным исследовать, что произойдет если обучить нейросеть на готических витражах — сможет ли она усвоить не просто визуальный стиль, но и характерные язык, приемы этого ремесла, и применить его к произвольным сюжетам.

big
Исходный размер 3506x2299

Примеры исходных изображений, на которых обучалась модель

Идея проекта — обучить генеративную нейросеть Stable Diffusion XL воспроизводить стиль готических витражей и генерировать новые образы в этой эстетике. Витражи обладают уникальным визуальным языком: свинцовые перегородки между фрагментами стекла, характерная мозаичность, преломление и рассеивание света, насыщенные цвета. Задача состояла в том, чтобы модель усвоила эти особенности и могла применять их к произвольным сюжетам — от канонических религиозных образов до нетипичных и современных запросов.

Исходный размер 3926x1501

Примеры исходных изображений, на которых обучалась модель

Для обучения был собран датасет из 56 фотографий готических витражей разных форм и эпох, находящихся в общественном достоянии (public domain).

Финальные генерации

В ходе работы с моделью была экспериментально выявлена архитектура промпта, дающая наилучшие результаты. Ключевое слово VITRAIL должно стоять в начале промпта.

0

Важно указывать lead lines — модель не забывает воспроизводить характерные свинцовые перегородки между фрагментами стекла.

0
0

Параметр backlit stained glass передает эффект подсветки сзади, типичный для витражей. При этом, промпт не должен быть ни слишком общим, ни перегруженным деталями — оптимальная длина 10-15 слов описания желаемого объекта.

0

Явное указание цветов (например, vivid crimson или gold and cobalt) позволяет точно управлять палитрой — модель хорошо подстраивается под заданные цвета.

0

Модель успешно усвоила ключевые характеристики витражного стиля: мозаичность изображения, рамки, текстуру и неровности стекла, преломление света, цветовые переходы между фрагментами. Особенно убедительно получались изображения с четким силуэтом, например, с цветами, птицами, животными, одиночными фигурами девушек и юношь и даже пейзажи.

0
0

Особенно аутентично, на мой взгляд, получились канонические герои витражей — ангелы.

0

Сложности возникали с изображением групп людей — вероятно, в датасете было недостаточно витражей с многофигурными композициями, либо такие запросы оказались слишком детальны для модели. Тем не менее, общие черты и композицию, присущие настоящим витражам, передать удалось.

0

Общие черты и характерная витражная стилистика сохранялись даже в нетипичных запросах — модель справлялась с нестандартными сюжетами, переводя их в витражную эстетику.

0
0

Обучение модели

Модель обучалась методом DreamBooth + LoRA на базе Stable Diffusion XL в среде Google Colab на GPU T4. Подготовленная база исходных изображений скачивалась с Яндекс Диска.

Исходный размер 3500x2480

Датасет из 56 изображений был предварительно обработан: все фотографии приведены к квадратному формату 512×512.

Исходный размер 3500x1814

Подписи к изображениям генерировались автоматически с помощью модели BLIP с добавлением префикса gothic stained glass window in VITRAIL style.

Исходный размер 3500x2222

Обучение проводилось в течение 500 шагов, веса LoRA сохранены на HuggingFace.

0