VITRAIL на Deziiign

Концепция

Меня всегда привлекала мрачная и загадочная эстетика готики. Потому мне показалось интересным исследовать, что произойдет если обучить нейросеть на готических витражах — сможет ли она усвоить не просто визуальный стиль, но и характерные язык, приемы этого ремесла, и применить его к произвольным сюжетам.

Исходный размер 3506x2299

Примеры исходных изображений, на которых обучалась модель

Идея проекта — обучить генеративную нейросеть Stable Diffusion XL воспроизводить стиль готических витражей и генерировать новые образы в этой эстетике. Витражи обладают уникальным визуальным языком: свинцовые перегородки между фрагментами стекла, характерная мозаичность, преломление и рассеивание света, насыщенные цвета. Задача состояла в том, чтобы модель усвоила эти особенности и могла применять их к произвольным сюжетам — от канонических религиозных образов до нетипичных и современных запросов.

Исходный размер 3926x1501

Примеры исходных изображений, на которых обучалась модель

Для обучения был собран датасет из 56 фотографий готических витражей разных форм и эпох, находящихся в общественном достоянии (public domain).

Финальные генерации

В ходе работы с моделью была экспериментально выявлена архитектура промпта, дающая наилучшие результаты. Ключевое слово VITRAIL должно стоять в начале промпта.

Важно указывать lead lines — модель не забывает воспроизводить характерные свинцовые перегородки между фрагментами стекла.

Параметр backlit stained glass передает эффект подсветки сзади, типичный для витражей. При этом, промпт не должен быть ни слишком общим, ни перегруженным деталями — оптимальная длина 10-15 слов описания желаемого объекта.

Явное указание цветов (например, vivid crimson или gold and cobalt) позволяет точно управлять палитрой — модель хорошо подстраивается под заданные цвета.

Модель успешно усвоила ключевые характеристики витражного стиля: мозаичность изображения, рамки, текстуру и неровности стекла, преломление света, цветовые переходы между фрагментами. Особенно убедительно получались изображения с четким силуэтом, например, с цветами, птицами, животными, одиночными фигурами девушек и юношь и даже пейзажи.

Особенно аутентично, на мой взгляд, получились канонические герои витражей — ангелы.

Сложности возникали с изображением групп людей — вероятно, в датасете было недостаточно витражей с многофигурными композициями, либо такие запросы оказались слишком детальны для модели. Тем не менее, общие черты и композицию, присущие настоящим витражам, передать удалось.

Общие черты и характерная витражная стилистика сохранялись даже в нетипичных запросах — модель справлялась с нестандартными сюжетами, переводя их в витражную эстетику.

Обучение модели

Модель обучалась методом DreamBooth + LoRA на базе Stable Diffusion XL в среде Google Colab на GPU T4. Подготовленная база исходных изображений скачивалась с Яндекс Диска.

Исходный размер 3500x2480

Датасет из 56 изображений был предварительно обработан: все фотографии приведены к квадратному формату 512×512.

Исходный размер 3500x1814

Подписи к изображениям генерировались автоматически с помощью модели BLIP с добавлением префикса gothic stained glass window in VITRAIL style.

Исходный размер 3500x2222

Обучение проводилось в течение 500 шагов, веса LoRA сохранены на HuggingFace.

Ноутбук