Проект принимает участие в конкурсе

Концепция

Проект продолжает моё предыдущее визуальное исследование, посвящённое феномену дролери в средневековой культуре.

В рамках визуального исследования я изучала происхождение и особенности этих изображений, обращая внимание на их абсурдность, повторяющиеся мотивы и распространение в различных культурных контекстах. Сюжеты в них не всегда были связаны с текстом и выполняли скорее декоративную и игровую функцию.

В новом проекте тема дролери получила продолжение через работу с генеративной нейросетью. Если ранее анализ был направлен на выявление закономерностей внутри исторических изображений, то теперь задача заключается в том, чтобы попробовать воспроизвести этот визуальный язык и его внутреннюю логику средствами искусственного интеллекта.

Таким образом, проект становится не только техническим экспериментом по обучению модели, но и попыткой воссоздать «перевернутый мир» дролери — уже в цифровой среде, где нейросеть выступает как инструмент интерпретации и продолжения исторической визуальной традиции.

big
Исходный размер 1300x362

Изображения для обучения модели

Для обучения модели мной был сформирован датасет, состоящий из 32 изображений средневековых иллюминированных манускриптов, относящихся к жанру дролери.

Источником изображений послужили открытые цифровые архивы средневековых рукописей, в частности коллекции, находящиеся в общественном доступе (Public Domain). В датасет включены фрагменты из различных манускриптов, включая, например, Маастрихтский часослов (Maastricht Hours) — один из известных источников маргиналий с характерными фантазийными сценами.

Все используемые изображения находятся в общественном достоянии (Public Domain / CC0) и распространяются с открытой лицензией, не накладывающей ограничений на их использование. Это позволяет легально применять данные материалы, включая их использование в качестве обучающего материала для генеративных моделей.

0

Изображения для обучения модели

Изображения дролери в исходных источниках редко представлены как отдельные иллюстрации высокого качества — чаще всего это небольшие фрагменты крупных страниц манускриптов.

В процессе подготовки датасета такие фрагменты были кадрированы, выделяя сцены с персонажами и декоративными элементами, затем приведены к квадратному формату (1:1) и единому разрешению, удобному для обучения модели.

Ограниченное качество исходных изображений влияет на результат: модель усваивает стиль в более обобщённом виде и иногда упрощает детали. Однако ключевые характеристики дролери — композиция, пластика фигур и абсурдность сцен — сохраняются и успешно передаются в генерации.

Процесс обучения модели

Ноутбук с кодом

Обучение модели проводилось с использованием библиотеки Diffusers и метода LoRA (Low-Rank Adaptation), позволяющего адаптировать большую генеративную модель без полного переобучения.

В качестве базовой модели использовалась Stable Diffusion XL, предварительно обученная на широком наборе изображений.

Процесс обучения включал несколько этапов:

Исходный размер 1892x1206

Установка и подключение библиотек для обучения модели, обработки изображений и работы с генеративными нейросетями

0

На данном этапе исходные изображения были подготовлены для обучения модели

На следующем этапе подписи к изображениям были автоматически сгенерированы с помощью модели BLIP.

После генерации к каждой подписи добавлялся специальный токен drollery_style, который обозначает изучаемый стиль. В результате был сформирован набор пар «изображение — описание», необходимый для обучения модели.

Исходный размер 1912x1158

Подписи к изображениям автоматически сгенерированы с помощью BLIP

Исходный размер 1936x1160

Сформирован файл metadata.jsonl, содержащий пары «изображение — описание», используемый для обучения модели

Перед обучением была настроена среда и загружена базовая модель Stable Diffusion XL. Дообучение проводилось методом LoRA, который позволяет адаптировать модель под новый стиль без полного переобучения.

Модель обучалась на парах «изображение — текст», связывая визуальные особенности датасета с токеном drollery_style. В результате были получены LoRA-веса, позволяющие генерировать изображения в заданной стилистике.

0

Обученная модель (LoRA) загружена на Hugging Face для дальнейшего использования и распространения. Ссылка

Тестовые генерации

Исходный размер 1916x984

На этапе тестовых генераций модель продемонстрировала, что успешно усвоила ключевые характеристики стиля дролери. В изображениях воспроизводились: плоскостная композиция, цвета, орнаментальность и элементы готических букв. Модель даже начала имитировать фактуру старой бумаги, включая эффект просвечивания изображений с обратной стороны страницы, характерный для реальных манускриптов.

Однако был ряд недостатков: присутвовала некоторая «замыленность», линии были нечеткими, позы упрощенными.

Тестовые генерации

Итоговые генерации

В связи выявленными недостатками были скорректированы промты. В них добавлены указания на детализацию и графический характер изображения, такие как detailed illustration, intricate linework, ink drawing. Дополнительно были изменены параметры генерации, включая увеличение количества шагов и настройку guidance scale.

В итоговой серии генераций удалось значительно повысить уровень детализации при сохранении характерного визуального языка. Изображения представляют собой самостоятельные сцены с участием людей, животных и гибридных существ, помещённых в абсурдные или игровые ситуации. При этом модель стабильно воспроизводит плоскостное построение пространства, декоративную организацию композиции, специфическую пластику фигур и приглушённую цветовую палитру.

Исходный размер 768x768

Модель успешно справляется с генерацией как животных, так и антропоморфных существ, сохраняя при этом характерные черты выбранного стиля. Персонажи выглядят выразительно и соответствуют визуальному языку дролери, включая их гротескность и условность.

Исходный размер 1080x1080
Исходный размер 1140x1600

В некоторых изображениях наблюдаются неточности в анатомии: пропорции могут быть искажены, а строение тел — нестабильным. Однако подобные особенности не являются критическим недостатком в контексте данного проекта. Напротив, они органично вписываются в эстетику дролери, где изначально отсутствует строгая анатомическая логика и часто встречаются гибридные, странные и намеренно искажённые существа.

Таким образом, подобные «ошибки» можно интерпретировать не как сбой модели, а как соответствие исторической визуальной традиции, в которой подобные формы вполне могли бы быть созданы реальным художником.

Исходный размер 1080x1080
Исходный размер 1080x1080
Исходный размер 1080x1080
Исходный размер 1080x1080

Генерация обложки проекта

Для оформления проекта была дополнительно сгенерирована обложка в обученном стиле. В качестве центрального образа был выбран персонаж, отсылающий к визуальному языку дролери — фантазийный рыцарь-лис.

Выбор лисы не случаен: в средневековой культуре она часто символизировала хитрость, обман и социальную иронию, а также нередко использовалась в сатирических сюжетах. Лисы регулярно встречаются в дролери и маргиналиях, где изображаются в антропоморфных ролях — как рыцари, монахи или участники абсурдных сцен.

Обложка создавалась как отдельная генерация с более тщательно прописанным промтом, ориентированным на выразительную композицию, декоративность и фактуру старой бумаги.

Исходный размер 1140x1600

Описание применения генеративной модели

Stable Diffusion XL — генерация изображений и обучение стиля https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0

BLIP — автоматическая генерация подписей к изображениям https://huggingface.co/Salesforce/blip-image-captioning-base

ChatGPT (OpenAI) — помощь в устранении ошибок и отладке кода https://chat.openai.com

Gemini (Google) — помощь в устранении ошибок и отладке кода https://gemini.google.com