Концепция
Проект продолжает моё предыдущее визуальное исследование, посвящённое феномену дролери в средневековой культуре.
В рамках визуального исследования я изучала происхождение и особенности этих изображений, обращая внимание на их абсурдность, повторяющиеся мотивы и распространение в различных культурных контекстах. Сюжеты в них не всегда были связаны с текстом и выполняли скорее декоративную и игровую функцию.
В новом проекте тема дролери получила продолжение через работу с генеративной нейросетью. Если ранее анализ был направлен на выявление закономерностей внутри исторических изображений, то теперь задача заключается в том, чтобы попробовать воспроизвести этот визуальный язык и его внутреннюю логику средствами искусственного интеллекта.
Таким образом, проект становится не только техническим экспериментом по обучению модели, но и попыткой воссоздать «перевернутый мир» дролери — уже в цифровой среде, где нейросеть выступает как инструмент интерпретации и продолжения исторической визуальной традиции.

Изображения для обучения модели
Для обучения модели мной был сформирован датасет, состоящий из 32 изображений средневековых иллюминированных манускриптов, относящихся к жанру дролери.
Источником изображений послужили открытые цифровые архивы средневековых рукописей, в частности коллекции, находящиеся в общественном доступе (Public Domain). В датасет включены фрагменты из различных манускриптов, включая, например, Маастрихтский часослов (Maastricht Hours) — один из известных источников маргиналий с характерными фантазийными сценами.
Все используемые изображения находятся в общественном достоянии (Public Domain / CC0) и распространяются с открытой лицензией, не накладывающей ограничений на их использование. Это позволяет легально применять данные материалы, включая их использование в качестве обучающего материала для генеративных моделей.
Изображения для обучения модели
Изображения дролери в исходных источниках редко представлены как отдельные иллюстрации высокого качества — чаще всего это небольшие фрагменты крупных страниц манускриптов.
В процессе подготовки датасета такие фрагменты были кадрированы, выделяя сцены с персонажами и декоративными элементами, затем приведены к квадратному формату (1:1) и единому разрешению, удобному для обучения модели.
Ограниченное качество исходных изображений влияет на результат: модель усваивает стиль в более обобщённом виде и иногда упрощает детали. Однако ключевые характеристики дролери — композиция, пластика фигур и абсурдность сцен — сохраняются и успешно передаются в генерации.
Процесс обучения модели
Обучение модели проводилось с использованием библиотеки Diffusers и метода LoRA (Low-Rank Adaptation), позволяющего адаптировать большую генеративную модель без полного переобучения.
В качестве базовой модели использовалась Stable Diffusion XL, предварительно обученная на широком наборе изображений.
Процесс обучения включал несколько этапов:
Установка и подключение библиотек для обучения модели, обработки изображений и работы с генеративными нейросетями
На данном этапе исходные изображения были подготовлены для обучения модели
На следующем этапе подписи к изображениям были автоматически сгенерированы с помощью модели BLIP.
После генерации к каждой подписи добавлялся специальный токен drollery_style, который обозначает изучаемый стиль. В результате был сформирован набор пар «изображение — описание», необходимый для обучения модели.
Подписи к изображениям автоматически сгенерированы с помощью BLIP
Сформирован файл metadata.jsonl, содержащий пары «изображение — описание», используемый для обучения модели
Перед обучением была настроена среда и загружена базовая модель Stable Diffusion XL. Дообучение проводилось методом LoRA, который позволяет адаптировать модель под новый стиль без полного переобучения.
Модель обучалась на парах «изображение — текст», связывая визуальные особенности датасета с токеном drollery_style. В результате были получены LoRA-веса, позволяющие генерировать изображения в заданной стилистике.
Обученная модель (LoRA) загружена на Hugging Face для дальнейшего использования и распространения. Ссылка
Тестовые генерации
На этапе тестовых генераций модель продемонстрировала, что успешно усвоила ключевые характеристики стиля дролери. В изображениях воспроизводились: плоскостная композиция, цвета, орнаментальность и элементы готических букв. Модель даже начала имитировать фактуру старой бумаги, включая эффект просвечивания изображений с обратной стороны страницы, характерный для реальных манускриптов.
Однако был ряд недостатков: присутвовала некоторая «замыленность», линии были нечеткими, позы упрощенными.


Тестовые генерации
Итоговые генерации
В связи выявленными недостатками были скорректированы промты. В них добавлены указания на детализацию и графический характер изображения, такие как detailed illustration, intricate linework, ink drawing. Дополнительно были изменены параметры генерации, включая увеличение количества шагов и настройку guidance scale.
В итоговой серии генераций удалось значительно повысить уровень детализации при сохранении характерного визуального языка. Изображения представляют собой самостоятельные сцены с участием людей, животных и гибридных существ, помещённых в абсурдные или игровые ситуации. При этом модель стабильно воспроизводит плоскостное построение пространства, декоративную организацию композиции, специфическую пластику фигур и приглушённую цветовую палитру.


Модель успешно справляется с генерацией как животных, так и антропоморфных существ, сохраняя при этом характерные черты выбранного стиля. Персонажи выглядят выразительно и соответствуют визуальному языку дролери, включая их гротескность и условность.


В некоторых изображениях наблюдаются неточности в анатомии: пропорции могут быть искажены, а строение тел — нестабильным. Однако подобные особенности не являются критическим недостатком в контексте данного проекта. Напротив, они органично вписываются в эстетику дролери, где изначально отсутствует строгая анатомическая логика и часто встречаются гибридные, странные и намеренно искажённые существа.
Таким образом, подобные «ошибки» можно интерпретировать не как сбой модели, а как соответствие исторической визуальной традиции, в которой подобные формы вполне могли бы быть созданы реальным художником.
Генерация обложки проекта
Для оформления проекта была дополнительно сгенерирована обложка в обученном стиле. В качестве центрального образа был выбран персонаж, отсылающий к визуальному языку дролери — фантазийный рыцарь-лис.
Выбор лисы не случаен: в средневековой культуре она часто символизировала хитрость, обман и социальную иронию, а также нередко использовалась в сатирических сюжетах. Лисы регулярно встречаются в дролери и маргиналиях, где изображаются в антропоморфных ролях — как рыцари, монахи или участники абсурдных сцен.
Обложка создавалась как отдельная генерация с более тщательно прописанным промтом, ориентированным на выразительную композицию, декоративность и фактуру старой бумаги.
Описание применения генеративной модели
Stable Diffusion XL — генерация изображений и обучение стиля https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0
BLIP — автоматическая генерация подписей к изображениям https://huggingface.co/Salesforce/blip-image-captioning-base
ChatGPT (OpenAI) — помощь в устранении ошибок и отладке кода https://chat.openai.com
Gemini (Google) — помощь в устранении ошибок и отладке кода https://gemini.google.com

















