AI Manuscript: кодекс дролери на Deziiign

Концепция

Проект продолжает моё предыдущее визуальное исследование, посвящённое феномену дролери в средневековой культуре.

В рамках визуального исследования я изучала происхождение и особенности этих изображений, обращая внимание на их абсурдность, повторяющиеся мотивы и распространение в различных культурных контекстах. Сюжеты в них не всегда были связаны с текстом и выполняли скорее декоративную и игровую функцию.

В новом проекте тема дролери получила продолжение через работу с генеративной нейросетью. Если ранее анализ был направлен на выявление закономерностей внутри исторических изображений, то теперь задача заключается в том, чтобы попробовать воспроизвести этот визуальный язык и его внутреннюю логику средствами искусственного интеллекта.

Таким образом, проект становится не только техническим экспериментом по обучению модели, но и попыткой воссоздать «перевернутый мир» дролери — уже в цифровой среде, где нейросеть выступает как инструмент интерпретации и продолжения исторической визуальной традиции.

Исходный размер 1300x362

Изображения для обучения модели

Датасет

Для обучения модели мной был сформирован датасет, состоящий из 32 изображений средневековых иллюминированных манускриптов, относящихся к жанру дролери.

Источником изображений послужили открытые цифровые архивы средневековых рукописей, в частности коллекции, находящиеся в общественном доступе (Public Domain). В датасет включены фрагменты из различных манускриптов, включая, например, Маастрихтский часослов (Maastricht Hours) — один из известных источников маргиналий с характерными фантазийными сценами.

Все используемые изображения находятся в общественном достоянии (Public Domain / CC0) и распространяются с открытой лицензией, не накладывающей ограничений на их использование. Это позволяет легально применять данные материалы, включая их использование в качестве обучающего материала для генеративных моделей.

Изображения для обучения модели

Изображения дролери в исходных источниках редко представлены как отдельные иллюстрации высокого качества — чаще всего это небольшие фрагменты крупных страниц манускриптов.

В процессе подготовки датасета такие фрагменты были кадрированы, выделяя сцены с персонажами и декоративными элементами, затем приведены к квадратному формату (1:1) и единому разрешению, удобному для обучения модели.

Ограниченное качество исходных изображений влияет на результат: модель усваивает стиль в более обобщённом виде и иногда упрощает детали. Однако ключевые характеристики дролери — композиция, пластика фигур и абсурдность сцен — сохраняются и успешно передаются в генерации.

Процесс обучения модели

Ноутбук с кодом

Обучение модели проводилось с использованием библиотеки Diffusers и метода LoRA (Low-Rank Adaptation), позволяющего адаптировать большую генеративную модель без полного переобучения.

В качестве базовой модели использовалась Stable Diffusion XL, предварительно обученная на широком наборе изображений.

Процесс обучения включал несколько этапов:

Исходный размер 1892x1206

Установка и подключение библиотек для обучения модели, обработки изображений и работы с генеративными нейросетями

На данном этапе исходные изображения были подготовлены для обучения модели

На следующем этапе подписи к изображениям были автоматически сгенерированы с помощью модели BLIP.

После генерации к каждой подписи добавлялся специальный токен drollery_style, который обозначает изучаемый стиль. В результате был сформирован набор пар «изображение — описание», необходимый для обучения модели.

Исходный размер 1912x1158

Подписи к изображениям автоматически сгенерированы с помощью BLIP

Исходный размер 1936x1160

Сформирован файл metadata.jsonl, содержащий пары «изображение — описание», используемый для обучения модели

Перед обучением была настроена среда и загружена базовая модель Stable Diffusion XL. Дообучение проводилось методом LoRA, который позволяет адаптировать модель под новый стиль без полного переобучения.

Модель обучалась на парах «изображение — текст», связывая визуальные особенности датасета с токеном drollery_style. В результате были получены LoRA-веса, позволяющие генерировать изображения в заданной стилистике.

Обученная модель (LoRA) загружена на Hugging Face для дальнейшего использования и распространения. Ссылка

Тестовые генерации

Исходный размер 1916x984

На этапе тестовых генераций модель продемонстрировала, что успешно усвоила ключевые характеристики стиля дролери. В изображениях воспроизводились: плоскостная композиция, цвета, орнаментальность и элементы готических букв. Модель даже начала имитировать фактуру старой бумаги, включая эффект просвечивания изображений с обратной стороны страницы, характерный для реальных манускриптов.

Однако был ряд недостатков: присутвовала некоторая «замыленность», линии были нечеткими, позы упрощенными.

Тестовые генерации

Итоговые генерации

В связи выявленными недостатками были скорректированы промты. В них добавлены указания на детализацию и графический характер изображения, такие как detailed illustration, intricate linework, ink drawing. Дополнительно были изменены параметры генерации, включая увеличение количества шагов и настройку guidance scale.

В итоговой серии генераций удалось значительно повысить уровень детализации при сохранении характерного визуального языка. Изображения представляют собой самостоятельные сцены с участием людей, животных и гибридных существ, помещённых в абсурдные или игровые ситуации. При этом модель стабильно воспроизводит плоскостное построение пространства, декоративную организацию композиции, специфическую пластику фигур и приглушённую цветовую палитру.

Исходный размер 768x768

Модель успешно справляется с генерацией как животных, так и антропоморфных существ, сохраняя при этом характерные черты выбранного стиля. Персонажи выглядят выразительно и соответствуют визуальному языку дролери, включая их гротескность и условность.

Исходный размер 1080x1080

Исходный размер 1140x1600

В некоторых изображениях наблюдаются неточности в анатомии: пропорции могут быть искажены, а строение тел — нестабильным. Однако подобные особенности не являются критическим недостатком в контексте данного проекта. Напротив, они органично вписываются в эстетику дролери, где изначально отсутствует строгая анатомическая логика и часто встречаются гибридные, странные и намеренно искажённые существа.

Таким образом, подобные «ошибки» можно интерпретировать не как сбой модели, а как соответствие исторической визуальной традиции, в которой подобные формы вполне могли бы быть созданы реальным художником.

Исходный размер 1080x1080

Генерация обложки проекта

Для оформления проекта была дополнительно сгенерирована обложка в обученном стиле. В качестве центрального образа был выбран персонаж, отсылающий к визуальному языку дролери — фантазийный рыцарь-лис.

Выбор лисы не случаен: в средневековой культуре она часто символизировала хитрость, обман и социальную иронию, а также нередко использовалась в сатирических сюжетах. Лисы регулярно встречаются в дролери и маргиналиях, где изображаются в антропоморфных ролях — как рыцари, монахи или участники абсурдных сцен.

Обложка создавалась как отдельная генерация с более тщательно прописанным промтом, ориентированным на выразительную композицию, декоративность и фактуру старой бумаги.

Исходный размер 1140x1600

Описание применения генеративной модели

Stable Diffusion XL — генерация изображений и обучение стиля https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0

BLIP — автоматическая генерация подписей к изображениям https://huggingface.co/Salesforce/blip-image-captioning-base

ChatGPT (OpenAI) — помощь в устранении ошибок и отладке кода https://chat.openai.com

Gemini (Google) — помощь в устранении ошибок и отладке кода https://gemini.google.com