Концепция

Коты в Средневековье были другими. Они носили шляпы, сражались с улитками и играли на странных музыкальных инструментах. Думаю, их жизни позавидовал бы каждый из нас: почему бы не сделать из этих иллюстраций нейросеть?


Проект направлен на то, чтобы обучить нейросеть рисовать в самом странном и обаятельном стиле, который только придумало человечество, — в стиле средневековых книжных миниатюр. А точнее, рисовать в этом стиле тех самых котов человеческими лицами, серьёзными взглядами и полным отсутствием анатомии.
Модель тренировалась на коллекции старинных гравюр и рукописей, где коты носят короны, держат мечи, а иногда просто странно сидят. Я собрала лучшие образцы этого жанра, чтобы нейросеть прочувствовала всю глубину истории.
Серия изображений
Самые удачные генерации
промпт: «in the style of MEDIEVAL PAINTING cat in knight armour»/«in the style of MEDIEVAL PAINTING two cats battling in knight armour»
Для создания генератора средневековых кошачьих миниатюр использовалась модель Stable Diffusion XL (SDXL). Для адаптации модели к специфическому стилю применялись методы дообучения DreamBooth и LoRA. Датасет был собран из открытых источников и включал изображения керамических изразцов, которые были предварительно приведены к единому формату 512×512.
промпт: «in the style of MEDIEVAL PAINTING cat with modern instruments»
промпт: «in the style of MEDIEVAL PAINTING cat with book»
Что делает средневековую миниатюру узнаваемой? 1. Отсутствие реалистичной перспективы Предметы и фигуры располагаются на плоскости без учета глубины, часто ярусами или в условном порядке.
2. Плоскостность изображения Фигуры не имеют объема, светотень отсутствует, акцент сделан на силуэт и контур.
3. Символичность, а не натурализм Важна не анатомическая точность, а узнаваемость образа и его смысловая нагрузка.
4. Яркие, локальные цвета Преобладают чистые тона: красный, синий, зеленый, охра, золотой. Полутона и сложные переходы почти не используются.
промпт: «in the style of MEDIEVAL PAINTING cat collecting apples in the sky»/«in the style of MEDIEVAL PAINTING cat flying in the sky»
промпт: «in the style of MEDIEVAL PAINTING cat playing music on a various instruments»
Нейросеть способна генерировать изображения с множеством разных цветов, на картинке может быть много кошек разных пород и видов.
промпт: «in the style of MEDIEVAL PAINTING smart lion»
промпт: «in the style of MEDIEVAL PAINTING scared tiger»
Модель, полученная в результате обучения, была сохранена в репозиторий на Huggingface.
Как мне кажется, нейросети удалось приблизиться к уникальной эстетике средневековых миниатюр и передать её. В сгенерированных изображениях можно уловить характерные черты старинных манускриптов: плоскостность, условность поз, яркие локальные цвета и ту самую серьёзность, с которой средневековые художники изображали даже самых абсурдных котов.
И всё же нельзя не отметить, что сгенерированные нейросетью коты далеки от идеала. По-прежнему прослеживаются искажения морд, странные пропорции тел, а также проблемы с текстурой шерсти и детализацией лап. С другой стороны, если вспомнить оригинальные средневековые миниатюры — там с анатомией котов тоже было не всё гладко. Так что, возможно, нейросеть просто слишком хорошо освоила оригинальный источник.
промпт: «in the style of MEDIEVAL PAINTING two cats in snail shells»
Применение генеративной модели
Для автоматического создания текстовых описаний использовалась модель BLIP image captioning model. К каждому изображению добавлялся префикс: «in the style of MEDIEVAL PAINTING…» Это позволило модели выучить визуальные особенности стиля.
LoRA — это подход к дообучению, при котором вместо всех весов модели корректируются лишь небольшие дополнительные матрицы. Это позволяет экономить память и ускоряет процесс.
DreamBooth — техника, которая помогает модели запоминать и воспроизводить конкретные объекты или стиль на основе всего нескольких примеров.
Промты для генерации были созданы с помощью ChatGPT.
Отдельные моменты, связанные с тонкостями работы кода, помог разобрать и описать DeepSeek.
Заключение
Сегодня нейросети для генерации изображений — одна из самых динамично развивающихся областей. Модели вроде DALL‑E 2, Stable Diffusion и Midjourney уже умеют создавать детализированные изображения по текстовому описанию, открывая широкие возможности для дизайна, рекламы, искусства и образования.
Но развитие идёт не только в технологическую сторону. Всё острее встают вопросы этики: дипфейки, дезинформация, авторские права, влияние на творческие профессии. Без внятного регулирования даже самые продвинутые инструменты могут создавать столько же проблем, сколько решать.
Так что обучение генеративных моделей — это не только про технологии, но и про ответственность за их применение.




