Подражание греческой вазописи: обучение генеративной нейросети на Deziiign

Исходный размер 5166x272

Идея проекта

В основе проекта заложен стиль древнегреческой вазописи: он имеет характерный стиль и ограниченную палитру, что довольно узнаваемы.

Мне стало интересно, насколько точно генеративная модель сможет подражать заданносму стилю и сможет ли она изображать нетипичные для данного жарна сюжеты

Датасет

За основу взяты музейные фотографии греческих ваз из The Metropolitan Museum of Art, в котором есть специализированный раздел с open-access фотографиями.

изображения из датасета

Исходный размер 5000x1348

Изображения были обрезаны, так как на изначальных фотографиях довольно много фона, а также видны постаменты, на которых стоят вазы. Всё это было по возможности убрано, чтобы на картинках оставались исключительно изображения на вазах, так как меня интересуют именно они, а не генерации всей вазы целиком.

Исходный размер 5166x272

Обучение

В проекте использовалась генеративная модель Stable Diffusion XL, а также метод дообучения LoRA для адаптации модели под заданный стиль изображений.

Исходный размер 2296x1362

Изображения были загружены в приватный датасет в Kaggle и непосредственно обучение модели проводилось там.

Исходный размер 1944x1030

Обучение проходило за 1000 шагов с чекпоинтами каждые 200 шагов, чтобы иметь возможность откатиться назад при необходимости.

Исходный размер 1650x914

Блокнот с обучением модели

Greek_style

Исходный размер 5166x272

Создание изображений

Исходный размер 2164x446

генерация изображений текстовым промтом

Классические сюжеты

сгенерированные изображения

Модель вполне успешно справляется с одним или парой персонажей, соблюдая стиль и присущую анатомию. При увеличении количества действующих лиц наблюдаются уже неточности.

Неподходящие сюжеты

Одной из своих задач было попробовать нестандартные сюжеты для стиля и посмотреть как модель справится с ними: поэтому в некоторых промтах фигурировали нотубуки, велосипеды и пр.

женщина на велосипеде и мужчина на автобусной остановке

В большинстве случаев модель перерабатывала неподходящие элементы промта или изображала их так, что в целом сложно догадаться, что промт был неподходящим.

В случае попыток сгенерировать мифологических существ, не присутствующих в изначальном датасете, нейросеть импровизирует, делая нечто приближенное, а при сниженном параметре силы следования промту уходит в нечто абстрактное.

Исходный размер 4790x1024

постепенное понижение кол-ва шагов диффузии и силы следования промту в попытке добиться более животного сатира

Опытным путем было выяснено, что оптимальные параметры генерации: num_inference_steps=40, guidance_scale=8 При таких параметрах модель соблюдает стиль и максимально точна с точки зрения логичности изображаемого. Если сильно понижать или повышать значения, то модель испытывает трудности и часто «смешивает» происходящее.

Неудачные генерации

сцена битвы и сюжет с охотой на льва

Ожидаемо, модель испытывает трудности с изображением большого количества героев, путаясь в них, но в целом в изображениях понятна суть и сюжетное направление.

промты, сосредоточенные на изображении лошадей

Исходный размер 5166x272

Использованные нейросети

ChatGPT (OpenAI) — редактирование промтов и помощь в подключении обученной модели в другой среде.

Stable Diffusion XL — генерация изображений и обучение генеративной модели.

Исходный размер 5166x272