Идея проекта
В основе проекта заложен стиль древнегреческой вазописи: он имеет характерный стиль и ограниченную палитру, что довольно узнаваемы.
Мне стало интересно, насколько точно генеративная модель сможет подражать заданносму стилю и сможет ли она изображать нетипичные для данного жарна сюжеты
За основу взяты музейные фотографии греческих ваз из The Metropolitan Museum of Art, в котором есть специализированный раздел с open-access фотографиями.
изображения из датасета
Изображения были обрезаны, так как на изначальных фотографиях довольно много фона, а также видны постаменты, на которых стоят вазы. Всё это было по возможности убрано, чтобы на картинках оставались исключительно изображения на вазах, так как меня интересуют именно они, а не генерации всей вазы целиком.
Обучение
В проекте использовалась генеративная модель Stable Diffusion XL, а также метод дообучения LoRA для адаптации модели под заданный стиль изображений.
Изображения были загружены в приватный датасет в Kaggle и непосредственно обучение модели проводилось там.
Обучение проходило за 1000 шагов с чекпоинтами каждые 200 шагов, чтобы иметь возможность откатиться назад при необходимости.
генерация изображений текстовым промтом
Классические сюжеты
сгенерированные изображения
Модель вполне успешно справляется с одним или парой персонажей, соблюдая стиль и присущую анатомию. При увеличении количества действующих лиц наблюдаются уже неточности.
Неподходящие сюжеты
Одной из своих задач было попробовать нестандартные сюжеты для стиля и посмотреть как модель справится с ними: поэтому в некоторых промтах фигурировали нотубуки, велосипеды и пр.
женщина на велосипеде и мужчина на автобусной остановке
В большинстве случаев модель перерабатывала неподходящие элементы промта или изображала их так, что в целом сложно догадаться, что промт был неподходящим.
В случае попыток сгенерировать мифологических существ, не присутствующих в изначальном датасете, нейросеть импровизирует, делая нечто приближенное, а при сниженном параметре силы следования промту уходит в нечто абстрактное.
постепенное понижение кол-ва шагов диффузии и силы следования промту в попытке добиться более животного сатира
Опытным путем было выяснено, что оптимальные параметры генерации: num_inference_steps=40, guidance_scale=8 При таких параметрах модель соблюдает стиль и максимально точна с точки зрения логичности изображаемого. Если сильно понижать или повышать значения, то модель испытывает трудности и часто «смешивает» происходящее.
Неудачные генерации
сцена битвы и сюжет с охотой на льва
Ожидаемо, модель испытывает трудности с изображением большого количества героев, путаясь в них, но в целом в изображениях понятна суть и сюжетное направление.
промты, сосредоточенные на изображении лошадей
Использованные нейросети
ChatGPT (OpenAI) — редактирование промтов и помощь в подключении обученной модели в другой среде.
Stable Diffusion XL — генерация изображений и обучение генеративной модели.




