Исходный размер 694x1024

Подражание греческой вазописи: обучение генеративной нейросети

Проект принимает участие в конкурсе
Исходный размер 5166x272

Идея проекта

post

В основе проекта заложен стиль древнегреческой вазописи: он имеет характерный стиль и ограниченную палитру, что довольно узнаваемы.

Мне стало интересно, насколько точно генеративная модель сможет подражать заданносму стилю и сможет ли она изображать нетипичные для данного жарна сюжеты

За основу взяты музейные фотографии греческих ваз из The Metropolitan Museum of Art, в котором есть специализированный раздел с open-access фотографиями.

изображения из датасета

Исходный размер 5000x1348

Изображения были обрезаны, так как на изначальных фотографиях довольно много фона, а также видны постаменты, на которых стоят вазы. Всё это было по возможности убрано, чтобы на картинках оставались исключительно изображения на вазах, так как меня интересуют именно они, а не генерации всей вазы целиком.

Исходный размер 5166x272

Обучение

В проекте использовалась генеративная модель Stable Diffusion XL, а также метод дообучения LoRA для адаптации модели под заданный стиль изображений.

Исходный размер 2296x1362

Изображения были загружены в приватный датасет в Kaggle и непосредственно обучение модели проводилось там.

Исходный размер 1944x1030

Обучение проходило за 1000 шагов с чекпоинтами каждые 200 шагов, чтобы иметь возможность откатиться назад при необходимости.

Исходный размер 1650x914
Исходный размер 5166x272
Исходный размер 2164x446

генерация изображений текстовым промтом

Классические сюжеты

сгенерированные изображения

post

Модель вполне успешно справляется с одним или парой персонажей, соблюдая стиль и присущую анатомию. При увеличении количества действующих лиц наблюдаются уже неточности.

0

Неподходящие сюжеты

post

Одной из своих задач было попробовать нестандартные сюжеты для стиля и посмотреть как модель справится с ними: поэтому в некоторых промтах фигурировали нотубуки, велосипеды и пр.

женщина на велосипеде и мужчина на автобусной остановке

В большинстве случаев модель перерабатывала неподходящие элементы промта или изображала их так, что в целом сложно догадаться, что промт был неподходящим.

В случае попыток сгенерировать мифологических существ, не присутствующих в изначальном датасете, нейросеть импровизирует, делая нечто приближенное, а при сниженном параметре силы следования промту уходит в нечто абстрактное.

Исходный размер 4790x1024

постепенное понижение кол-ва шагов диффузии и силы следования промту в попытке добиться более животного сатира

post

Опытным путем было выяснено, что оптимальные параметры генерации: num_inference_steps=40, guidance_scale=8 При таких параметрах модель соблюдает стиль и максимально точна с точки зрения логичности изображаемого. Если сильно понижать или повышать значения, то модель испытывает трудности и часто «смешивает» происходящее.

Неудачные генерации

сцена битвы и сюжет с охотой на льва

post

Ожидаемо, модель испытывает трудности с изображением большого количества героев, путаясь в них, но в целом в изображениях понятна суть и сюжетное направление.

0

промты, сосредоточенные на изображении лошадей

Исходный размер 5166x272

Использованные нейросети

ChatGPT (OpenAI) — редактирование промтов и помощь в подключении обученной модели в другой среде.

Stable Diffusion XL — генерация изображений и обучение генеративной модели.

Исходный размер 5166x272
Подражание греческой вазописи: обучение генеративной нейросети
Проект создан 22.03.2026