Обучение нейросети на фото Проскудина-Горского на Deziiign

Проскудин-Горский — пионер цветных фотографий в Российской Империи. Чтобы получить красочное изображение, во времена, когда цветной пленки еще не существовало, он делал по три черно-белых снимка с фильтрами красного, зеленого и синего цвета, а затем совмещал их.

Удивительно, что еще около 100 лет назад изображения создавались с таким трудом, а сегодня их можно сгенерировать за пару минут. В рамках финального проекта я захотела посмотреть, как обученная нейросеть справится с тем, чтобы передать поэтику фотографий Проскудина-Горского и ту лиричность, которой они так привлекательны.

Исходный размер 1920x858

Фрагмент из датасета с оригинальными фото Проскудина-Горского

Исходный размер 1920x533

Полный датасет (20 фото)

Проскудин-Горский известен не только фотографиями крестьян, но и трогательными пейзажами и крупными кадрами повседневных вещей. Из-за сложного производства фото, изображения часто имеют несовершенства, но они только добавляют живости кадрам.

Сгенерированные фото

Исходный размер 1920x926

prompt = «photo in PROSKUDIN style, view from the hill of a small Russian village» # @param

image = pipe (prompt=prompt, num_inference_steps=25).images[0] image

Исходный размер 1920x926

«photo in PROSKUDIN style, 3 colored easter eggs laying on the grass» и «photo in PROSKUDIN style, old wooden village church in the field»

Исходный размер 1920x926

«photo in PROSKUDIN style, orthodox cemetery»

Исходный размер 1920x926

«photo in PROSKUDIN style, swamp with swans» и «photo in PROSKUDIN style, 3 colored easter eggs laying on the grass»

Исходный размер 1920x1112

«photo in PROSKUDIN style, golden Orthodox cross lays on the wooden table and glitters in the sun» и «photo in PROSKUDIN style, close upimage of russian food stall at a fair»

Мне кажется, что нейросеть даже на небольшом количестве входных фото хорошо уловила особенности автора, изображения получились спокойные, почти без людей и пронизанные русским духом. Были сгенерированы сюжеты из простой деревенской жизни. Получилось поработать как с крупными, так и с дальними планами.

Как устроен код

Используемая нейросеть — Stable Diffusion. Датасет из 20 фото 1024×1024 пикселя.

Исходный размер 1920x1112

Сначала подготавливаем среду для работы, скачиваем все что нужно

Исходный размер 1920x1112

Затем подгружаем фотографии из датасета (я делала это локально) и просим дать превью нескольких фото

Исходный размер 1920x1112

Модель нужно обучить с помощью LoRa

Исходный размер 1920x938

Необходимо также подключиться к huggingfacehub, чтобы генерировать изображения

Посмотреть весь код