Проект принимает участие в конкурсе

Идея проекта

Около года назад я увлеклась бердвотчингом и теперь меня интересует все, что связано с птицами. Помимо птиц мне также нравятся средневековые иллюстрации к текстам и прочие подобные изображения. В данном проекте я соединяю два своих увлечения.

Исходные изображения

В качестве исходных изображений для обучения нейросети я отобрала картинки с The Medievil Bestiary и обрезала их под формат 1:1.

Ссылка мою на базу изображений.

big
Исходный размер 2698x1872

Итоговые изображения

0

Орел и ворон Промпт орла «bird in MEDIEVAL PAINTING style, eagle, heraldic» Промпт ворона «bird in MEDIEVAL PAINTING style, eagle, raven, gothic art, 14th century»

0

Голуби Промпт «bird in MEDIEVAL PAINTING style, a dove flying in the blue sky»

Конечно, есть некоторые неточности, например, голуби получились слишком многокрылыми, а некоторые птицы трех- (и более) ногими, но что-то средневековое в этом есть.

Исходный размер 1024x1024

Промпт «bird in MEDIEVAL PAINTING style, several white birds are sitting among the trees»

Нейросеть также способна изображать группы птиц.

Исходный размер 1024x1024

Промпт «bird in MEDIEVAL PAINTING style, blue bird, tempera style, gold background»

И птиц любого цвета.

Исходный размер 1024x1024

Петух и инжир Промпт «bird in MEDIEVAL PAINTING style, a cock, figs nearby»

Данную генерацию я считаю наиболее удачной, у петуха все хорошо с ногами (если не считать пары лишних пальцев) и достаточно правдоподобные крылья. Инжир также изображен по средневековым меркам достаточно точно.

Таким образом, нейросеть научилась достаточно правдоподобно изображать фрагменты средневековых документов с иллюстрациями птиц, а также отрисовывать конкретные их виды, изображать птиц в указанном в промпте цвете, а также некоторые растения. На данный момент модель имеет некоторые неточности в виде добавления птицам лишних конечностей, но в целом генерации вышли удачными.

Процесс работы

  1. Установка необходимых библиотек
  2. Загрузка предобученной модели
  3. Подключение Google Drive и загрузка сета изображений
  4. Создание описаний картинок
  5. Настройка параметров обучения
  6. Запуск обучения
  7. Выгрузка модели на Hudding Face
  8. Генерация итоговых изображений с помощью текстовых промптов

Обучение модели проводилось в среде Google Colab. В качестве базовой архитектуры использовалась Stable Diffusion.

В работе я также использовала Claude.Ai для помощи с подготовкой сета изображений, а также для подключения его к Colab и выгрузке модели на Hudding Face.

Обложка проекта: «Петух и инжир» с улучшенным через нейросеть качеством.

Исходный размер 2698x438