Исходный размер 1140x1600
Проект принимает участие в конкурсе

Концепция

post

Я решила взять за основу 12 персонажей для игральных карт, посвященных хэллоуину. Их разработкой занималась моя подруга. Сами карты получились очень характерными — с их особой графикой, настроением, вниманием к деталям и немного мрачной, но притягательной эстетикой.

Основная цель проекта — узнать насколько нейросеть Stable Diffusion сможет попасть в стиль. И интересно проверить, как алгоритм справится с передачей характерных линий, цветовых решений и общей атмосферы, которые отличают работы моей подруги. А также посмотреть какие концепт-арты смогут получиться на основе этого стиля.

big
Исходный размер 3197x1063

Исходные иллюстрации персонажей

Игральные карты выполнены в довольно просто стиле, без сложного покраса. Персонажи находятся в похожих позах.

big
Исходный размер 3197x1063

Исходные иллюстрации персонажей

big
Исходный размер 3197x1063

Исходные иллюстрации персонажей

Для начала, скачиваем сторонние библиотеки

Исходный размер 2982x348

Затем, загружаем изображения в архив

Исходный размер 2982x1128

Выводим превью картинок

Исходный размер 2982x1848

Загружаем BLIP и выводим текстовое описание картинок

Исходный размер 2982x1614

Далее код находит и загружает картинки

Исходный размер 2982x558

Я создаю JSONL-файл с метаданными, где для каждой картинки генерирую подпись с префиксом

Исходный размер 2982x792

Показываем содержимое файла metadata.jsonl из папки cher

Исходный размер 2982x168

Очищаем память и запускаем ускоритель

Исходный размер 2982x959

Вводим токен hugging face и загружаем датасет

Исходный размер 2982x389

Настройки LORA

Исходный размер 2982x1817

Сохраним модель на hugging face

Исходный размер 2982x3117

Настраиваем Stable Diffusion и начинаем генерацию изображений

Исходный размер 2982x1516

Промпт: «photo collage in TYKVA style, a cartoon character holding a cup of coffee»

Первые генерации прошли довольно неплохо, нейросеть переняла цветовую палитру, анатомию и рамку вокруг персонажа, но все равно изображения выглядели немного «поломано» и не естественно, появлялись небольшие артефакты.

Исходный размер 2435x835

Коллаж из сгенерированных перонажей

У нейросети фон был однотонный, без артефактов, поэтому было принято объединить все генерации. Нейросети удается хорошо передать черты «лиц» и позы, также ИИ сохраняет рамку вокруг персонажа. Промпты были следующие:

  1. «photo collage in TYKVA style, skeleton with bow on the neck»
  2. «photo collage in TYKVA style, a skeleton pumpkin in suit»
  3. «photo collage in TYKVA style, cat female with ice cream»
  4. «photo collage in TYKVA style, a bat with an ice cream»
  5. «photo collage in TYKVA style, a skeleton in hat»

Потом, мне захотелось сгенерировать серию котов магов, которые, в теории, могли бы использоваться, как персонажи, для карт таро.

«concept art in TYKVA style, a black cat witch with wand» / «concept art in TYKVA style, a red cat witch with wand»

«concept art in TYKVA style, a brown cat witch with wand» / «concept art in TYKVA style, a grey cat witch with wand»

Для генерации котов с посохами «photo collage in TYKVA style» было заменено на «concept art in TYKVA style».

Я попробовала сгенерировать портреты котов на основе персонажей

«concept art in TYKVA style, a scary cat» / «concept art in TYKVA style, a fashionable cat wearing tiny round glasses and a striped scarf»

Еще сгенерированные картинки

Исходный размер 3308x1616

Коллаж из сгенерированных изображений

Промпты для изображений выше:

  1. «concept art in TYKVA style, a fashionable bat wearing tiny round glasses and a striped scarf»
  2. «concept art in TYKVA style, a bat sells pumpkins and garlands are glowing behind it»
  3. «concept art in TYKVA style, a old witch in black dress with white hair sittng on a chair and white cat»
  4. «concept art in TYKVA style, A tiny skeleton wearing an oversized cozy sweater, sipping hot cocoa from a pumpkin mug, sitting on a pile of autumn leaves»
  5. «concept art in TYKVA style, a black cat wearing a tiny witch hat sleeping by a fireplace, pumpkins on the windowsill, steam rising from a cauldron, warm lighting»
  6. «concept art in TYKVA style, apples, frosted pumpkin cookies, candy corn, on a dark wooden table, autumn leaves scattered around»
  7. «concept art in TYKVA style, a bat sells pumpkins and garlands are glowing behind it»
  8. «concept art in TYKVA style, a red cat caught a bat and carries it in its teeth»

На некоторых картинках сохраняется мотив фрейма, но все они на однотонном фоне, как и в датасете.

Итог

post

Модель усвоила основные принципы покраса и стилистики персонажей, а то есть тонкие линии и простая свето-тень, а также придерживалась цветовой палитры. В последствии генераций получилось избавиться от рамки вокруг персонажа и получать почти полноценные концепт-арты, которые можно дорабатывать и использовать для поиска новых идей и вдохновения, но ИИ не заменит художников, так как на данный момент все иллюстрации требуют ручной доработки.

В работе были использованы иллюстрации, авторские права которых, передали мне. Также применялись:

  1. Stable Diffusion
  2. Hugging face
  3. BLIP (Bootstrapping Language-Image Pre-training)
  4. Dreambooth + LoRA

Промпт изображения: «concept art in TYKVA style, a black cat is sitting next to the pumpkin»