Концепция

Я решила взять за основу 12 персонажей для игральных карт, посвященных хэллоуину. Их разработкой занималась моя подруга. Сами карты получились очень характерными — с их особой графикой, настроением, вниманием к деталям и немного мрачной, но притягательной эстетикой.
Основная цель проекта — узнать насколько нейросеть Stable Diffusion сможет попасть в стиль. И интересно проверить, как алгоритм справится с передачей характерных линий, цветовых решений и общей атмосферы, которые отличают работы моей подруги. А также посмотреть какие концепт-арты смогут получиться на основе этого стиля.

Исходные иллюстрации персонажей
Игральные карты выполнены в довольно просто стиле, без сложного покраса. Персонажи находятся в похожих позах.

Исходные иллюстрации персонажей

Исходные иллюстрации персонажей
Для начала, скачиваем сторонние библиотеки
Затем, загружаем изображения в архив
Выводим превью картинок
Загружаем BLIP и выводим текстовое описание картинок
Далее код находит и загружает картинки
Я создаю JSONL-файл с метаданными, где для каждой картинки генерирую подпись с префиксом
Показываем содержимое файла metadata.jsonl из папки cher
Очищаем память и запускаем ускоритель
Вводим токен hugging face и загружаем датасет
Настройки LORA
Сохраним модель на hugging face
Настраиваем Stable Diffusion и начинаем генерацию изображений
Промпт: «photo collage in TYKVA style, a cartoon character holding a cup of coffee»
Первые генерации прошли довольно неплохо, нейросеть переняла цветовую палитру, анатомию и рамку вокруг персонажа, но все равно изображения выглядели немного «поломано» и не естественно, появлялись небольшие артефакты.
Коллаж из сгенерированных перонажей
У нейросети фон был однотонный, без артефактов, поэтому было принято объединить все генерации. Нейросети удается хорошо передать черты «лиц» и позы, также ИИ сохраняет рамку вокруг персонажа. Промпты были следующие:
- «photo collage in TYKVA style, skeleton with bow on the neck»
- «photo collage in TYKVA style, a skeleton pumpkin in suit»
- «photo collage in TYKVA style, cat female with ice cream»
- «photo collage in TYKVA style, a bat with an ice cream»
- «photo collage in TYKVA style, a skeleton in hat»
Потом, мне захотелось сгенерировать серию котов магов, которые, в теории, могли бы использоваться, как персонажи, для карт таро.


«concept art in TYKVA style, a black cat witch with wand» / «concept art in TYKVA style, a red cat witch with wand»


«concept art in TYKVA style, a brown cat witch with wand» / «concept art in TYKVA style, a grey cat witch with wand»
Для генерации котов с посохами «photo collage in TYKVA style» было заменено на «concept art in TYKVA style».
Я попробовала сгенерировать портреты котов на основе персонажей


«concept art in TYKVA style, a scary cat» / «concept art in TYKVA style, a fashionable cat wearing tiny round glasses and a striped scarf»
Еще сгенерированные картинки
Коллаж из сгенерированных изображений
Промпты для изображений выше:
- «concept art in TYKVA style, a fashionable bat wearing tiny round glasses and a striped scarf»
- «concept art in TYKVA style, a bat sells pumpkins and garlands are glowing behind it»
- «concept art in TYKVA style, a old witch in black dress with white hair sittng on a chair and white cat»
- «concept art in TYKVA style, A tiny skeleton wearing an oversized cozy sweater, sipping hot cocoa from a pumpkin mug, sitting on a pile of autumn leaves»
- «concept art in TYKVA style, a black cat wearing a tiny witch hat sleeping by a fireplace, pumpkins on the windowsill, steam rising from a cauldron, warm lighting»
- «concept art in TYKVA style, apples, frosted pumpkin cookies, candy corn, on a dark wooden table, autumn leaves scattered around»
- «concept art in TYKVA style, a bat sells pumpkins and garlands are glowing behind it»
- «concept art in TYKVA style, a red cat caught a bat and carries it in its teeth»
На некоторых картинках сохраняется мотив фрейма, но все они на однотонном фоне, как и в датасете.
Итог

Модель усвоила основные принципы покраса и стилистики персонажей, а то есть тонкие линии и простая свето-тень, а также придерживалась цветовой палитры. В последствии генераций получилось избавиться от рамки вокруг персонажа и получать почти полноценные концепт-арты, которые можно дорабатывать и использовать для поиска новых идей и вдохновения, но ИИ не заменит художников, так как на данный момент все иллюстрации требуют ручной доработки.
В работе были использованы иллюстрации, авторские права которых, передали мне. Также применялись:
- Stable Diffusion
- Hugging face
- BLIP (Bootstrapping Language-Image Pre-training)
- Dreambooth + LoRA
Промпт изображения: «concept art in TYKVA style, a black cat is sitting next to the pumpkin»







