Object Without Owner. Crash на Deziiign

Концепция проекта

Проект исследует эстетику предметной модной фотографии без присутствия человека. В традиционной fashion-съемке одежда и аксессуары почти всегда представлены на теле модели, однако в современном визуальном языке брендов все чаще появляется тенденция объектной съемки, где предмет существует как самостоятельный эстетический объект.

В рамках проекта нейросеть Stable Diffusion обучается на датасете из предметных фотографий аксессуаров и одежды. Все фотографии для датасета были отобраны вручную. Важно, чтобы на них не было человека, при этом был заметный акцент на предмет гардероба. В результате обучения модель должна воспроизводить характерный визуальный стиль fashion-предметной съемки, в котором вещи существуют как автономные объекты композиции.

Однако, в дальнейшем в моих размышлениях появилась еще одна ветка — я задумалась о том, что генеративные изображения в основном имею две крайности — картинка либо слишком идеальная и «вылизанная», либо, наоборот, появляются заметные мутации, баги и искажения. Я решила добавить эту особенность в свой проект и посмотреть, может ли работать этот визуальный прием в идеальном мире моды. Нейросеть также обучена на «правильном» датасете, который представляет собой красивые аккуратные кадры с хорошим освещением, модной одеждой и стильными локациями, что вписывается в первую особенность нейросетевых изображений, но противоречит второй.

Таким образом, проект исследует вопрос: может ли нейросеть полностью воспроизвести эстетику брендовой предметной съемки и создавать новые визуальные композиции в этом стиле?

Итоговая серия изображений представляет собой генеративные предметные fashion-композиции, созданные обученной моделью Stable Diffusion. На изображениях присутствует дизайнерская посуда и украшения, при этом человек полностью отсутствует, что соответствует концепции исходного датасета.

Исходные изображения для обучения

Использованные ресурсы

— Stable Diffusion v1.5 — обучение генеративной нейросети под свой стиль; — LoRA (Low-Rank Adaptation) — дообучение модели на моих данных — Google Colab — выполнение кода и генераций; — Google Drive — хранение датасета и модели — Библиотеки — Diffusers, Transformers, Accelerate, PyTorch, Safetensors — kaboompics.com — поиск и скачивание датасета из открытого доступа

Процесс работы

Процесс работы происходил в несколько этапов:

Постановка задач
Ручной сбор датасета и подгонка изображений по формату, размещение датасета на диске
Настройка среды Google Colab
Выбор модели и подготовка кода
Первые пробы генерации и корректировка промптов
Несколько этапов проб и формирование итоговых серий изображений

Результирующие серии изображений

Серия 1

Серия 2

Описание результатов (Какие элементы стиля удалось передать)

После обучения модель смогла воспроизвести несколько характерных особенностей исходного датасета.

Абстрактная композиция Изображения сохраняют композиционный принцип предметной съемки исходного датасета, в котором много размытости, хаоса, абстракций, блюра и смазанных текстур
Студийный свет Модель хорошо воспроизводит мягкий студийный свет, аккуратные тени, отлично подчеркивает фактуру и структуру материалов
Чистота визуального пространства Нейросеть избегает лишних деталей и создает изображения, напоминающие каталожную или рекламную съемку на однотонном фоне

Изначальная идея проекта заключалась в исследовании того, может ли нейросеть освоить визуальный язык предметной fashion-съемки и научиться видоизменять его.

Полученные изображения показывают, что модель: успешно переняла общую композиционную структуру, стилистику исходного датасета, воспроизводит характер студийного освещения, генерирует новые комбинации предметов и при этом может также создавай новые нереалистичные формы, которые были запрошены с помощью промпта. Таким образом, нейросеть не просто копирует изображения из датасета, а создает новые визуальные вариации в том же стиле.

Визуальный анализ серии

Изображения из двух серий отличаются друг от друга несколькими параметрами. — Разные композиции. Изображения из серии с ювелирными украшениями имеют динамику — цепи разложены из нижнего левого угла к левому верхнему. В композиции каждого кадра прослеживается четкая диагональ. Во второй серии нейросеть добавляет необходимый мне хаос и беспорядок. Появляются разные ракурсы, неравномерная наполненность композиции, сломанные формы и искажение перспективы. Этого результата я добилась благодаря использованию слов haotic composition, surreal, experimental photography, distorted shapes, fragmented objects в тексте промпта.

— Разные цветовые решения Цвета и оттенки первой серии выдержаны — мы видим серо-бежевый фон и золотые украшения, засчет чего и создается ощущение серийности. Оттенки во второй серии предметов варьируются. Здесь мы видим белый, серый, золотой, но также добавляются ярко-зеленый, бирюзовый и бордовый.

Исходный размер 1817x251

использование слов haotic composition, surreal, experimental photography, distorted shapes, fragmented objects в тексте промпта для генерации второй серии

Используемая модель

Для обучения использовался метод LoRA, позволяющий дообучить Stable Diffusion на небольшом датасете

Итог проекта

В результате проекта была создана генеративная модель, способная создавать новые изображения предметной fashion-съемки, основанные на стиле исходного датасета. Модель демонстрирует способность воспроизводить композиционные принципы предметной съемки, генерировать новые вариации объектов, сохранять единый визуальный стиль, либо создавать его вариации, основываясь на введенном промпте. Таким образом, проект показывает, что генеративные нейросети могут использоваться как инструмент создания новых визуальных концепций для fashion-брендов.

Датасет

Блокнот

Ссылка на модель