Исходный размер 1140x1600
Проект принимает участие в конкурсе
Исходный размер 1024x1024

Концепция

Цель проекта — обучить генеративную модель Stable Diffusion (SDXL) воспроизводить определённый визуальный стиль на основе небольшого датасета. В качестве метода обучения используется подход DreamBooth с LoRA (Low-Rank Adaptation), позволяющий адаптировать большую диффузионную модель под новый стиль без полного переобучения модели.

Для обучения был собран датасет изображений, выполненных в едином визуальном стиле, условно названном glassflower. Основными характерными особенностями стиля являются: стеклянная или полупрозрачная структура объектов, мягкая цветовая палитра с холодными оттенками, детализированные лепестки и плавные формы, минималистичные или светлые фоны.

Изображения для обучения были взяты со стоков. Права на использование — Public Domain.

Изображения для обучения

Серия изображений

Промты: 1. a delicate glass flower, minimal background, soft studio light, in the style of glassflower. 2. single elegant glass flower on a white background, product photography

Промты: 1. an abstract composition of glass flowers and light reflections, artistic composition, in the style of glassflower. 2. a glass flower sculpture on a marble table, soft shadows

Промты: 1. a glass flower with light passing through the petals, cinematic lighting, in the style of glassflower. 2. a macro close-up of a glass flower with translucent petals, high detail

Промты: 1. a surreal garden full of glowing glass flowers, dreamy atmosphere, in the style of glassflower. 2. a cluster of delicate glass flowers floating in air, ethereal mood

Основная идея проекта заключалась в том, чтобы обучить нейросеть не просто воспроизводить отдельные визуальные элементы исходных изображений, а улавливать и переносить целостную художественную концепцию стиля на новые сцены и композиции. В данном случае под стилем glassflower понимается визуальный язык, основанный на образах стеклянных или полупрозрачных цветов, мягкой светлой палитре, деликатной пластике формы и ощущении хрупкости, воздушности и декоративной утончённости.

Итоговая серия показывает, что модель смогла усвоить несколько ключевых признаков этого стиля. Во-первых, хорошо передана материальность объектов: цветы выглядят не как обычные растения, а как объекты со стеклянной или почти кристаллической поверхностью. Это особенно заметно по тому, как нейросеть интерпретирует лепестки: они часто имеют тонкие прозрачные края, мягкие блики, внутренние цветовые переходы и визуальную глубину, напоминающую окрашенное стекло. Во-вторых, удалось сохранить общую цветовую атмосферу датасета — в генерациях преобладают светлые, холодные и приглушённые оттенки, близкие к белому, голубому, сиреневому и серебристому. Эти цвета создают целостное ощущение серии и работают как один из главных идентификаторов стиля.

Исходный размер 1024x1024

Промт: a bouquet of glass flowers in a transparent vase, soft pastel colors, in the style of glassflower

Ещё одной важной особенностью, которую удалось передать, является характер формы. В изображениях заметны плавные, изящные лепестки, часто собранные в сложные радиальные структуры. Даже в тех случаях, когда композиция меняется, нейросеть всё равно воспроизводит узнаваемую логику построения цветка: лепестки выглядят удлинёнными и декоративно организованными. Это говорит о том, что модель усвоила не только общий стиль, но и часть структурных закономерностей визуального материала.

Основным методом улучшения здесь было не редактирование, а именно стилевое обучение модели на собственном наборе данных. То есть качество результата обеспечивалось за счёт того, что нейросеть сначала адаптировалась к визуальной логике исходного датасета, а уже потом использовалась для новых генераций. По сути, модель не просто рисовала цветок по тексту, а интерпретировала запрос через уже усвоенную систему признаков glassflower. Это заметно по тому, что даже разные по композиции изображения остаются визуально связанными между собой. Можно сказать, что нейросеть обработала исходные данные как набор повторяющихся стилевых закономерностей: тип формы, материалы, цветовую гамму, особенности светотени и характер фона.

Промты: 1. a delicate crystal flower glowing in warm sunset light, minimal background, in the style of glassflower. 2. a macro photograph of a glass flower petal with refraction and light caustics

Промты: 1. a cluster of glass flowers growing from a reflective surface, soft ambient light, in the style of glassflower. 2. a surreal floating glass flower surrounded by tiny glass particles, dreamy

Промты: 1. a frosted glass flower sculpture on a dark background with dramatic lighting, in the style of glassflower. 2. a glass flower illuminated by neon blue and purple light, futuristic mood

Промты: 1. a field of delicate glass flowers swaying in the wind, soft morning fog, in the style of glassflower. 2. a single elegant glass flower on a marble pedestal, museum presentation

Исходный размер 1024x1024

Промт: a broken glass flower transforming into glowing shards of light, artistic composition, in the style of glassflower

Процесс обучения

  1. Подготовка датасета. Был собран набор квадратных изображений хорошего качества, выполненных в едином художественном стиле glassflower. Изображения были приведены к одинаковому формату и размещены в отдельной папке для обучения модели.

  2. Загрузка данных в среду обучения. Датасет был загружен в среду Google Colab, где выполнялось обучение. Далее изображения были автоматически обработаны и подготовлены для использования в процессе обучения.

  3. Создание текстовых описаний изображений. Для каждого изображения были сгенерированы текстовые подписи (captions). К этим описаниям добавлялся специальный стилевой токен «in the style of glassflower», который позволял модели связать визуальные особенности изображений с текстовым указанием стиля.

  4. Запуск обучения модели. Дообучение выполнялось на базе модели Stable Diffusion XL с использованием метода DreamBooth и LoRA. В процессе обучения нейросеть анализировала изображения датасета и адаптировала свои параметры так, чтобы воспроизводить характерные признаки стиля glassflower.

  5. Получение обученных весов LoRA. После завершения обучения были сохранены специальные веса LoRA, содержащие информацию о выученном стиле. Эти веса могут подключаться к базовой модели без необходимости полного переобучения.

  6. Подключение обученного стиля к модели. Полученные веса LoRA были загружены в базовую модель Stable Diffusion XL, что позволило использовать новый стиль при генерации изображений.

  7. Генерация серии изображений. С помощью различных текстовых запросов, содержащих указание «in the style of glassflower», была создана серия новых изображений. Это позволило проверить, насколько стабильно модель переносит изученные стилевые особенности на разные сцены и композиции.

Вывод

В ходе проекта была успешно обучена LoRA-адаптация модели Stable Diffusion XL на пользовательском датасете, представляющем стиль glassflower. Полученные результаты показывают, что модель усвоила характерные визуальные признаки стиля и способна переносить их на новые сцены при генерации изображений. Итоговая серия демонстрирует устойчивость художественных особенностей и вариативность композиций, что подтверждает эффективность выбранного подхода обучения.

Обученная модель может использоваться для создания декоративных изображений в стиле glassflower, например для иллюстраций, цифрового искусства, открыток или обложек.

Нейросеть позволяет быстро генерировать различные варианты изображений в одном стиле, что может быть полезно для поиска художественных решений и разработки концептов.

Исходный размер 1024x1024

Промт: a fantasy landscape filled with giant glass flowers, magical lighting, in the style of glassflower

Применение генеративной модели

Для генерации промтов был использован ChatGPT.