Медведь, которого зовут Собачка на Deziiign

Идея

У меня есть плюшевый медведь, который сопровождает меня в повседневной жизни и существует в привычной реальности — среди комнат, предметов и бытовых сцен.

Однако с помощью генеративной нейросети я переношу его в новые, вымышленные миры, сохраняя его внешний вид и характер, но адаптируя его под окружающую среду.

Таким образом, серия изображений становится исследованием того, как объект может оставаться узнаваемым, меняясь вместе с контекстом.

Источники изображений

В качестве исходного материала для обучения модели использовались фотографии моего плюшевого медведя. Все изображения были сделаны вручную в разных ракурсах и условиях освещения, что позволило зафиксировать его форму, текстуру и характерные особенности.

На основе этого датасета модель была дообучена и в дальнейшем использовалась для генерации новых изображений, сохраняющих визуальную идентичность медведя в различных вымышленных сценах.

Ссылка на датасет

Примеры исходных изображений

Процесс обучения

Исходный размер 2362x1034

Код для подключения датасета и переноса изображений

Исходный размер 2366x990

Код для создания текстовых описаний изображений, используемых при обучении модели

Исходный размер 1996x814

Фрагмент кода запуска обучения LoRA на базе Stable Diffusion

Первая серия генераций

Исходный размер 2234x246

Промты для первой серии генераций

Исходный размер 1024x1024

Генерация с подводным миром из первой серии

Исходный размер 2711x881

Первая серия генераций

На первом этапе генерации были использованы базовые сценарии с различными средами — от подводного мира до космических пространств. Это позволило проверить, насколько модель способна переносить внешний вид объекта в новые контексты и сохранять его идентичность.

Вторая серия генераций

Исходный размер 2302x1228

Фрагмент кода для второй серии генераций

На втором этапе генерации были использованы более сложные и атмосферные сценарии, направленные на усиление художественной выразительности изображений.

Особое внимание уделялось работе со светом, глубиной сцены и эмоциональным состоянием среды. В отличие от первой серии, где основной задачей была проверка устойчивости модели, здесь акцент был сделан на формирование визуального языка проекта.

Были исследованы различные пространства — от замкнутых интерьерных сцен до открытых природных ландшафтов и абстрактных сред. Это позволило добиться более целостного и стилистически согласованного результата.

Исходный размер 1024x1024

Генерация с фантазийным миром плюшевых грибов

Исходный размер 1506x1502

Медведь в уютной спальне

Медведь в поле и в пустыне

Исходный размер 2829x906

Медведь на выставке искусства

Исходный размер 1518x1514

Медведь в пещере розовых кристаллов

На даче и в городе

Вторая серия генераций показала значительное улучшение качества изображений по сравнению с первым этапом, особенно в работе со светом в сложных сценах.

При этом в отдельных случаях сохранялись незначительные артефакты, связанные с генерацией сложных пространств и глубиной композиции.

В целом модель продемонстрировала способность не только воспроизводить внешний вид объекта, но и адаптировать его к различным художественным сценариям.

Исходный размер 1024x1024

Одинокий медведь в городе

Выводы

В ходе проекта была обучена LoRA-модель на основе фотографий плюшевого медведя, что позволило сохранить его визуальные характеристики в процессе генерации.

Проведённые эксперименты показали, что даже при относительно небольшом датасете модель способна переносить объект в различные контексты и формировать разнообразные визуальные сцены.

Постепенное усложнение промтов позволило улучшить качество генераций и сформировать единый художественный стиль проекта.

В результате был создан набор изображений, представляющий собой серию визуальных интерпретаций объекта в различных пространствах и состояниях, что демонстрирует потенциал генеративных моделей как инструмента художественного исследования.

Исходный размер 1024x1024

Медведь в мегаполисе

Таким образом, проект представляет собой не только техническое исследование возможностей генеративных моделей, но и художественный эксперимент, направленный на переосмысление привычного объекта в новых визуальных контекстах.

Ссылка на блокнот