Исходный размер 1319x1751

Обучение генеративной нейросети в стиле Рауля Дюфи

Проект принимает участие в конкурсе

Концепция

Мир Рауля Дюфи — это мир вечного праздника. Регаты, концерты, набережные Ниццы, цирковые арены: всё пронизано светом и движением, всё существует в состоянии лёгкости, которая кажется почти невозможной.

big
Исходный размер 3500x2354

(1) Boats at Martigues, 1908; (2) Regatta at Cowes, 1934;

Но за этой кажущейся лёгкостью стоит очень конкретный художественный метод. Дюфи разделил то, что живопись традиционно держит вместе: цвет и форму. Широкое пятно ложится на холст первым — интуитивно, почти небрежно. И только потом поверх него появляется линия — быстрая, каллиграфическая, совершенно свободная от того, что находится под ней. Контур не описывает цвет, он с ним разговаривает. Именно это несовпадение и создаёт характерное напряжение его работ — между стихийным и осознанным, между ощущением и наблюдением.

Основная идея проекта — создать серию изображений, воспроизводящих этот визуальный язык средствами генеративной модели. Для этого был обучен LoRA-адаптер на датасете из работ художника, а через процесс составления подписей к каждой картине — разобраться, что именно в стиле Дюфи является стилем, а что просто содержанием.

Подготовка к обучению

big
Исходный размер 3500x1134

(1) Sailing boats in Deauville, 1936; (2) Fishermen, 1907; (3) Big tree of Sainte-Maxime, 1942;

Для обучения модели был собран датасет из работ Рауля Дюфи: от фовистских опытов 1906 года до поздних композиций 1950-х. Объём: • 78 изображений. Формат: • квадратные изображения (1:1); • разрешение 512×512. • охват намеренно широкий: регаты, натюрморты, портреты, концерты, пейзажи, цирковые сцены — чтобы модель усваивала именно манеру, а не конкретный сюжет.

Источники и права использования: • изображения из открытых источников с соответствующими лицензиями (Wikimedia Commons, museum open access); • материалы общественного достояния (public domain с 2024 года).

Исходный размер 3500x1728

(1) Still life with violin: Hommage to Bach, 1952; (2) Homage to Claude Debussy, 1952;

Исходный размер 3500x2354

Palm Beach, 1933

Процесс обучения

В качестве платформы для обучения была выбрана Kaggle с GPU T4. Обучение проводилось методом LoRA (Low-Rank Adaptation) поверх Stable Diffusion 1.5 — без изменения основных весов модели, только небольшой адаптер.

Каждая подпись строилась по единой схеме: painting in DUFYART style, [сюжет], [цвет], [техника] Например: painting in DUFYART style, regatta with many sailboats and colorful signal flags, blue harbor, energetic composition.

Все записи сохранялись в файл metadata.jsonl — каждая строка отдельный JSON с именем файла и текстом подписи. Стилевой токен DUFYART присутствует в каждой подписи и служит якорем, к которому модель привязывает усвоенную манеру.

Исходный размер 3500x1728

(1) The Red Concert, 1946; (2) The Grid, 1930;

После авторизации в Hugging Face Hub я запустила обучение LoRA-адаптера поверх Stable Diffusion 1.5. --resolution=512 --train_batch_size=1 --gradient_accumulation_steps=4 --max_train_steps=2000 --learning_rate=5e-5 --rank=8 --checkpointing_steps=500

Обучение проходило 40-50 минут. По завершении веса модели были сохранены на Hugging Face Hub в формате репозитория со всеми чекпоинтами.

Промежуточные результаты и выводы

Первые результаты показали, что модель усвоила стиль, уловила характер и художественный язык: в генерациях угадывается характерная для Дюфи цветовая энергия и свободная линия.

Исходный размер 3500x1134

(1) photorealistic, digital art, 3d render, cgi, hyperrealistic, sharp edges;

Исходный размер 2359x2354

(1) photorealistic, digital art, 3d render, cgi, hyperrealistic, sharp edges;

Но для большего попадания, я решила поэкспериментировать с разными негативными промптами, применяя каждый к отдельной генерации:

Исходный размер 3500x1134

(2) neon colors, oversaturated, garish, fluorescent, harsh colors;

Исходный размер 3500x1728

(3) photorealistic, 3d render, smooth, dark, monochrome;

Исходный размер 3500x1134

(3) photorealistic, 3d render, smooth, dark, monochrome;

Я выбрала последний вариант. И это сразу изменило характер генераций. Модель перестала уходить в фотографическую точность и излишнюю детализацию — именно то, что убивает ощущение живописи. Скачки получили динамику и жёсткость контура, прибрежные сцены: воздух и пространство, цирковые композиции.

Исходный размер 2354x2354

(4) photorealistic, digital art, 3d render, cgi, hyperrealistic, sharp edges, dark, heavy;

Исходный размер 3500x1134

(4) photorealistic, digital art, 3d render, cgi, hyperrealistic, sharp edges, dark, heavy;

Исходный размер 3500x1728

(4) photorealistic, digital art, 3d render, cgi, hyperrealistic, sharp edges, dark, heavy;

Исходный размер 2354x2354

(4) photorealistic, digital art, 3d render, cgi, hyperrealistic, sharp edges, dark, heavy;

Исходный размер 3500x1134

(4) photorealistic, digital art, 3d render, cgi, hyperrealistic, sharp edges, dark, heavy;

Это подтвердило главную гипотезу проекта: качество LoRA определяется не столько объёмом датасета, сколько его разнообразием и точностью подписей. Где подписи точно описывали технику — результат был лучше. Где сюжет был недопредставлен, то модель давала сбои.

Исходный размер 3500x1134

(4) photorealistic, digital art, 3d render, cgi, hyperrealistic, sharp edges, dark, heavy;

Сравнение сгенерированных и оригинальных работ

Исходный размер 3500x1728

(1) Acrobats by Raoul Dufy, 1922; (2) моя генерация;

0

(1) Bay of Angels by Raoul Dufy, 1927; (2) моя генерация;

В целом сравнение показывает: модель лучше всего работает там, где сюжет можно описать через пространство и цвет: пейзажи, панорамы, морские сцены. Здесь она попадает в язык Дюфи достаточно точно. Там где нужна точность в передаче фигур: портреты, акробаты, сложные многофигурные композиции: модель теряет контроль над формой и либо упрощает, либо искажает.

Исходный размер 3500x1728

(1) Portrait of Suzanne Dufy, the artist’s sister by Raoul Dufy, 1904; (2) моя генерация;

Ещё один вывод: модель не знает периодов. Дюфи писал по-разному в 1907 и в 1950: фовистский и зрелый декоративный стиль это почти разные художники. Модель смешивает их в один усреднённый образ, который иногда попадает точно, а иногда выдаёт что-то неожиданное.

0

(1) Large orchestra by Raoul Dufy, 1940; (2) моя генерация;

Финальная серия «Nice: Light, Wind, Leisure»

На основе обученной модели была сгенерирована серия изображений, объединённых темой средиземноморского отдыха — набережные Ниццы, регаты, кафе в тени деревьев, пляжные сцены, рынки, морские виды. Всё то, что составляет главный визуальный мир Дюфи.

Исходный размер 3500x1134

Промпты для серии строились как комбинация базового описания стиля и конкретного сюжета: painting in DUFYART style, Nice Mediterranean scene, loose black contour lines, watercolor washes, [сюжет]

Серия исследует не конкретные работы художника, а само настроение — лёгкость, воздух, движение — и проверяет, способна ли модель удержать его без прямой отсылки к оригиналу.

Исходный размер 2582x2537
Исходный размер 3643x1798
Исходный размер 2581x2538
Исходный размер 3643x1798

Результат: модель воспроизводит узнаваемые черты стиля: энергию мазка и характерные сюжеты.

Но есть то, что машине не даётся. Главное качество Дюфи — невесомость. Его линия не обводит форму, она скользит поверх неё, почти не касаясь. Это ощущение свободы и случайности, которое на самом деле является результатом многолетней выработанной манеры, генеративная модель воспроизвести не может. Она улавливает почерк, но не пластику. А пластика гения — это то, что остаётся за пределами любого датасета.

Исходный размер 1938x970

все генерации

Техническая реализация

Обучение проводилось на базе Stable Diffusion 1.5 с использованием метода LoRA, что позволило не переобучать модель полностью, а внедрить в неё компактное представление стиля через небольшой адаптер.

Параметры: • размер датасета: 78 изображений; • разрешение: 512×512; • количество шагов: 2000; • формат обучения: LoRA, rank 8.

Дообучение на расширенном датасете позволило добиться большей стабильности: модель стала увереннее воспроизводить характерную цветовую палитру и свободную манеру линии.

Процесс

(1) Регистрация на Kaggle, подключение GPU T4; (2) Загрузка датасета через Kaggle Datasets; (3) Распаковка и конвертация изображений в 512×512; (4) Составление подписей с помощью ChatGPT по схеме: painting in DUFYART style, [сюжет], [цвет], [техника]; (5) Запись подписей в metadata.jsonl; (6) Установка библиотек и скачивание скрипта обучения; (7) Запуск обучения LoRA — 2000 шагов; (8) Сохранение весов на Hugging Face Hub; (9) Генерация изображений с токеном DUFYART;

Использование триггер-токена DUFYART в каждой подписи и каждом промпте закрепило ассоциацию между обученным стилем и генерацией — именно он служит якорем при инференсе.

Описание применения генеративной модели

В рамках проекта были использованы следующие инструменты: • Stable Diffusion 1.5 — базовая генеративная модель; • LoRA (Low-Rank Adaptation) — метод дообучения модели под конкретный стиль без изменения основных весов; • Kaggle T4 GPU — платформа для обучения; • Hugging Face Hub — хранение весов модели и чекпоинтов; • Claude+ChatGPT — использовались для составления подписей к датасету, решения технических проблем в процессе обучения; • Figma — использовалась для апскейла сгенерированных изображений.

Обучение генеративной нейросети в стиле Рауля Дюфи
Проект создан 27.03.2026