Концепция
Мир Рауля Дюфи — это мир вечного праздника. Регаты, концерты, набережные Ниццы, цирковые арены: всё пронизано светом и движением, всё существует в состоянии лёгкости, которая кажется почти невозможной.

(1) Boats at Martigues, 1908; (2) Regatta at Cowes, 1934;
Но за этой кажущейся лёгкостью стоит очень конкретный художественный метод. Дюфи разделил то, что живопись традиционно держит вместе: цвет и форму. Широкое пятно ложится на холст первым — интуитивно, почти небрежно. И только потом поверх него появляется линия — быстрая, каллиграфическая, совершенно свободная от того, что находится под ней. Контур не описывает цвет, он с ним разговаривает. Именно это несовпадение и создаёт характерное напряжение его работ — между стихийным и осознанным, между ощущением и наблюдением.
Основная идея проекта — создать серию изображений, воспроизводящих этот визуальный язык средствами генеративной модели. Для этого был обучен LoRA-адаптер на датасете из работ художника, а через процесс составления подписей к каждой картине — разобраться, что именно в стиле Дюфи является стилем, а что просто содержанием.
Подготовка к обучению

(1) Sailing boats in Deauville, 1936; (2) Fishermen, 1907; (3) Big tree of Sainte-Maxime, 1942;
Для обучения модели был собран датасет из работ Рауля Дюфи: от фовистских опытов 1906 года до поздних композиций 1950-х. Объём: • 78 изображений. Формат: • квадратные изображения (1:1); • разрешение 512×512. • охват намеренно широкий: регаты, натюрморты, портреты, концерты, пейзажи, цирковые сцены — чтобы модель усваивала именно манеру, а не конкретный сюжет.
Источники и права использования: • изображения из открытых источников с соответствующими лицензиями (Wikimedia Commons, museum open access); • материалы общественного достояния (public domain с 2024 года).
(1) Still life with violin: Hommage to Bach, 1952; (2) Homage to Claude Debussy, 1952;
Palm Beach, 1933
Процесс обучения
В качестве платформы для обучения была выбрана Kaggle с GPU T4. Обучение проводилось методом LoRA (Low-Rank Adaptation) поверх Stable Diffusion 1.5 — без изменения основных весов модели, только небольшой адаптер.
Каждая подпись строилась по единой схеме: painting in DUFYART style, [сюжет], [цвет], [техника] Например: painting in DUFYART style, regatta with many sailboats and colorful signal flags, blue harbor, energetic composition.
Все записи сохранялись в файл metadata.jsonl — каждая строка отдельный JSON с именем файла и текстом подписи. Стилевой токен DUFYART присутствует в каждой подписи и служит якорем, к которому модель привязывает усвоенную манеру.
(1) The Red Concert, 1946; (2) The Grid, 1930;
После авторизации в Hugging Face Hub я запустила обучение LoRA-адаптера поверх Stable Diffusion 1.5. --resolution=512 --train_batch_size=1 --gradient_accumulation_steps=4 --max_train_steps=2000 --learning_rate=5e-5 --rank=8 --checkpointing_steps=500
Обучение проходило 40-50 минут. По завершении веса модели были сохранены на Hugging Face Hub в формате репозитория со всеми чекпоинтами.
Промежуточные результаты и выводы
Первые результаты показали, что модель усвоила стиль, уловила характер и художественный язык: в генерациях угадывается характерная для Дюфи цветовая энергия и свободная линия.
(1) photorealistic, digital art, 3d render, cgi, hyperrealistic, sharp edges;
(1) photorealistic, digital art, 3d render, cgi, hyperrealistic, sharp edges;
Но для большего попадания, я решила поэкспериментировать с разными негативными промптами, применяя каждый к отдельной генерации:
(2) neon colors, oversaturated, garish, fluorescent, harsh colors;
(3) photorealistic, 3d render, smooth, dark, monochrome;
(3) photorealistic, 3d render, smooth, dark, monochrome;
Я выбрала последний вариант. И это сразу изменило характер генераций. Модель перестала уходить в фотографическую точность и излишнюю детализацию — именно то, что убивает ощущение живописи. Скачки получили динамику и жёсткость контура, прибрежные сцены: воздух и пространство, цирковые композиции.
(4) photorealistic, digital art, 3d render, cgi, hyperrealistic, sharp edges, dark, heavy;
(4) photorealistic, digital art, 3d render, cgi, hyperrealistic, sharp edges, dark, heavy;
(4) photorealistic, digital art, 3d render, cgi, hyperrealistic, sharp edges, dark, heavy;
(4) photorealistic, digital art, 3d render, cgi, hyperrealistic, sharp edges, dark, heavy;
(4) photorealistic, digital art, 3d render, cgi, hyperrealistic, sharp edges, dark, heavy;
Это подтвердило главную гипотезу проекта: качество LoRA определяется не столько объёмом датасета, сколько его разнообразием и точностью подписей. Где подписи точно описывали технику — результат был лучше. Где сюжет был недопредставлен, то модель давала сбои.
(4) photorealistic, digital art, 3d render, cgi, hyperrealistic, sharp edges, dark, heavy;
Сравнение сгенерированных и оригинальных работ
(1) Acrobats by Raoul Dufy, 1922; (2) моя генерация;
(1) Bay of Angels by Raoul Dufy, 1927; (2) моя генерация;
В целом сравнение показывает: модель лучше всего работает там, где сюжет можно описать через пространство и цвет: пейзажи, панорамы, морские сцены. Здесь она попадает в язык Дюфи достаточно точно. Там где нужна точность в передаче фигур: портреты, акробаты, сложные многофигурные композиции: модель теряет контроль над формой и либо упрощает, либо искажает.
(1) Portrait of Suzanne Dufy, the artist’s sister by Raoul Dufy, 1904; (2) моя генерация;
Ещё один вывод: модель не знает периодов. Дюфи писал по-разному в 1907 и в 1950: фовистский и зрелый декоративный стиль это почти разные художники. Модель смешивает их в один усреднённый образ, который иногда попадает точно, а иногда выдаёт что-то неожиданное.
(1) Large orchestra by Raoul Dufy, 1940; (2) моя генерация;
Финальная серия «Nice: Light, Wind, Leisure»
На основе обученной модели была сгенерирована серия изображений, объединённых темой средиземноморского отдыха — набережные Ниццы, регаты, кафе в тени деревьев, пляжные сцены, рынки, морские виды. Всё то, что составляет главный визуальный мир Дюфи.
Промпты для серии строились как комбинация базового описания стиля и конкретного сюжета: painting in DUFYART style, Nice Mediterranean scene, loose black contour lines, watercolor washes, [сюжет]
Серия исследует не конкретные работы художника, а само настроение — лёгкость, воздух, движение — и проверяет, способна ли модель удержать его без прямой отсылки к оригиналу.
Результат: модель воспроизводит узнаваемые черты стиля: энергию мазка и характерные сюжеты.
Но есть то, что машине не даётся. Главное качество Дюфи — невесомость. Его линия не обводит форму, она скользит поверх неё, почти не касаясь. Это ощущение свободы и случайности, которое на самом деле является результатом многолетней выработанной манеры, генеративная модель воспроизвести не может. Она улавливает почерк, но не пластику. А пластика гения — это то, что остаётся за пределами любого датасета.
все генерации
Техническая реализация
Обучение проводилось на базе Stable Diffusion 1.5 с использованием метода LoRA, что позволило не переобучать модель полностью, а внедрить в неё компактное представление стиля через небольшой адаптер.
Параметры: • размер датасета: 78 изображений; • разрешение: 512×512; • количество шагов: 2000; • формат обучения: LoRA, rank 8.
Дообучение на расширенном датасете позволило добиться большей стабильности: модель стала увереннее воспроизводить характерную цветовую палитру и свободную манеру линии.
Процесс
(1) Регистрация на Kaggle, подключение GPU T4; (2) Загрузка датасета через Kaggle Datasets; (3) Распаковка и конвертация изображений в 512×512; (4) Составление подписей с помощью ChatGPT по схеме: painting in DUFYART style, [сюжет], [цвет], [техника]; (5) Запись подписей в metadata.jsonl; (6) Установка библиотек и скачивание скрипта обучения; (7) Запуск обучения LoRA — 2000 шагов; (8) Сохранение весов на Hugging Face Hub; (9) Генерация изображений с токеном DUFYART;
Использование триггер-токена DUFYART в каждой подписи и каждом промпте закрепило ассоциацию между обученным стилем и генерацией — именно он служит якорем при инференсе.
Описание применения генеративной модели
В рамках проекта были использованы следующие инструменты: • Stable Diffusion 1.5 — базовая генеративная модель; • LoRA (Low-Rank Adaptation) — метод дообучения модели под конкретный стиль без изменения основных весов; • Kaggle T4 GPU — платформа для обучения; • Hugging Face Hub — хранение весов модели и чекпоинтов; • Claude+ChatGPT — использовались для составления подписей к датасету, решения технических проблем в процессе обучения; • Figma — использовалась для апскейла сгенерированных изображений.








