Обучение ИИ модели в стиле Клода Моне на Deziiign

В процессе обучения модели Stable Diffusion применялись картины Клода Моне, являющиеся частью общественного достояния. Материалы были получены с ресурса Artchive.ru , где они доступны для некоммерческого использования, а также с площадок, предлагающих лицензию CC0.

Идея:

Выбирая материалы для обучения модели, я захотела исследовать возможности ИИ в подражании художественному стилю состоявшегося автора. Мой выбор пал на Клода Моне, великого французского импрессиониста, чей стиль, построенный на трепетной игре света и воздуха, абсолютно уникален и узнаваем. Сможет ли ИИ-модель уловить эти ускользающие нюансы — вибрацию мазка, рефлексы цвета, саму атмосферу «мимолетного мгновения» — а затем применить их при генерации новых изображений?

Объектом исследования и генераций стали цветы и водная гладь — страсть художника, ставшая смыслом его позднего творчества. В цветах и отражениях на воде его манила неуловимая изменчивость природы, игра света в разное время суток, цветение как символ бесконечного круговорота жизни, а также та интимная, обособленная красота, которую он создавал в собственном саду в Живерни.

Среди исследователей творчества Моне бытует мнение, что на склоне лет он писал уже не столько сами кувшинки, сколько свет, танцующий на водной глади, — словно пытался запечатлеть не форму, а само дыхание природы. Мне кажется, именно это стремление передать не объект, а ощущение от него, делает стиль Моне столь живым и созвучным современным экспериментам с искусственным интеллектом: ведь и ИИ, и великий импрессионист в каком-то смысле учатся видеть мир не таким, каким мы его знаем, а таким, каким мы его чувствуем.

Художественный стиль Клода Моне и Dataset

Авторский почерк Клода Моне в контексте проекта заинтересовал меня потенциально идеальной совместимостью с генеративным ИИ.

Цветы, написанные Моне — это мягкие, трепетные переплетения раздельных мазков, создающих иллюзию вибрации света и воздуха. Для модели, обученной на технике художника, не столь важна четкость контуров, если сравнивать с условными фотореалистичными моделями — напротив, именно эта «размытость», этот эффект неуловимого мгновения становятся главной задачей для воспроизведения.

Итоговый датасет насчитывает 40 изображений. В него вошли фрагменты полотен с кувшинками, полями маков и лугами, а также другие работы художника из позднего периода, с целью предоставить модели сценарий работы с изменчивым светом, водной поверхностью и воздушной средой.

Код и процесс обучения модели

Средой для обучения стал Google Colab — из-за удобства работы с датасетом и доступности, в отличие от Kaggle, где верификация для пользователей из РФ сейчас недоступна.

Перед началом основной части я выполнила подготовку: загрузила нужные библиотеки, скрипты и проверила доступный GPU.

Исходный размер 2918x1566

Подготовив датасет, я загрузила его в среду выполнения Google Colab. Итоговый датасет был размещен в директории ClaudeMonet.

Исходный размер 2912x1562

После загрузки датасета я проверила его целостность и корректность отображения. С помощью превью я вывела на экран плитку из 5 изображений, включенных в датасет.

Исходный размер 2922x1566

С помощью BLIP были созданы уникальные описания для каждого изображения. Промежуточные варианты казались недостаточно ёмкими, однако результат обучения показал обратное.

Также был назначен промпт и префикс photo collage in ClaudeMonet style, в дальнейшем использующийся для стилистической разметки в процессе обучения и генерации.

Исходный размер 2940x1912

Результат:

Исходный размер 1365x1024