Исходный размер 1140x1600

Мир глазами Хокусая

Проект принимает участие в конкурсе

Концепция

Исходный размер 1920x1080

«Shore of Tago Bay, Ejiri at Tokaido»

Хокусай провёл жизнь, рисуя Японию — её побережья, деревни, гору Фудзи в любое время года и с любой точки. Его стиль узнаваем мгновенно: живые волны, неожиданные ракурсы, ощущение, что природа больше и мощнее человека. А как выглядели бы горы других стран под кистью Хокусая — Альпы, Анды, вулканы, холмы? Я обучила нейросеть на горных пейзажах, чтобы любую вершину мира можно было увидеть глазами великого японского художника.

Исходный размер 1920x527

Картины Кацусики Хокусая для обучения модели

Результат генерации

Проект представляет собой серию изображений горных пейзажей со всего мира в стиле Хокусая. В серию вошли разные типы рельефа — горные хребты, вулканы, скальные монолиты, холмы, плато — расположенные на разных континентах.

Исходный размер 1920x948

Нейросети удалось воспроизвести несколько ключевых характеристик Хокусая. Это чёткие графичные контуры объектов, плоскостное построение пространства, характерная палитра укиё-э (берлинский синий, охра, терракота, приглушённые зелёные). Соотношение масштабов построено так, что природа всегда доминирует, а люди или животные в кадре лишь подчёркивают её размер.

Исходный размер 1920x622
Исходный размер 1920x1069

Несмотря на единый стиль, работы заметно отличаются друг от друга. Палитра адаптируется под географию: холодные тона для северных пейзажей, тёплые — для пустынных, насыщенные — для тропических.

Исходный размер 1920x948
Исходный размер 1920x622

Модель обучалась на датасете, содержащем работы Хокусая с изображениями пейзажей. Промпты составлялись с указанием на стиль и содержали описание конкретной локации, типа рельефа и дополнительных деталец — животных, людей, погодных условий.

Исходный размер 1920x1408
Исходный размер 1920x948
Исходный размер 1920x622

Техническая реализация

Исходный размер 1920x948

Обучение модели происходило в несколько этапов:

  1. Подготовка среды Сначала были установлены библиотеки (diffusers, transformers, accelerate, peft, bitsandbytes) и скачан скрипт обучения от HuggingFace.
  2. Загрузка данных Из Kaggle-датасета были взяты изображения с картинами Хокусая, на которых в дальнейшем обучалась модель
  3. Автоматическая разметка (BLIP) Каждому изображению генерировалась текстовая подпись через модель BLIP. К каждой подписи добавлялся префикс «in the style of HOKUSAI», и результат сохранялся в metadata.jsonl
  4. Обучение DreamBooth LoRA Был запущен скрипт train_dreambooth_lora_sdxl.py на базе модели Stable Diffusion XL. Модель обучалась связывать фразу «in the style of HOKUSAI» с характерными чертами изображений из датасета.
  5. Сохранение и публикация Готовые веса LoRA были загружены на HuggingFace Hub
  6. Инференс SDXL загружался с подключённым LoRA-адаптером и генерировал изображения по промпту — например, «in the style of HOKUSAI, Mount Fuji, ocean waves».