Идея проекта

Что, если бы ботаники XIX века обнаружили растения, которых не существует в природе? Светящиеся цветы с спиральными лепестками, кристаллические суккуленты, глубоководные растения с щупальцами вместо корней — как бы они выглядели на страницах классического ботанического атласа?
Flora Imaginaria — это серия изображений фантастических растений, сгенерированных нейросетью, обученной на стиле хромолитографий из атласа Кёлера (Kohler’s Medizinal-Pflanzen, 1887). Модель научилась воспроизводить характерные черты ботанических иллюстраций: кремовый фон, детальную прорисовку корневой системы, анатомические разрезы — и применила этот визуальный язык к растениям, которых никогда не существовало.
Датасет

Для обучения был выбран атлас Kohler’s Medizinal-Pflanzen (1887) — классический справочник лекарственных растений, иллюстрированный методом хромолитографии. Автор — немецкий фармацевт Герман Адольф Кёлер (1834–1897). Все изображения находятся в общественном достоянии (Public Domain). Источник цифровых копий: Internet Archive / Biodiversity Heritage Library.

Из оцифрованного атласа через IIIF API Internet Archive были извлечены отдельные иллюстрации. Для очистки датасета был написан фильтрующий пайплайн: фильтр по насыщенности (отсеивание текстовых страниц), детекция растительных цветов (зелёный, коричневый, синий) и дедупликация через перцептивное хеширование. Итоговый датасет: 32 изображения, 1024×1024 пикселей.
Метод обучения

Базовая модель: Stable Diffusion XL 1.0 — генеративная модель на основе латентной диффузии. Для переноса стиля использовалась комбинация двух техник:
DreamBooth — метод персонализации диффузионных моделей, позволяющий обучить модель на небольшом наборе изображений, связав их с уникальным текстовым токеном.
LoRA (Low-Rank Adaptation) — метод эффективного дообучения, при котором изменяются не все веса модели, а лишь небольшие низкоранговые матрицы-адаптеры. Результат хранится в компактном файле (~50 МБ вместо ~7 ГБ полной модели).

В качестве идентификатора стиля выбран токен KOHLERBOTANICAL — уникальное слово, отсутствующее в словаре модели. Для автоматических подписей к датасету использовалась модель BLIP (Salesforce).
Параметры: 700 шагов, learning rate 1e-4, batch size 2, gradient accumulation 3, 8-bit Adam, fp16, разрешение 512px. Обучение на Tesla T4 (16 GB VRAM) в Google Colab.
Flora Imaginaria: серия

Plate I — Lux Spiralis (Спиральный Люминесцент) Светящийся цветок с голубыми спиральными лепестками. Корневая система развитая, с множеством мелких ответвлений.

Plate II — Crystallum Succulenta (Кристальный Суккулент) Суккулент с полупрозрачными геометрическими листьями, напоминающими кристаллическую решётку.

Plate III — Abyssum Medusae (Глубоководная Медуза) Биолюминесцентное растение из морских глубин с щупальцевидными корнями и цветками в форме медуз.

Plate IV — Machina Flora (Механический Цветок) Стимпанк-растение с шестерёнками вместо лепестков и металлическими стеблями.

Plate V–Ignis Orchidea (Огненная Орхидея) Орхидея с пламенеобразными лепестками красно-оранжевых оттенков, детальная прорисовка тычинок и корневой системы.

Plate VI — Nebula Muscus (Облачный Мох) Парящее растение с воздушными капсулами и перистыми листьями, размножается спорами.

Plate VII — Glacies Filix (Ледяной Папоротник) Папоротник с ледяными фрактальными вайями и спорами в форме снежинок.

Plate VIII — Cantus Vitis (Поющая Лоза) Вьющееся растение с колокольчатыми цветками, напоминающими музыкальные инструменты.
Сравнение: 350 vs 700 шагов

Слева — промежуточный чекпоинт (350 шагов), справа — финальная модель (700 шагов). На 350 шагах модель уже усвоила общую стилистику: кремовый фон, расположение элементов, палитру хромолитографии. Финальная модель даёт более детальную прорисовку: корневая система структурированнее, мелкие анатомические элементы чётче. Переобучения не наблюдается, модель генерирует новые композиции, а не копирует датасет.
Анализ результатов

Что получилось хорошо:
Стилистическое единство — все изображения узнаваемо принадлежат одной визуальной традиции. Кремовый фон, аккуратная компоновка, палитра хромолитографии воспроизводятся стабильно.
Анатомическая структура — модель генерирует не просто цветы, а ботанические таблицы: с корнями, разрезами, отдельными элементами (семена, пестики, тычинки).
Разнообразие — несмотря на единый стиль, каждое изображение уникально по форме, цвету и композиции.

Артефакты и ограничения:
Псевдотекст — модель генерирует буквоподобные формы, которые выглядят как подписи, но не являются осмысленным текстом. Типичная проблема диффузионных моделей.
Мелкие детали — при увеличении некоторые элементы выглядят размыто. Ограничение разрешения обучения (512 px) и размера датасета (32 изображения).
Реалистичность — фантастические промпты интерпретированы более реалистично, чем задумывалось. Модель тяготеет к правдоподобным ботаническим формам.
Используемые модели ИИ
Stable Diffusion XL 1.0 (stabilityai) — базовая генеративная модель, дообученная методом DreamBooth + LoRA на датасете ботанических иллюстраций.
BLIP (Salesforce) — модель для автоматической генерации подписей к изображениям датасета.
Датасет: Kohler’s Medizinal-Pflanzen (1887), 32 хромолитографии. Источник: Internet Archive / Biodiversity Heritage Library.
Лицензия: Public Domain.










