Концепция
Для своего проекта я выбрала эстетику старинных гравюр и иллюстраций из учебников биологии XIX века. Этот стиль отличается тонкой штриховкой, имитацией оттиска на состаренной бумаге и высокой детализацией, в связи с чем предо мной стояла цель проверить, сможет ли современная модель SDXL уловить нюансы ручной графики и перенести их на современные фантастические сюжеты.
Исходные изображения
Лицензия Creative Commons Zero (CC0) и Public Domain
Для обучения модели LoRA использовались изображения, отобранные через поисковую систему Public Work. Это гарантирует соблюдение авторских прав и этичность использования данных, поскольку исходные изображения были получены из открытых цифровых архивов (The MET, New York Public Library и др.). Эти институции официально передали оцифрованные копии своих коллекций в общественное достояние, что означает, что авторское право на них истекло или не распространяется, и их можно свободно использовать для любых целей, включая обучение нейросетей.
Примеры исходных изображений для обучения модели
Для обучения модели по технологии LoRA мной был подготовлен датасет из 20 изображений в стиле VINTAGE_ENGRAVING. Каждое изображение прошло предварительную обработку: приведение к единому разрешению и очистку от лишних шумов. В качестве базовой модели использовалась Stable Diffusion XL.
Серия изображений
Итоговая серия представляет собой коллекцию сюрреалистичных научных иллюстраций. Несмотря на разнообразие объектов (от глубоководных медуз до космических китов), серия выглядит цельной.
Биологическое направление — медуза, скелет дракона — здесь нейросеть сфокусировалась на анатомической точности линий.
Техно-сюрреализм — механическое сердце — LoRA успешно совместила жесткие геометрические формы шестеренок с мягкой графикой гравюры.
Космическая тематика — кит — сложный пример, где модель объединила макро-объекты и живое существо в единой графической манере.
Анализ результатов
Модель успешно переняла характерные черты гравюры: использование только черного и белого цветов, специфическую перекрестную штриховку для создания теней и эффект зернистости бумаги.
Нейросеть смогла применить винтажный стиль к объектам, которых не было в обучающей выборке, например, к изображению кита в космосе или механического сердца. Это доказывает, что модель усвоила именно художественную манеру, а не просто запомнила объекты.
Работа со штрихом и линией
В оригиналах: очень тонкая, сухая штриховка, тени созданы за счет плотности линий.
В генерациях: нейросеть удачно скопировала этот прием, вместо мягких теней (градиентов) она использует именно графические линии.
Эстетика «старой бумаги»
В оригиналах: характерный желтовато-кремовый фон и легкая «грязца» (шум), как на бумаге XIX века.
В генерациях: этот эффект сохранился во всех 6 картинках. Нейросеть не стала делать их «чистыми» и современными, а оставила текстуру старинного учебника.
Новые образы в старом стиле
Нейросеть не просто скопировала картинки, а научилась «думать» как гравер. Например, она взяла структуру кита и наложила на него технику штриховки с референса с жуками, добавив элементы астрономии. То есть, модель обладает высокой обобщающей способностью.
Обучение проводилось в среде Google Colab с использованием видеокарты NVIDIA T4. Для реализации была выбрана библиотека Diffusers от Hugging Face.
Описание процесса обучения
Базовая модель: Stable Diffusion XL (SDXL) 1.0 — выбрана за высокую детализацию и глубокое понимание сложных художественных стилей.
Метод: LoRA (Low-Rank Adaptation). Этот метод позволил эффективно «дообучить» нейросеть новому стилю, не перезаписывая все веса огромной модели, а добавляя небольшие корректирующие слои.
Оптимизация: для работы в условиях ограниченной памяти GPU использовались методы 8-bit Adam (сжатие оптимизатора) и Gradient Checkpointing, что позволило избежать ошибок нехватки памяти при высоком разрешении (512-1024px).
Конфигурация: обучение длилось 500 шагов (steps) с интенсивностью обучения (learning rate) 1e-4, что обеспечило баланс между узнаваемостью стиля и гибкостью генерации новых объектов.
В процессе работы возникли технические сложности с настройкой зависимостей библиотек (конфликты версий Torch и Diffusers) и нехваткой памяти GPU в бесплатной версии Colab. Проблема была решена путем оптимизации параметров обучения (использование 8-bit Adam и Gradient Checkpointing).
Описание применения генеративной модели
Помимо обучения основной нейросети (SDXL LoRA), в работе над проектом мной использовался мультимодальный ассистент Gemini. Применение ГенИИ было разделено на два ключевых направления:
Техническая отладка и объяснение ошибок: Gemini использовался для интерпретации ошибок компиляции в Google Colab (например, устранение конфликтов версий torch и diffusers). ИИ помог оперативно адаптировать код обучения под ограничения бесплатного GPU-ускорителя (T4), предложив внедрить методы оптимизации памяти (8-bit Adam, Gradient Checkpointing).
Креативный соавтор (Prompt Engineering): для создания итоговой серии изображений Gemini помог сгенерировать промпты на английском языке на основе запроса, написанного на русском.