Исходный размер 1140x1600

Обучение генеративной нейросети под стиль винтажных иллюстраций

Проект принимает участие в конкурсе

Концепция

post

Для своего проекта я выбрала эстетику старинных гравюр и иллюстраций из учебников биологии XIX века. Этот стиль отличается тонкой штриховкой, имитацией оттиска на состаренной бумаге и высокой детализацией, в связи с чем предо мной стояла цель проверить, сможет ли современная модель SDXL уловить нюансы ручной графики и перенести их на современные фантастические сюжеты.

Исходные изображения

Лицензия Creative Commons Zero (CC0) и Public Domain

Для обучения модели LoRA использовались изображения, отобранные через поисковую систему Public Work. Это гарантирует соблюдение авторских прав и этичность использования данных, поскольку исходные изображения были получены из открытых цифровых архивов (The MET, New York Public Library и др.). Эти институции официально передали оцифрованные копии своих коллекций в общественное достояние, что означает, что авторское право на них истекло или не распространяется, и их можно свободно использовать для любых целей, включая обучение нейросетей.

0

Примеры исходных изображений для обучения модели

Для обучения модели по технологии LoRA мной был подготовлен датасет из 20 изображений в стиле VINTAGE_ENGRAVING. Каждое изображение прошло предварительную обработку: приведение к единому разрешению и очистку от лишних шумов. В качестве базовой модели использовалась Stable Diffusion XL.

Серия изображений

0

Итоговая серия представляет собой коллекцию сюрреалистичных научных иллюстраций. Несмотря на разнообразие объектов (от глубоководных медуз до космических китов), серия выглядит цельной.

Биологическое направление — медуза, скелет дракона — здесь нейросеть сфокусировалась на анатомической точности линий.

Техно-сюрреализм — механическое сердце — LoRA успешно совместила жесткие геометрические формы шестеренок с мягкой графикой гравюры.

Космическая тематика — кит — сложный пример, где модель объединила макро-объекты и живое существо в единой графической манере.

Анализ результатов

post

Модель успешно переняла характерные черты гравюры: использование только черного и белого цветов, специфическую перекрестную штриховку для создания теней и эффект зернистости бумаги.

Нейросеть смогла применить винтажный стиль к объектам, которых не было в обучающей выборке, например, к изображению кита в космосе или механического сердца. Это доказывает, что модель усвоила именно художественную манеру, а не просто запомнила объекты.

Работа со штрихом и линией

В оригиналах: очень тонкая, сухая штриховка, тени созданы за счет плотности линий.

В генерациях: нейросеть удачно скопировала этот прием, вместо мягких теней (градиентов) она использует именно графические линии.

Эстетика «старой бумаги»

В оригиналах: характерный желтовато-кремовый фон и легкая «грязца» (шум), как на бумаге XIX века.

В генерациях: этот эффект сохранился во всех 6 картинках. Нейросеть не стала делать их «чистыми» и современными, а оставила текстуру старинного учебника.

Новые образы в старом стиле

Нейросеть не просто скопировала картинки, а научилась «думать» как гравер. Например, она взяла структуру кита и наложила на него технику штриховки с референса с жуками, добавив элементы астрономии. То есть, модель обладает высокой обобщающей способностью.

Исходный размер 2635x576

Обучение проводилось в среде Google Colab с использованием видеокарты NVIDIA T4. Для реализации была выбрана библиотека Diffusers от Hugging Face.

Исходный размер 2638x1061
Исходный размер 2644x795
Исходный размер 2648x919
Исходный размер 2660x1143

Описание процесса обучения

Базовая модель: Stable Diffusion XL (SDXL) 1.0 — выбрана за высокую детализацию и глубокое понимание сложных художественных стилей.

Исходный размер 1349x192

Метод: LoRA (Low-Rank Adaptation). Этот метод позволил эффективно «дообучить» нейросеть новому стилю, не перезаписывая все веса огромной модели, а добавляя небольшие корректирующие слои.

Исходный размер 1076x191

Оптимизация: для работы в условиях ограниченной памяти GPU использовались методы 8-bit Adam (сжатие оптимизатора) и Gradient Checkpointing, что позволило избежать ошибок нехватки памяти при высоком разрешении (512-1024px).

Исходный размер 1111x252

Конфигурация: обучение длилось 500 шагов (steps) с интенсивностью обучения (learning rate) 1e-4, что обеспечило баланс между узнаваемостью стиля и гибкостью генерации новых объектов.

Исходный размер 841x332

В процессе работы возникли технические сложности с настройкой зависимостей библиотек (конфликты версий Torch и Diffusers) и нехваткой памяти GPU в бесплатной версии Colab. Проблема была решена путем оптимизации параметров обучения (использование 8-bit Adam и Gradient Checkpointing).

Описание применения генеративной модели

Помимо обучения основной нейросети (SDXL LoRA), в работе над проектом мной использовался мультимодальный ассистент Gemini. Применение ГенИИ было разделено на два ключевых направления:

Техническая отладка и объяснение ошибок: Gemini использовался для интерпретации ошибок компиляции в Google Colab (например, устранение конфликтов версий torch и diffusers). ИИ помог оперативно адаптировать код обучения под ограничения бесплатного GPU-ускорителя (T4), предложив внедрить методы оптимизации памяти (8-bit Adam, Gradient Checkpointing).

Креативный соавтор (Prompt Engineering): для создания итоговой серии изображений Gemini помог сгенерировать промпты на английском языке на основе запроса, написанного на русском.

Обучение генеративной нейросети под стиль винтажных иллюстраций
Проект создан 24.03.2026
Загрузка...