Проектирование и обучение нейронной сети для генерации с использованием TensorFlow Свитнев А.С. Руководитель: Ладыгин Н.С. Мокшан, 2025
Содержание I. Введение и мотивация II. Обзор методик и выбор архитектуры III. Реализация в TensorFlow IV. Обучение и эксперименты V. Результаты, критический анализ и ограничения VI. Выводы и перспективы
I. Введение и мотивация Рост возможностей ИНС в генерации изображений Проблемы классических GAN: mode collapse, неустойчивая сходимость Гипотеза: дискретизация латентного пространства стабилизирует обучение
Цель и задачи Цель: Проверить эффективность VQGAN в условиях ограниченных GPU-ресурсов Анализ архитектур Реализация VQGAN на TensorFlow Настройка гиперпараметров Оценка устойчивости Выявление критических факторов успеха
II. Обзор методик и выбор архитектуры Методы обучения: с учителем, без учителя, параметрическое, непараметрическое Модели: Perceptron, CNN, RNN, SOM, Hopfield, Boltzmann Machine
Генеративные модели: критический обзор VAE: плюсы – теоретические гарантии, минусы – размытие выходов GAN: плюсы – высокая реалистичность, минусы – нестабильность и артефакты VQGAN: плюсы – более четкие детали, минусы – высокая вычислительная сложность
Критерии выбора архитектуры Метрики: FID, SSIM, стабильность Ресурсы: GPU-память и скорость Экономическая целесообразность: затраты vs прирост качества
III. Реализация в TensorFlow TensorFlow 2.x vs PyTorch: TensorBoard, динамический граф, популярность Google Colab Free (Tesla T4): компромисс доступности и производительности
Архитектура VQGAN: детали и обоснования Энкодер: свёртки → тензор признаков Vector Quantizer: квантование латентных кодов Декодер: восстановление изображения Дискриминатор (PatchGAN): оценка реализма
IV. Обучение и эксперименты Предобучение автоэнкодера: MSE + VQ loss Интеграция адверсариальной части: баланс реализм–структурность Чередование обновлений генератора и дискриминатора Мониторинг FID/SSIM и сохранение чекпоинтов
Экспериментальная настройка и анализ Варьирование lr, batch size, commitment weight Абляционный анализ компонентов Отладка: примеры графиков из TensorBoard
V. Результаты, критический анализ и ограничения FID = 25.4, SSIM = 0.81 Сравнение с VAE и GAN (таблица) Динамика FID: график Артефакты и их происхождение Ограничения: гиперпараметры, память GPU, воспроизводимость
VI. Выводы и перспективы Эффективность VQGAN доказана Ключевые факторы: выбор K и частота обновлений Перспективы: Bayesian Optimization, LoRA, гибриды с диффузией, edge-инференс
Список литературы Goodfellow I. et al. Generative Adversarial Networks. 2014. Kingma D., Welling M. Auto-Encoding Variational Bayes. 2013. Oord A. v. d. et al. Neural Discrete Representation Learning. 2017. Esser P. et al. Taming Transformers for High-Resolution Image Synthesis. 2021.