[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing

DeepLearningJP2016 3,598 views 21 slides Jan 07, 2022
Slide 1
Slide 1 of 21
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21

About This Presentation

2022/01/07
Deep Learning JP:
http://deeplearning.jp/seminar-2/


Slide Content

D EEP L EARNING JP [DL Papers] GLIDE : G uided L anguage to I mage D iffusion for Generation and E diting Xin Zhang, Matsuo Lab http://deeplearning.jp/

書誌情報 タイトル: GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models( arxiv ) 著者:Alex Nichol, Prafulla Dhariwal Aditya Ramesh et al. (OPENAI) 20 Dec 2021 概要 テキストからリアルな画像を生成する Diffusion Model 2種類の条件付けの方法で、複数の工夫を取り入れた実装 綺麗な画像の生成に成功し、小さめなモデルを公開した ‹#›

Introduction

DALL-E (dVAE) StyleCLIP (StyleGAN) CLIP + Generative Model

画像生成でBigGANに勝った?!Diffusion Modelsについて GANは主流だが、訓練時の安定性と生成画像の多様性に問題 多様性と忠実度はトレードオフであり、GANは多様性を犠牲にしているから忠実度が高い。 それトレードオフをコントロールすることで、BigGANにFIDで勝った

4種類の画像生成タスクへのチャレン ジ ! 拡散モデルPaletteについて Diffusion Modelで色々できるようになってきた! 多くのタスクは結局Image-to-Imageの形式に落とせる Diffusion Modelは マルチタスクができる ( タスク特化の学習しなくてもよい )

CLIP + Diffusion Model: GLIDE

GLIDE: Text-Guided Diffusion Models

拡散モデル(DDPM)には、二つのプロセスがある diffusion/forward process 画像にガウスノイズを加え続けて、画像を完全なノイズにする reverse process ガウスノイズを取り除いて、次のステップの画像を生成していき、最終的に綺麗な画像が得られる モデル:ノイズを予測することを学習させる ノイズが予測するには、ノイズでないところを認識する必要がある 生成する物体が理解できる DDPM( Denoising Diffusion Probabilistic Models )

2種類のガイド方法を用いた CLIP(Classifier) Guidance 分類モデルの損失勾配で重みづける CLIPの 潜在空間で の 類似度を用いる 特徴:二つのモデルが必要だが、同時に学習する必要はない。 Diffusion Modelと別にClassifierを用意して、Classifierの知識を利用して画像を生成。 Guided Diffusion (1) Classifier-free guidance 2回のノイズ予測で条件付けを行う Captionで重みづける 特徴:一つのモデルで済むが、Diffusion Modelを異なるGuidanceする時に再訓練が必要 Diffusion Modelを学習する際に、Guidanceを付けているため

Text-Conditional Diffusion Models GLIDE Fine-Tuning for classifier free guidance Image Inpainting (Fine-tuning) Add 4 channels (RGB channels, a mask channel) Noised CLIP models Trained Image Encoder with noised image at 64x64 resolution.

Experiments

定量評価 忠実度(解像度)と多様性のトレードオフはやはり存在する。 Classifier-freeの方が精度が良さそう Diffusion Modelの方が(GAN,VAEより ) 本物っぽく生成できる!?

Text to Image

Image Editing

Image Editing 凄すぎる・・・

SDEdit Image Editing(with SDEdit model)

Conclusion

Safety Considerations & Limitations Released small model trained on a smaller, filtered dataset. Fail to capture certain prompts which describe highly unusual objects or scenarios.

Impressions Video Generation系の研究に期待 絵が下手でも大丈夫 an oil painting of happy new year an cartoon of Mount Fuji