[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing

DeepLearningJP2016 3,598 views 21 slides Jan 07, 2022

Slide 1 of 21

About This Presentation

2022/01/07
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Size: 11.24 MB

Language: none

Added: Jan 07, 2022

Slides: 21 pages

Slide Content

D EEP L EARNING JP [DL Papers] GLIDE : G uided L anguage to I mage D iffusion for Generation and E diting Xin Zhang, Matsuo Lab http://deeplearning.jp/

書誌情報タイトル： GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models( arxiv ) 著者：Alex Nichol, Prafulla Dhariwal Aditya Ramesh et al. (OPENAI) 20 Dec 2021 概要テキストからリアルな画像を生成する Diffusion Model ２種類の条件付けの方法で、複数の工夫を取り入れた実装綺麗な画像の生成に成功し、小さめなモデルを公開した ‹#›

Introduction

DALL-E (dVAE) StyleCLIP (StyleGAN) CLIP + Generative Model

画像生成でBigGANに勝った？！Diffusion Modelsについて GANは主流だが、訓練時の安定性と生成画像の多様性に問題多様性と忠実度はトレードオフであり、GANは多様性を犠牲にしているから忠実度が高い。それトレードオフをコントロールすることで、BigGANにFIDで勝った

４種類の画像生成タスクへのチャレンジ ! 拡散モデルPaletteについて Diffusion Modelで色々できるようになってきた！多くのタスクは結局Image-to-Imageの形式に落とせる Diffusion Modelはマルチタスクができる（タスク特化の学習しなくてもよい）

CLIP + Diffusion Model: GLIDE

GLIDE: Text-Guided Diffusion Models

拡散モデル(DDPM)には、二つのプロセスがある diffusion/forward process 画像にガウスノイズを加え続けて、画像を完全なノイズにする reverse process ガウスノイズを取り除いて、次のステップの画像を生成していき、最終的に綺麗な画像が得られるモデル：ノイズを予測することを学習させるノイズが予測するには、ノイズでないところを認識する必要がある生成する物体が理解できる DDPM( Denoising Diffusion Probabilistic Models )

２種類のガイド方法を用いた CLIP(Classifier) Guidance 分類モデルの損失勾配で重みづける CLIPの潜在空間での類似度を用いる特徴：二つのモデルが必要だが、同時に学習する必要はない。 Diffusion Modelと別にClassifierを用意して、Classifierの知識を利用して画像を生成。 Guided Diffusion (1) Classifier-free guidance 2回のノイズ予測で条件付けを行う Captionで重みづける特徴：一つのモデルで済むが、Diffusion Modelを異なるGuidanceする時に再訓練が必要 Diffusion Modelを学習する際に、Guidanceを付けているため

Text-Conditional Diffusion Models GLIDE Fine-Tuning for classifier free guidance Image Inpainting (Fine-tuning) Add 4 channels (RGB channels, a mask channel) Noised CLIP models Trained Image Encoder with noised image at 64x64 resolution.

Experiments

定量評価忠実度（解像度）と多様性のトレードオフはやはり存在する。 Classifier-freeの方が精度が良さそう Diffusion Modelの方が(GAN,VAEより ) 本物っぽく生成できる！？

Text to Image

Image Editing

Image Editing 凄すぎる・・・

SDEdit Image Editing(with SDEdit model)

Conclusion

Safety Considerations & Limitations Released small model trained on a smaller, filtered dataset. Fail to capture certain prompts which describe highly unusual objects or scenarios.

Impressions Video Generation系の研究に期待絵が下手でも大丈夫 an oil painting of happy new year an cartoon of Mount Fuji

[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing

About This Presentation

Slide Content

Tags

Categories

Download

Quick Actions

Statistics

Related Slideshows

[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing

About This Presentation

Slide Content

Slide 1

Slide 2

Slide 3

Slide 4

Slide 5

Slide 6

Slide 7

Slide 8

Slide 9

Slide 10

Slide 11

Slide 12

Slide 13

Slide 14

Slide 15

Slide 16

Slide 17

Slide 18

Slide 19

Slide 20

Tags

Categories

Download

Quick Actions

Statistics

Related Slideshows

TLE-9-Prepare-Salad-and-Dressing.pptxkkk

LESSON 1 ABOUT MEDIA AND INFORMATION.pptx

GRADE-8-AQUACULTURE-WEEKQ1.pdfdfawgwyrsewru

Feelings PP Game FOR CHILDREN IN ELEMENTARY SCHOOL.pptx

Jeopardy_Figures_of_Speech_Template.pptx [Autosaved].pptx

Jeopardy_Figures_of_Speech.pptxvdsvdsvsdvsd