Long-Tailed Classificationの最新動向について

InukugiKarakuri 1,145 views 51 slides Oct 15, 2020
Slide 1
Slide 1 of 51
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31
Slide 32
32
Slide 33
33
Slide 34
34
Slide 35
35
Slide 36
36
Slide 37
37
Slide 38
38
Slide 39
39
Slide 40
40
Slide 41
41
Slide 42
42
Slide 43
43
Slide 44
44
Slide 45
45
Slide 46
46
Slide 47
47
Slide 48
48
Slide 49
49
Slide 50
50
Slide 51
51

About This Presentation

2019年以来のlong-tailed classificationについて紹介


Slide Content

2020 . 08 . 20 洪 嘉源 株式会社 Mobility Technologies Long-Tailed Classification の最新動向について

2 最近の conference で hot になりつつの long-tailed classification について紹介したいと思います。 今回の資料は主に 2019 年以来の computer vision 領域 での long-tailed 分布のタスクについてです。早期の研究および自然言語領域の内容は対象外となります supervised learning に関する研究をメインにします。 ( unsupervised/self-supervised はそんなにラベルに頼らないのでこの分野では研究がほとんどありません。) Title は long-tailed classification ですが、最後に long-tailed 分布の detection/segmentation task も少し言及します。 この資料について

3 Agenda 01| Long-Tailed Classification 概要 02| 主流手法紹介 03| 最新論文紹介

4 01 Long-Tailed Classification 概要

5 理想的な分類タスク: 独立同一分布 クラス間のデータ数は均衡 学習データとテストデータの分布が一致 データの分布がずっと固定 … 実際のタスクでは上記条件は必ず満足されるとは限らない long-tailed 問題はデータ不均衡問題 Long-Tailed Classification 概要

6 target とされるクラス数が増えることによって、人為的に均衡的なデータを収集するコストが高くなる → 自然的に収集するデータは long-tailed 分布 ( Zipf's Law) Long-Tailed Classification 概要 cat vulpes lagopus

7 インスタンス数によって二つに分ける head classes: 少数 のクラス、データ数が 多い 、学習し やすい tail classes: 多数 のクラス、データ数が 少ない 、学習し ずらい (* many/medium/few 三段階に分けるのもある) 目的 : tail classes を有効に利用し、均衡&高性能のモデルを訓練する Long-Tailed Classification 概要 head classes tail classes cat vulpes lagopus

8 2 主流手法紹介

9 二つの basic approach : re-sampling: 学習データを data balanced にサンプリングする re-weighting: ロスに重みをかけて data balanced にする 両者とも既知の学習データセットの分布を利用し、データ分布を hacking して tail classes の学習を強化する 主流手法

10 早期の研究では主に head classes を少なめにサンプリングする( under-sampling ) tail classes を少なめにサンプリングする( over-sampling ) 本質は class-balanced sampling (通常分類タスクの instance-balanced sampling と区別する) サンプリング戦略の数式: はクラス数、 はクラス のサンプル数、 は 番目のクラスから画像をサンプリングする確率 re-sampling では、 → tail classes のサンプリング確率をあげる :class-balanced sampling, :instance-balanced sampling(no re-sampling)   Re-Sampling  

11 データ分布を基づいて逆に重み付け re-weighted cross-entropy loss: は logit 出力、 は re-weight の重み(*この重みは常数ではない) 一般的なフォーマット: は任意の単調増加関数 分類 confidence を基づいて重み付け( Hard Example Mining ) focal loss [1] (二値分類の場合) : はラベルが の確率、 は focusing parameter 、   Re-Weighting    

12 両者を比較して re-sampling はハイパーパラメータの調整が少ない re-weighting は複雑のタスクでもフレキシブルに応用できる 上記 re-sampling と re-weighting は long-tailed 問題に対して非常にシンプルかつ有効の解決手法。そのため、最新の研究は主にそれらをベースとする サマリ

13 3 最新論文紹介

14 項目 3. 1| Re-Sampling 3. 2| Re-Weighting 3. 3| Transfer Learning(*) 3. 4| Detection/Segmentation(*)

15 Decoupling Representation and Classifier for Long-Tailed Recognition, ICLR 2020 [2] 現在 long-tailed classification で SOTA ( state of art )の一つ 分類パーフォマンス = 表現クオリティー + 分類器クオリティー long-tailed 分布のデータを通常の学習なら分類器クオリティーが低い 直接 rebalancing の手法を全モデルに適用すると表現クオリティーが下がる 3.1.1

16 一般的には、 CNN による分類の形式は: 特徴抽出 : 分類器 : 最終的の予測 : 通常分類器のクオリティについて分析 分類器の weight norm は当該 クラスのインスタンス数が相関(青) tail classes の weight scale が小さい → confidence score が小さい →性能が悪い   3.1.1 long-tailed の分類性能の分析 通常の学習 ( 青 )

17 Classifier Retraining ( cRT ) 特徴抽出部を固定し分類器だけを re-sampling(class-balanced) で再学習 -Norm 直接に weight を修正する : は cross validation で決める Learnable Weight Scaling (LWS) 学習で weight の scale を調整 : 特徴抽出部と分類器を固定して は re-sampling (class-balanced) で学習 Nearest Class Mean classifier (NCM) 各クラスの平均特徴を計算し、最近傍探索で分類   3.1.1 分類器性能を向上する手法

18 sampling 割合の数式 : instance-balanced: class-balanced: square-root: progressively-balanced: , は何 epoch 目   3.1.1 re-sampling 戦略

19 特徴抽出部が各 sampling 手法で学習した場合の結果 分類器が re-balancing しない場合、 progressively-balanced の性能が一番いい 特徴抽出部が re-sampling しない、分類器が re-balancing する場合、 Medium/Few クラスの性能が飛躍に上がって、全体的に最高の性能を得る 3.1.1 組合せと比較

20 3.1.1 Results ImageNet-LT iNaturalist 2018 Places-LT

21 Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition , CVPR 2020 [3] 現在 long-tailed classification でもう一つの SOTA 別の角度で re-balancing を分析し、前の論文と似ている結論を導いた パーフォマンス一番いい組合せ: 元データと cross-entropy loss で学習の特徴抽出部+ re-sampling で学習の分類器 3.1.2

22 one-stage two-branch のモデルを構築 no re-balancing と re-balancing の学習を二つのブランチを分けて同時に学習する 両ブランチの前半部分の重みを share する 両ブランチの出力 feature を動的に重み付けて合併する (学習に連れて no re-balancing から re-balancing への重心転移) 3.1.2 Framework

23 3.1.2 Results

24 Class-Balanced Loss Based on Effective Number of Samples , CVPR 2019 [4] あるクラスに対して、データサンプル数の増加に連れ て、新しいサンプルがモデルへの貢献が少なくなる 有効サンプル数の概念を提案した 過去の re-weighting 手法では各クラスのサンプル数を 参照して重み付けに対して、有効サンプル数で重みを デザインする 3.2.1

25 一つの sample が点ではなく一定の大きさがある region とみなす 二つのサンプルが overlapped と overlapped しないパターンがある あるクラスのすべての possible samples が構成した feature space の大きさを とする 有効サンプル数は 個サンプルが構成した volume の大きさ   3.2.1 定義

26 個サンプルの有効サンプル数 : はハイパーパラメータとして使う (0.9, 0.99, …) class-balanced loss: は class-balanced term は softmax cross-entropy loss/sigmoid cross-entropy loss/ focal loss など   3.2.1 有効サンプル数と Loss Function の設計

27 3.2.1 Results

28 Learning Imbalanced Datasets with Label-Distribution-Aware Margin Loss , NIPS 2019 [5] head classes と tail classes の boundary の trade-off を考慮して、 サンプル数を参照した LDAM Loss を設計した 3.1.1, 3.1.2 で紹介した論文と似て、モデルの表現クオリティー を重視して、軽い re-weighting →重い re-weighting の学習 スケジュールを提案した 3.2.2

29 label-distribution-aware margin loss: は常数、 はクラス のサンプル数   3.2.2 Loss Function

30 二段階の学習スケージュール: 初期は LDAM loss で学習 後期は伝統な re-weighting の重み もつける   3.2.2 Training Scheduler

31 3.2.2 Results

32 Rethinking Class-Balanced Methods for Long-Tailed Visual Recognition from a Domain Adaptation Perspective, CVPR 2020 [6] domain adaption の観点から、データ充分の head classes の 条件分布についての仮定 が合理的だが、 tail classes では   3.2.3

33 loss function に対して二種類の重みを付けて: は 3.2.1 の論文の有効サンプル数ベースの class-balanced term は 条件重み、学習データから class-balanced subset D を作って meta learning で学習   3.2.3 Loss Function

34 3.2.3 Results

35 Remix: Rebalanced Mixup ,   Arxiv Preprint 2020 [7] 分類タスクで有効な mixup [8] 手法を long-tailed task 用に改良する手法 3.2.4

36 mixup の原始バージョン : remix: はハイパーパラメータ 合成の両者のクラス i と j のサンプル数の差が大きい( 倍)場合、出力を全部少数クラスにする。少数クラスの割合を で 制限する。   3.2.4 Remix

37 3.2.4 Results

38 近年、 transfer learning で long-tailed classification を解く研究も流行り始める head classes で学習した知識を tail classes に転移する 複雑なモジュールが必要 論文リスト : Large-Scale Long-Tailed Recognition in an Open World , CVPR 2019 [9] Deep Representation Learning on Long-tailed Data: A Learnable Embedding Augmentation Perspective , CVPR 2020 [10] Learning From Multiple Experts: Self-paced Knowledge Distillation for Long-tailed Classification , ECCV 2020 [11] 3.3 Transfer Learning

39 2019 年 Large Vocabulary Instance Segmentation (LVIS) [12] データセットの発表 long-tailed detection と segmentation に関する研究が進展 3.4 Long-Tailed Detection/Segmentation

40 Equalization Loss for Long-Tailed Object Recognition, CVPR 2020 [13] LVIS Challenge 2019 の一位 あるクラスの positive sample が他のクラスの negative sample で、 head classes が tail classes の gradient を抑制している。 tail classes への抑制を解除するための EQL(Equalization) Loss を提案 本質は re-weighting 3.4.1

41 EQL loss: exclude function 、 proposal r が背景だと を、前景だと 1 を出力する は j クラスの頻度で、 は threshold function 、 < の場合 1 を、その他は を出力する   3.4.1 Loss Function

42 3.4.1 Results

43 Overcoming Classifier Imbalance for Long-tail Object Detection with Balanced Group Softmax , CVPR 2020 [14] 3.1.1 と 3.1.2 と似た結論を導いた: 分類器の重みの norm は不均衡は性能が悪い の原因の一つだとわかった balanced group softmax を提案し、   segmentation のタスクで SOTA 3.4.2

44 class を学習データのインスタンス数によって N グループに分割し(背景 class は単独グループに)、各グループの中に others class を追加する。 各グループごとに softmax cross entropy loss を計算する 推論時、背景 class 以外の class を元の class ID に戻し、背景グループの others class の probability と乗算で rescale して、背景 class の probability と合わせて最後の結果とする 3.4.2 Method

45 一般の検出器および他の long-tailed データセット対策の resampling/re-weight 手法と比べて SOTA の性能を示す 3.4.2 Results

46 Large-Scale Object Detection in the Wild from Imbalanced Multi-Labels, CVPR 2020 [15] マルチラベルの問題に注目する。 3.4.1 と似て、通常 softmax は他のクラスを抑制することがわかる。 tail class が head class の子クラスもしくは関連する場合、その抑制を減らすようにする クラス間の並行率 (concurrent rate) を利用して concurrent softmax を提案する 3.4.3

47 concurrent loss: はクラス i と j の concurrent rate: クラス i をクラス j にラベル付けの確率 i が j の子クラスの場合   3.4.3 Loss Function

48 LVIS ではなく Open Images でテスト 3.4.3 Results

49 [1] Tsung-Yi Lin, Priya Goyal, Ross Girshick , Kaiming He, Piotr Dollár . Focal Loss for Dense Object Detection. In ICCV, 2017. [2] Bingyi Kang, Saining Xie , Marcus Rohrbach , Zhicheng Yan, Albert Gordo, Jiashi Feng, Yannis Kalantidis . Decoupling Representation and Classifier for Long-Tailed Recognition. In ICLR, 2020. [3] Boyan Zhou, Quan Cui, Xiu -Shen Wei, Zhao-Min Chen. Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition. In CVPR, 2020. [4] Yin Cui, Menglin Jia, Tsung-Yi Lin, Yang Song, Serge Belongie . Class-Balanced Loss Based on Effective Number of Samples. In CVPR, 2019. [5] Kaidi Cao, Colin Wei, Adrien Gaidon , Nikos Arechiga , Tengyu Ma. Learning Imbalanced Datasets with Label-Distribution-Aware Margin Loss. In NIPS, 2019. [6] Muhammad Abdullah Jamal, Matthew Brown, Ming- Hsuan Yang, Liqiang Wang, Boqing Gong. Rethinking Class-Balanced Methods for Long-Tailed Visual Recognition from a Domain Adaptation Perspective. In CVPR, 2020. Reference

50 [7] Hsin -Ping Chou, Shih- Chieh Chang, Jia-Yu Pan, Wei Wei, Da-Cheng Juan. Remix: Rebalanced Mixup . In  arxiv , 2020. [8] Hongyi Zhang, Moustapha Cisse , Yann N. Dauphin, David Lopez-Paz. mixup : Beyond empirical risk minimization. In ICLR, 2018. [9] Ziwei Liu, Zhongqi Miao, Xiaohang Zhan, Jiayun Wang, Boqing Gong, Stella X. Yu. Large-Scale Long-Tailed Recognition in an Open World. In CVPR, 2019. [10] Jialun Liu, Yifan Sun, Chuchu Han, Zhaopeng Dou, Wenhui Li. Deep Representation Learning on Long-tailed Data: A Learnable Embedding Augmentation Perspective. In CVPR, 2020. [11] Liuyu Xiang, Guiguang Ding, Jungong Han. Learning From Multiple Experts: Self-paced Knowledge Distillation for Long-tailed Classification. In ECCV, 2020. [12] Agrim Gupta, Piotr Dollár , Ross Girshick . LVIS: A Dataset for Large Vocabulary Instance Segmentation. In ICCV, 2019 Reference

51 [13] Jingru Tan, Changbao Wang, Buyu Li, Quanquan Li, Wanli Ouyang, Changqing Yin, Junjie Yan. Equalization Loss for Long-Tailed Object Recognition. In CVPR, 2020. [14] Yu Li, Tao Wang, Bingyi Kang, Sheng Tang, Chunfeng Wang, Jintao Li, Jiashi Feng. Overcoming Classifier Imbalance for Long-tail Object Detection with Balanced Group Softmax . In CVPR, 2020. [15] Junran Peng, Xingyuan Bu, Ming Sun, Zhaoxiang Zhang, Tieniu Tan, Junjie Yan. Large-Scale Object Detection in the Wild from Imbalanced Multi-Labels. In CVPR, 2020. Reference