論文紹介:Parameter-Efficient Transfer Learning for NLP

ttamaki 302 views 11 slides Jul 03, 2023
Slide 1
Slide 1 of 11
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11

About This Presentation

Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna Morrone, Quentin De Laroussilhe, Andrea Gesmundo, Mona Attariyan, Sylvain Gelly, "Parameter-Efficient Transfer Learning for NLP" ICML2019

http://proceedings.mlr.press/v97/houlsby19a.html


Slide Content

Parameter-Efficient Transfer
Learning for NLP
Neil Houlsby, Andrei Giurgiu, StanisławJastrzebski,Bruna Morrone, Quentin de
Laroussilhe,Andrea Gesmundo, Mona Attariyan,Sylvain Gelly
ICML2019
木全潤(名工大)
2023/6/5

論文概要
nBERT [Devlin+, NAACL2019]でAdapterを使用した転移学習
•ファインチューニングよりパラメータ効率が高い

Adapterの学習
nAdapter
•学習済みモデルの層間に
追加するモジュール
•元のモデルは固定して
Adapterのみ学習
n大規模テキストモデルを
下流タスクでチューニング
•優れた性能
•タスクを順次学習できる
•タスクごとの追加パラメータが少数

Adapter
nパラメータの抑制
•1度次元を落とすことで
パラメータ数を制限
•ボトルネック次元によって
性能とパラメータ効率のトレードオフ

実験
nベースモデル
•BERT
n評価指標
•GLUE [Wang+, ICLR2018]
•追加タスク
n目標
•N個のタスクにファインチューニングを行った際と同等の性能を得る
•この場合はパラメータ数はN✕パラメータ数
•今回理想としているのは1✕パラメータ数

結果(GLUE)
n平均性能はほぼ同じ
n使用するパラメータ数を大幅に削減
nAdapterではタスクごとに最適なAdapterのサイズが異なる
•1番下が64で固定

結果(追加タスク)

パラメータと性能のトレードオフ
nAdapterは少ないパラメータ数でも良好な性能

SQuADv1.1
n分類以外のタスクに対する性能評価
nSQuADv1.1 [Rajpurkar+, ACL2018]
•質問とWikipediaの段落が与えられる
•段落から回答部分を抽出する

Adapterごとの性能確認
nレイヤーからAdapterを取り除くことで効果を確認
•低レイヤーのAdapterは取り除いても影響が小さい

まとめ
nBERTにAdapterを追加する手法で複数タスクに対応した
•パラメータ数を抑えられる
n実験
•ファインチューニングと比較して少ないパラメータで近い性能
•分類以外のタスクにも適用可能
Tags