論文紹介:LoRA in LoRA: Towards Parameter-Efficient Architecture Expansion for Continual Visual Instruction Tuning

ttamaki 15 views 19 slides Sep 18, 2025
Slide 1
Slide 1 of 19
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19

About This Presentation

Chang Che, Ziqi Wang, Pengwan Yang, Qi Wang, Hui Ma, Zenglin Shi, "LoRA in LoRA: Towards Parameter-Efficient Architecture Expansion for Continual Visual Instruction Tuning", arXiv2025

https://arxiv.org/abs/2508.06202


Slide Content

LoRAin LoRA:
Towards Parameter-Efficient
Architecture Expansionfor
Continual Visual Instruction Tuning
Chang Che, Ziqi Wang, Pengwan Yang, Qi Wang, Hui Ma, Zenglin Shi
arXiv2025
杉野翼(名工大)
2025/9/11

概要
◼視覚タスクの継続学習 (CVIT: Continual Visual Instruction Tuning)
•MLLM (Multimodal Large Language Models) [Liu+, CVPR2024] が
新たなタスクを段階的に学習
◼破滅的忘却
•過去タスクの性能が低下する現象
•タスク固有のモジュールを導入
•DirLoRA(Direct LoRAExpantion)
•既存手法は非常に多くのパラメータが必要
◼LiLoRA (LoRAin LoRA)
•LoRA(Low-Rank Adaption) [Hu+, ICLR2022] の行列をさらに工夫
•パラメータ効率の大幅な向上

LoRA
◼代表的なファインチューニング手法
•ごくわずかなパラメータのみ更新する
•パラメータ効率が良い
◼流れ
•元のパラメータ ??????は固定
•追加した低ランク行列 �,�を導入し,
低ランク行列のみ学習,更新
•更新後のパラメータを計算
•∆??????=��
•??????

=??????+∆??????
LoRA[Hu+, ICLR2022]

関連研究
◼静的アーキテクチャ
•モデルの構造やサイズを変えない
•CoIN[Maharana+, arXiv2024]
•Fwd-Prompt [Zheng+, arXiv2024]
•MR-LoRA[Zhao+, arXiv2025]
•SMoLoRA[Wang+, arXiv2024]
•効果的ではあるが,大規模なタスク
への対応が難しい
◼動的アーキテクチャ
•新たなタスク学習時にモデルに
パラメータを追加
•DER [Yan+, CVPR2021]
•DyTox[Douillard+, CVPR2022]
•タスクの種類が異なると効果的に
適応できない
DyTox[Douillard+, CVPR2022]

LiLoRA
◼提案手法のフレームワーク
1.行列�の共有
2.行列�の分解
3.共有基底�
0の正則化


1. 行列Aの共有
◼行列Aは異なるタスク間でもよく似た構造を持つ
•DirLoRAで学習された行列を分析
•あるタスクで学習した行列同士の CKA類似度ヒートマップ
•行列Aを全タスクで共有
•パラメータの増加を大幅に抑制
•�∈ℝ
??????×??????
•�
??????∈ℝ
??????×??????

2. 行列Bの分解
◼各タスクの行列 �をさらに分解
•�
0:全タスクで共有
•෨�
??????∈ℝ
??????×ǁ??????
•ሚ�
??????∈ℝ
෦??????×??????
◼共有・固有モジュールのバランスを調整する ??????を導入
•共有知識と固有知識の重要性はタスクによって異なる
•??????は学習によって動的に調整する
•1に近いほど共有モジュール, 0に近いほど固有モジュールに依存
:タスク固有の行列

◼行列�の分解による課題
•新たなタスクの学習が過去タスクの性能に悪影響
•忘却を引き起こす可能性
◼Cosine-Regularized Basis Stability lossの導入
•新たなタスク (??????)と直前タスク (??????−1)の��でコサイン類似度を計算
•෨�
??????
ሚ�
??????:タスク??????固有の行列
•低いほどタスクが似ていない
•類似度を用いて損失関数を計算
•�
0
??????
,�
0
??????−1
:??????学習途中,t-1学習後の�
0
•最小化することで,類似度が低いとき �
0は
直前とあまり変化しないように更新
3. 共有基底 �
0の正則化

実験設定
◼データセット
•ScienceQA[Lu+, NeurIPS2022]
•TextVQA[Singh+, CVPR2019]
•Flickr30k [Plummer+, ICCV2015]
•ImageNet [Deng+, CVPR2009]
•GQA [Hudson+, CVPR2019]
•VQAv2 [Goyal+, CVPR2017]
◼評価指標
•AP:ある段階のそれまでに学習した全タスクの平均精度
•MAP:全学習段階の APの平均値
•BWT (Backward Transfer):新たなタスク学習後の過去タスク精
度の低下度合い
•MIF (Mean Instruction Following):モデルの出力がタスクの形式
になっているかの評価
◼ベースモデル
•LLaVA-v1.5-7B [Liu+, NeurIPS2023]
•事前学習済み

ベースライン手法
◼LoRAを拡張した手法
•SeqLoRA
•全タスクで一つの LoRAを利用
•DoRA[Liu+, arXiv2024]
•C-LoRA[Smith+, arXiv2023]
◼従来の継続学習手法
•EWC [Kirkpatrick+, arXiv2016]
•Replay [Chaudhry+, arXiv2019]
◼CVITに特化した手法
•MoeLoRA[Luo+, arXiv2024]
•EWC+TIR , Eproj[He+, arXiv2023]
•SMoLoRA[Wang+, arXiv2024]
•比較時点での最新手法
◼性能評価の基準
•DirLoRA(Direct LoRAExpantion)
•上限
•各タスクに独立の LoRAを利用
•Zero-shot
•下限

実験結果 1:性能評価
◼Single-typeで評価
•各タスクにおいて命令形式が 1種類
•従来手法と比較して優れた性能

実験結果 1:性能評価
◼Five-typeで評価
•各タスクにおいて命令形式が 5種類
•Single-typeより複雑
•従来手法と比較して優れた性能

実験結果 2:アブレーションスタディ
◼パラメータコストの削減に成功
•TP:総パラメータのコスト
•EP:各タスク固有の拡張パラメータのコスト

実験結果 3:ランクの影響分析
◼どんなランク設定でも一貫して高い性能を維持
•??????:共有部分のランク
•ǁ??????:固有部分のランク

実験結果 4:共有,固有部分のバランス分析
◼タスクごとに学習可能な ??????が最適
•??????:共有・固有モジュールのバランスを調整
•1に近いほど共有モジュール, 0に近いほど固有モジュールに依存

実験結果 4:共有,固有部分のバランス分析
◼ScienceQA学習時の層ごとの ??????の分布
•学習後は固有知識をより利用
•層ごとに最適な ??????を学習

実験結果 5:タスク間の安定性評価
◼提案手法が一貫して安定した性能を維持
•あるタスク学習時の特定のタスクの性能

実験結果 6:他モデルへの汎用性検証
◼ベースモデルを Qwen2-VL-2B [Wang+, arXiv2024]に変更
•従来手法を上回り, DirLoRAに迫る高い性能

まとめ
◼LiLoRA
•継続学習の破滅的忘却対策手法
◼提案手法
•行列Aを全タスクで共有
•行列Bの再分解
•Cosine-Regularized Basis Stability lossの導入
◼実験結果
•従来手法を上回る性能と高いパラメータ効率を実現
•学習が進んでも前タスクの性能を維持
•特定のモデルに依存しない汎用性のある手法
Tags