論文紹介:SoccerNet-v2: A Dataset and Benchmarks for Holistic Understanding of Broadcast Soccer Videos

ttamaki 16 views 14 slides Sep 18, 2025
Slide 1
Slide 1 of 14
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14

About This Presentation

Adrien Deliege, Anthony Cioppa, Silvio Giancola, Meisam J. Seikavandi, Jacob V. Dueholm, Kamal Nasrollahi, Bernard Ghanem, Thomas B. Moeslund, Marc Van Droogenbroeck, "SoccerNet-v2: A Dataset and Benchmarks for Holistic Understanding of Broadcast Soccer Videos", CVPR2021W

https://openacce...


Slide Content

SoccerNet-v2:
A Dataset and Benchmarks
for Holistic Understanding of
Broadcast Soccer Videos
Adrien Deliège,Anthony Cioppa,Silvio Giancola,Meisam J. Seikavandi,
Jacob V. Dueholm,Kamal Nasrollahi,Bernard Ghanem,Thomas B. Moeslund,
Marc Van Droogenbroeck
CVPR2021
田中裕大(玉木・丁研)
2025/9/11

概要
◼SoccerNet-v2
•サッカーの放送映像のデータセット
•既存のデータセットである
SoccerNet[Giancola+, CVPR2018]
の拡張
•500試合のサッカーの放送映像(約
764時間)
•約30万件の手動アノテーション
•3種類のベンチマークタスクを提供
•Action Spotting
•Camera Shot Segmentation
•Replay Grounding
自動編集のための高レベルな試合理解を目的として新しいデータセット
とベンチマークを提供
←新たに定義

SoccerNet
◼アノテーション数:約 6,600
◼アノテーション種類: 3種類
•ゴール,カード,選手交代
◼タスク: Action Spottingのみ
•ゴール,カード,選手交代が発生し
た時刻を推定
◼クラスが少なくタスクが簡単す
ぎた

SoccerNet-v2
◼アノテーション
1.Action(約110,000個)
•ゴール,ファール,コーナーキック
など17種類のアクション
•実際に放送されたか (shown)そうで
ないか(unshown)を含む
2.Camera shots(約158,000個)
•選手や審判のクローズアップ,
フィールド中央のメインカメラなど
13種類のカメラショットとその切り
替わり
•急なカット (Abrupt) ,フェード
(Fade),ロゴを挟む (Logo)のカメラ
の切り替わりの種類も分類

SoccerNet-v2
3.Replay(約33,000個)
•リプレイの映像を元の試合映像の対応するアクション時刻をラベル付け
•例)ゴールシーンのリプレイ映像にそれに対応するゴールの
アクション時刻 (90:09)がラベル付け

SoccerNet-v2
◼ベンチマークタスク
1.Action Spotting
•特定のアクションが発生した時刻を
見つけ出すタスク
2.Camera Shot Segmentation
and Boundary Detection
•各フレームをカメラショットに分類
•カメラショットの切り替わりを検出

SoccerNet-v2
3.Replay Grounding
•この論文で新たに定義
•リプレイ映像 に元の試合映像の対応するアクションの時刻をラベルづけ
•リプレイされ る=重要な場面

実験:Action Spotting
SoccerNetで提供された以下の手
法を実装
◼MaxPool,NetVLAD [Arandjelovic+,
CVPR2016]
①各フレームを ResNet[He+,
CVPR2016]で特徴量に変換
②20秒ごとにプーリング
③分類器によりアクションを得る
◼AudioVid[Vanderplaetse, CVPR2020]
•上記の手法に音声の特徴量も用いる
◼CALF [Cioppa+, CVPR2020]
①時空間的特徴抽出
•2分間ごとに区切られた映像の入

•フレームの前後の文脈情報を加味
した特徴量
②時間的セグメンテーション
•各フレームに対してアクションご
とにが発生確率を求める
③アクションスポッティングモ
ジュール
•確率のピークを予測しアクション
の発生時刻を推定

結果
◼評価指標: Average-mAP%
(許容誤差 ??????=5~60秒)
•??????=5~60の範囲で変化させて mAPを
求め平均をとる
◼音声情報の利用により精度向上
◼前後フレームの文脈を利用する
とunshownの精度向上

実験:Camera Shot Segmentation and Boundary Detection
◼カメラショットセグメンテー
ション
◼Basic Model
•映像の特徴量の上に,次元の畳み
込みニューラルネットワーク (1D
CNN)を3層重ねた基本的なモデル
◼CALF(seg.)
•CALFのセグメンテーションモ
ジュール部分のみ使用
◼カメラショットの切り替わり検

◼CALF(det.)
•カメラショットの切り替わりをア
クションとして CALFを使用
◼Content / Histogram / Intensity
•フレーム前後の差を求め閾値によ
り判定
•Content : ピクセルレベルでの色
の差
•Histogram : 明るさの分布の差
•Intensity : 平均的な色と輝度

結果:Camera Shot Segmentation and Boundary Detection
◼評価指標
•カメラショットセグメンテーション
(Camera Seg.):mIOU
•切り替わりの検出
(Bound Det., Transition):mAP
(許容誤差 ??????=1sec)
◼Histogram
•すべての切り替わりをで最も高精度
•特にAbrupt (急激)とLogo(ロゴを挟む
切り替わり)に強い

実験:Replay Grounding
◼Siamese Networkを応用
•二つの入力を同じネットワークで処
理しその結果を比較ことができる
•リプレイ映像
•試合本編映像の一部
•以下の2パターンで実験
1.NetVLADを用いる
2.CALFを用いる
◼学習で用いる 3種類のデータ
A)リプレイ映像とリプレイ元時刻
(正解ペア)
B)リプレイ映像とリプレイと関係な
い時刻(不正解ペア)
C)リプレイ映像と同じアクションだ
がリプレイ映像ではない時刻
(不正解ペア)
◼データの使用比率に 2通り
•S1
•A) 50%,B) 25%,C) 25%の確率
•S2
•一つのリプレイ映像に対して
A) 1個,B) 2個,C) 2個
をセットで学習

結果:Replay Grounding
◼評価指標: Average-AP%
◼Video chunk size : 入力の映像の
長さ
•短いと推定に必要な文脈情報が不足
•長いと関係のないノイズ情報が増加
→60秒で性能がピーク
◼CALF+S2で最も性能が良い
•CALFは前後の文脈を集約

まとめ
◼新しいデータセット SoccerNet-v2
•自動編集技術のための高レベルな試合理解を目的
•既存データセットよりも多種類なアクションをアノテーション
•「Shown」,「unshown」などの情報を付与
•3種類のベンチマークを提供
◼新たなベンチマーク Replay Grounding
•リプレイ映像からリプレイ元となる試合映像を推定するタスク
•リプレイされる映像は重要なアクションである
•高レベルな試合理解
Tags