生成AIによる多変量解析の実装:主成分分析によるMLB選手の打撃特性分析_20250916

KunihiroSugiyama1 23 views 36 slides Sep 19, 2025
Slide 1
Slide 1 of 36
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31
Slide 32
32
Slide 33
33
Slide 34
34
Slide 35
35
Slide 36
36

About This Presentation

生成AIによる多変量解析の実装:主成分分析によるMLB選手の打撃特性分析


Slide Content

新井崇弘
(多摩大学)
生成AIによる多変量解析の実装:
主成分分析による MLB選手の打撃特性分析
【産総研AITeC「Generative AI Study Group第54回」】
産総研人工知能技術コンソーシアム( AITeC)

•生成AIを全く使用したことがない方
•Python・Rなどのプログラミング言語による実装を行ったことがない方
⇒今回のハンズオンに追いつくのが難しい場合があるため、無理に手許で実
装する必要はありません。
今回のハンズオンの目的
•生成AIを用いた実装ステップについて、 おおよそイメージをもっていただく こと
が一番の目的
本オンラインハンズオン視聴に際しての注意点

大谷翔平選手のバッティングに注目してみよう
出所:https://baseballsavant.mlb.com/savant-player/shohei-ohtani-660271?stats=gamelogs-r-batting-statcast&season=2024

大谷翔平選手の強さの秘密とは

打席データ(変化球、打球速度、飛距離・・・)

全試合・全打席のデータが格納されている
出所:https://baseballsavant.mlb.com/savant-player/shohei-ohtani-660271?stats=gamelogs-r-batting-statcast&season=2024

データは以下の URLから各自ダウンロードしてみてください
URL:
https://baseballsavant.mlb.com/savant-player/shohei-ohtani-
660271?stats=gamelogs -r-batting-statcast&season=2024
データの配布はしておりませんので、ご了承ください。

選手のパフォーマンスをどう評価するか
出所:https://www3.nhk.or.jp/news/html/20250914/k10014922451000.html
出所:https://mainichi.jp/articles/20240919/k00/00m/050/346000c

すべての変数から選手のパフォーマンスを評価したい
•PA (Plate Appearances): 打席数。バッターが打席に立った回数。
•AB (At Bats): 打数。バッターが実際に打撃結果が記録された回数 (四球や死球は含まれ ない)。
•H (Hits): 安打数。バッターがヒットを打った回数。
•1B (Singles): シングルヒット数。バッターが 1塁打を打った回数。
•2B (Doubles): ダブルヒット数。バッターが 2塁打を打った回数。
•3B (Triples): トリプルヒット数。バッターが 3塁打を打った回数。
•HR (Home Runs): ホームラン数。
•SO (Strikeouts): 三振数。バッターが三振でアウトになった回数。
•BBE (Batted Ball Events): 打球イベント数。バッターがボールをバットでとらえた回数。
•BA (Batting Average): 打率。ヒット数を打数で割った割合。
•SLG (Slugging Percentage): 長打率。全打数に対して打者がどれだけ多くの塁を稼いだか。
•WOBA (Weighted On-Base Average): 加重出塁率。打撃成績の貢献度を評価。
•EV (Exit Velocity): 打球速度。バッターがボールを打った際の初速。
•LA (Launch Angle): 打球角度。打球の地面からの角度を表す。
•Whiff% (Swing and Miss Percentage): 空振り率。スイングしたうち、ボールに当たらなかった割合。

機械学習(多変量解析)
機械学習:コンピュータがデータから学習して、未来の予測や意思決定
に役立つアルゴリズムを生成する技術。たとえば、過去のデータを基に、
天気予測や画像認識、音声認識など、さまざまな分野で使用されている。
⇒データの特徴、何らかの法則性、隠れたパターンを見つけて、それらを
実課題の解決へつなぐ。
•回帰モデル
•クラスタリング、分類
•主成分分析など
今回は主成分分析を使って分析を試してみましょう

主成分分析( Principal Component Analysis)
•高次元データの次元を減らし、重要な特徴だけを抽出して、情報をシンプルにする
•人間にはわからなかったような新しい指標(主成分軸)を構築する
出所:https://pmc.ncbi.nlm.nih.gov/articles/PMC6258758/
古代ゲノムデータ の分析
出所:https://www.oist.jp/ja/image/svante-paabo
Svante Pääbo

y
x
データのバラつきから軸(重要な指標)を作る

Z1
分散が最大になる軸 z1を見つける
一つの特徴量(主成分)を取り出してく(次元縮約)
対象を識別する最も有力な軸をつくる(弁別性)
y
x
データのバラつきから軸(重要な指標)を作る

Z1
分散が最大になる軸 z1を見つける
y
x
Z2
分散(データのバラつき)が最も高い順か
ら、主成分1、主成分2、主成分3・・・
データのバラつきから軸(重要な指標)を作る

次元縮約
H (Hits)
1B (Singles)
2B (Doubles)
3B (Triples)
HR (Home Runs)
主成分分析のパス図
元のP 個の変数(X1, X2, …, Xp)から、情報の損失を最小限に抑えるように線形結
合を行い、 新たなP 個の独立した主成分( Z1, Z2, …, Zp)を生成

(再掲)バッティングデータ
•PA (Plate Appearances): 打席数。バッターが打席に立った回数。
•AB (At Bats): 打数。バッターが実際に打撃結果が記録された回数 (四球や死球は含まれ ない)。
•H (Hits): 安打数。バッターがヒットを打った回数。
•1B (Singles): シングルヒット数。バッターが 1塁打を打った回数。
•2B (Doubles): ダブルヒット数。バッターが 2塁打を打った回数。
•3B (Triples): トリプルヒット数。バッターが 3塁打を打った回数。
•HR (Home Runs): ホームラン数。
•SO (Strikeouts): 三振数。バッターが三振でアウトになった回数。
•BBE (Batted Ball Events): 打球イベント数。バッターがボールをバットでとらえた回数。
•BA (Batting Average): 打率。ヒット数を打数で割った割合。
•SLG (Slugging Percentage): 長打率。全打数に対して打者がどれだけ多くの塁を稼いだか。
•WOBA (Weighted On-Base Average): 加重出塁率。打撃成績の貢献度を評価。
•EV (Exit Velocity): 打球速度。バッターがボールを打った際の初速。
•LA (Launch Angle): 打球角度。打球の地面からの角度を表す。
•Whiff% (Swing and Miss Percentage): 空振り率。スイングしたうち、ボールに当たらなかった割合。

新しい指標 PC1 PC2 PC3・・・(スクリープロット;累積寄与率)
ここの数字は
主成分軸一つで、データの何割を説明することができているかを示す

新たな指標の解釈 PC1PC2のバイプロット
空振り率
長打率
本塁打数
打球角度
長打力
多くの変数が順相
関している
総合力(打撃指数)
因子負荷量(主成分と各変数との相関係数)
因子負荷量が1か -1に近いほど、主成分に強く寄与しているといえる

各主成分の解釈(抜粋)
あくまでこれらの出力が絶対に正しいわけ
ではなく、主成分の特徴を解釈するうえで
の参考・ヒントとして利用する

PC1の時点変化

PC2の時点変化

PC1とPC2の時点変化
カラーパレットを使用することも可能 ⇒https://hue360.herokuapp.com/

PC1とPC2の時点変化

今回はクラスタリング分析を行ってみる

改めて主成分分析について
バッティングに関するデータ 主成分分析のパス図
元のP 個の変数(X1, X2, …, Xp)から、情報の損失を最小限に抑えるよう
に線形結合を行い、 新たなP 個の独立した主成分( Z1, Z2, …, Zp)を生成
さらに主成分得点 (各対象の各主成分上でのスコア)を用いて
クラスタリング を行う
Month /
Year
Pitch
Type
# % PAABH 1B2B3BHRSOBBEBAXBASLGXSLG
WOB
A
XWO
BA
EVLA
Whiff
%
PutA
way%
202409
All
Pitch
es
1161002624 5 3 0 1 1 9150.2080.2360.4170.4750.2940.32899.52334.523.1
202408
All
Pitch
es
4771001261152711 2 21226910.2350.2790.60.6270.3640.494.32227.119.5
202407
All
Pitch
es
434100106912611 7 2 633580.2860.2890.6040.650.4180.43497.11737.129.5
202406
All
Pitch
es
483100118992913 4 01226740.2930.3110.6970.6840.4510.45497.7163218.3
202405
All
Pitch
es
397100104932918 3 1 722710.3120.3230.5910.6180.4150.42894.1 929.720
202404
All
Pitch
es
595100149131442214 1 7281050.3360.360.6180.6970.4270.47694.41323.817.5

主成分得点を使用し たTwo-wayクラスタリング について
階層的クラスタリング
ここでは、あくまで 各データポイントの類似性に基づ
くクラスタリング。 つまり、年ごとの活動パターン がど
のように似ているかまでを把握することは難しい
•ここでは、a,b,c,d,eが各データポイント(レコード)を示している
•今回は、ウォード法・ユークリッド距離を指定
デンドログラムによるグラフ描画
ダブルデンドログラムを用いて行と列のクラスタリングを同時に行う
(例)横軸に主成分、縦軸に年(主成分得点の平均値を使用)を配置し、双方向
の類似性をヒートマップで確認し、 特定のパターンを発見 することが可能

k-means法を用いたクラスタリング
今回は、①k-means法を用いたクラスタリング の実装
次に、②Two-wayクラスタリングの実装
k-means法による流れ(濃色は代表点)

同様に(ダブル)デンドログラムのソースコードを生成させる

2021年以降から
打撃指数が上昇している
2018年から2019年まで
は打撃成功率を重視
2021年2023年と後半になる
につれ長打力が向上
PC5:打球速度の安定性
(ヘビーヒッティング)
PC7:ランニングを含むヒッティング(走
塁スタイルの変化)
PC9:シングルヒット安定性
(確実に塁を進めるスタイルへ変化)

ダブルデンドログラムの解釈
グラフをそのまま添付
して解釈のヒントを聞
くことも可能

まとめ
•生成AIを活用しながら進めることで、複雑な分析手
法を実装することが可能となる。
•課題意識や目的意識(やりたいことがあるかないか
)がこれからの生成 AI時代の勝負を決するのではな
いかと思われる。
•得られた分析結果をどのように解釈・活用するかと
いう点は未だ残る 、データの背景や特性を理解し、
結果を現実の課題や状況に結びつけることが必要。
スキル(偏差値)
創造力
(やりたいこと) ある人ない人
※ただし
最低限のスキルは必要!

フィギュアスケートにおけるデータサイエンス
出所:https://ameblo.jp/babemama2015/entry -12686288869.html
Hirosawa, S., Watanabe, M., & Aoki, Y. (2022).
Determinant analysis and developing evaluation indicators
of grade of execution score of double axel jump in figure
skating. Journal of Sports Sciences, 40(4), 470-481.
https://doi.org/10.1080/02640414.2021.1997407

プレイヤーや控え選手(ベンチ )だけでなくベンチ外 も花形へ
出所:https://www.yomiuri.co.jp/sports/koshien/summer/20230827 -OYT1T50067/

スポーツ領域におけるデータサイエンスのニーズの高まり
出所https://www.seibulions.jp/news/detail/202400482520.html
出所:https://www.softbankhawks.co.jp/news/detail/202400637726.html

今回お話した生成 AIを用いた主成分分析の実装はこちらにわかりやすく記載しております
アマゾンから検索 ください https://x.gd/3ZjJj
※ちなみにレビューで有料版じゃないと利用できないと書いてありますが、現在は無料版でも(おそらく)利用
可能です。
Tags