ヒアラブル端末からの画像撮影による顔ジェスチャ認識

sugiuralab 0 views 23 slides Oct 16, 2025
Slide 1
Slide 1 of 23
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23

About This Presentation

本研究では、ヒアラブル端末を用いて顔の動作 (ここでは顔ジェスチャと呼称しています) を計測・認識し、PCやスマートフォンといったデバイスの操作手段に応用することを目的としています。ここで提案している手法では...


Slide Content

ヒアラブル端末からの画像撮影による顔ジェスチャ認識 *1: 慶應義塾大学 理工学部 情報工学科 *2: 大阪大学大学院 基礎工学研究科 システム創成専攻 鴨 慧太朗 *1 雨坂 宇宙 *2 杉浦 裕太 *1 第 223 回ヒューマンインタフェース学会研究会 「人工現実感,エンタテインメント,メディアエクスペリエンスおよび一般( SIG-DeMO-20 )」 登壇発表

口や舌を利用したデバイスの操作手法の拡充 手の動作に依存せず,物を持っている状態や怪我・疾病の際も使用可能 外部から操作内容を秘匿するのが容易 例:口を閉じたまま舌を動作させてデバイスを操作 しかし,日常使用をするうえでの問題点が存在 口や舌をセンシングするデバイスの侵襲性 公共空間では使いづらいデバイスの形状 他人の目が気にならないような設計の インタフェースが必要 2 背景

口・舌の動作 ( ジェスチャ ) をヒアラブル端末によって計測し, デバイス操作に応用 ヒアラブル端末は非侵襲的で,日常的に使用されるデバイス 公共空間でも使いやすいインタフェースを提供 横顔を写した画像から口・舌の動作が認識可能なモデルの構築 ヒアラブル端末に小型カメラを装着して画像を撮影 本研究では,補助的に加速度データも認識に使用 画像データと加速度データとで認識性能を比較 3 目的

口の外部にデバイスを装着してセンシングする手法 イヤーアクセサリに測距センサを設置し, 顔の動作を識別 [1] 公共の場でも気兼ねなく使用できるデザインの インタフェース VR ヘッドセットなどを用いて舌の動作を認識 [2] 舌の動作により,秘匿性の高い操作手法を実現 一方,使用には 2 種のヘッドセットが必要で高コスト 4 [1] Futami, K., Oyama, K., Murao, K.: Augmenting Ear Accessories for Facial Gesture Input Using Infrared Distance Sensor Array; Electronics, Vol. 11, No. 9 (2022). [2] Gemicioglu , T., Winters, R.M., Wang, Y., Gable, T.M., Tashev , I.J.: TongueTap : Multimodal Tongue Gesture Recognition with Head-Worn Devices; ICMI ’23: Proceedings of the 25th International Conference on Multimodal Interaction, pp. 564-573 (2023). 関連研究 (1/2) :口や舌を活用した入力手法 イヤーアクセサリを利用した 顔のセンサデバイス [1]

C-Face :横顔の撮影画像から全体の表情を再構成 [3] カメラを設置したイヤホン/ヘッドホンからユーザの横顔を撮影 輪郭を抽出し,深層学習モデルによって顔全体のランドマークを再構成 横顔の画像情報のみで顔全体の動作が認識できる可能性を示唆 本研究との相違点 外部からの秘匿性が高い 舌のジェスチャ も採用 画像データと同時に 加速度データ も収集 分類精度にどれほど影響があるかを調査 5 [3] Chen, T., Steeper, B., Alsheikh, K., Tao, S., Guimbretière, F., Zhang, C.: C-Face: Continuously Reconstructing Facial Expressions by Deep Learning Contours of the Face with Ear-mounted Miniature Cameras; UIST ’20: Proceedings of the 33rd Annual ACM Symposium on User Interface Software and Technology, pp. 112–125 (2020). 関連研究 (2/2) :顔の動作の認識手法 C-Face でのデバイス装着と 横顔の画像撮影 [3]

ヒアラブル端末に小型カメラと IMU を付随させ,顔の動作を計測 ジェスチャを実施しているときの画像・加速度データを同時に取得 小型カメラ:ユーザの横顔の撮影画像を取得 IMU :ユーザの頭部の直交 3 軸加速度および角度データを取得 両データを統合し,機械学習モデルでジェスチャを分類 時系列データのため, LSTM を使用 6 提案手法 ユーザ 計測デバイス ( ヒアラブル端末 ) データ送信 画像・加速度 データを統合 画像データ撮影 加速度データ計測 機械学習モデル適用 ジェスチャ分類

本研究では,下表に示す 4 種のジェスチャを認識対象として設定 便宜上,各ジェスチャに識別名を付加 exp/ openm と exp/smile はそれぞれ異なる口の動作 口が様々な形に変形できる自由度の高い部位であることに着目 ton/ cheek_l は閉口状態で行う舌の動作 入力内容の秘匿性を重視 7 ジェスチャ名 実際の動作 exp/ openm 開口する exp/smile 口角を上げて笑う neutral 無表情 ton/ cheek_l 舌を左頬に押しつける システムの実装 (1/5) :認識するジェスチャの選定 提案システムで認識するジェスチャ e xp/ openm e xp/smile neutral ton/ cheek_l

ヒアラブル端末として 1 対の AirPods を使用 左耳に装着する方の端末に小型カメラを設置 それぞれの端末に IMU が内蔵してあり,頭部の加速度を計測可能 画像・加速度データを API 経由で取得 小型カメラ: Python で制御 IMU : Swift の Core Motion フレームワークを使用 8 システムの実装 (2/5) :計測デバイス 小型カメラを設置した AirPods 計測デバイスを左耳に装着

発表者のみを被験者として画像・加速度データを収集 画像データ: 240×320 画素の RGB 画像 加速度データ:直交 3 軸方向の加速度+ロール・ピッチ・ヨー角 収集時はサンプリングレートを 25 Hz ,時系列長を 75 に統一 タイムスタンプをもとに画像・加速度データを対応付け 動画 ( 画像データ ) の撮影時間が 加速度データの計測時間に オーバーラップするように データ収集を実施 9 システムの実装 (3/5) :データ収集 画像データの撮影 ( 動画撮影 ) 開始 終了 加速度データの計測 終了 開始 画像・加速度データとして 切り出して統合

画像・加速度データに対して前処理を実施 画像データ:サイズ縮小+背景除去 サイズ縮小: 240×320 画素 → 56×56 画素 背景除去: 大津の 2 値化法を用いて,輝度分布からマスク画像を作成 元画像にマスクを適用し,横顔を写した領域のみを抽出 加速度データ:各軸ごとに正規化 訓練集合から計算した平均値・標準偏差を使用 10 システムの実装 (4/5) :ジェスチャの分類① 元画像 フラット 画像 周辺減光を補正 マスク画像 ÷ 除算 2 値化 マスクを適用 顔の領域を抽出

ジェスチャ分類用の機械学習モデルを設計 画像・加速度データそれぞれに対し, 異なる構造のネットワークを用意 水色の領域:加速度データ用のネットワーク 橙色の領域:画像データ用のネットワーク 両データを統合して分類する際は,各ネットワークの 出力値を合算し,最終的な推測値として使用 合算前に各ネットワークの出力値のスケールをそろえるため, それぞれに Softmax 関数を適用 画像データの分類では,学習時間短縮のため ImageNet で学習済みの ResNet18 を使用 11 システムの実装 (5/5) :ジェスチャの分類② 設計した機械学習モデル

4 ジェスチャ ×30 セット= 120 対の画像・加速度データを収集 下図では,それぞれ収集時期が対応する画像・加速度データを 1 セット分掲載 12 結果 (1/3) :収集した画像・加速度データ 収集した加速度データ 収集した画像データ 口周辺の輪郭に変化が発生

5 分割交差検証によって 3 入力条件での分類性能を比較 画像データのみを入力した場合 加速度データのみを入力した場合 画像・加速度データを併用して 入力した場合 加速度データのみを入力した場合に 最も高い精度で分類 13 結果 (2/3) :各入力条件間の性能比較 3 入力条件での分類性能 ( エラーバーは標準偏差 )

ジェスチャ分類の混同行列を出力 exp/smile ( 笑顔 ) はいずれの入力条件でも高い精度で分類可能 加速度データのみを入力した場合に exp/ openm ( 開口 ) が高い分類精度を発揮 14 結果 (3/3) :混同行列 加速度データのみ 画像データのみ 画像・加速度データ併用

加速度データのみを入力した場合に最大の分類性能を発揮 画像データが精度低下の原因として作用 画像・加速度データ併用の場合では,画像データの影響大 画像データでは特徴を捉えにくいジェスチャが存在 exp/ openm ( 開口 ) は主に顎を動作させるジェスチャ 加速度には大きな変化が生じやすいが,画像では画角によっては認識が困難 ImageNet で学習済みの ResNet18 を使用した影響 使用したデータベースの分布に違いが存在 ジェスチャ分類に適した特徴を画像データから抽出できなかった可能性 15 議論 (1/2) :画像・加速度データの分類性能への寄与

収集した画像・加速度データには分布の偏りが存在 同一の被験者 ( 発表者 1 名のみ ) ,姿勢,照明条件 画像データが特徴の似通ったフレームを多数含有 計測デバイスの長時間着用・再着用による分類性能への影響 長時間着用によりデバイスの角度が変化 小型カメラの画角がずれ,画像データの撮影状態に影響 デバイスを再装着した場合にも同様の問題が発生 インタフェースを日常使用するうえでは解消すべき問題 16 議論 (2/2) :データセットやデバイスに関わる問題点

画像データからの特徴抽出手法の改善 画像情報でも変化を捉えやすいジェスチャの選定 小型カメラの最適な画角の吟味 畳み込み層までを含めたモデルの学習や再設計 データセットの偏りの改善 ユーザ実験を行い,様々な被験者,姿勢,照明条件のもとでのデータ収集 計測デバイスの着用角度の影響を削減 画像データに平行移動や回転といったデータ拡張を実施 17 今後の課題

18 まとめ 背景 口や舌を利用したデバイスの操作手法の拡充 目的 口・舌の動作をヒアラブル端末で計測,デバイス操作に応用 関連研究 口や舌を活用した入力手法,顔ジェスチャの認識手法 提案手法 小型カメラ・ IMU 付きのヒアラブル端末で顔の動作を計測 システムの 実装 ジェスチャの選定,計測デバイスの設計,データ収集, ジェスチャ分類用の機械学習モデルの設計 性能測定 3 種類のデータの入力条件に対し, 5 分割交差検証で評価 結果 画像データの影響で分類性能が低下 議論・課題 画像データからの特徴抽出手法の改善,ユーザ実験の実施

補足資料

カメラが搭載されたヒアラブル端末の普及の可能性 ワイヤレスイヤホンからの映像を AI が読み取り,状況を認識 [4][5] フォームファクタを崩さない形での画像情報の取得・処理 20 [4] 株式会社 JVC ケンウッド. “ 「 CEATEC 2024 」 JVC ケンウッドブースのご案内 ” . JVCKENWOOD . 2024-10-03 . https://www.jvckenwood.com/jp/press/2024/1003-02/ , ( 参照 2025-07-06) . [5] 暦本 純一. “ イヤホンにカメラ、周囲情報を AI が伝達  JVC ケンウッド ” .日本経済新聞. 2024-10-18 . https://www.nikkei.com/article/DGXZQOUC17BOT0X11C24A0000000/ , ( 参照 2025-07-06) . ( 補足 ) 動向:小型カメラ搭載のヒアラブル端末 AI による情報認識用の映像を撮影できるワイヤレスイヤホン [3]

画像を 2 値化するにあたり,最適な閾値を決定する手法 ある画像の輝度値のヒストグラムを考える 理想的には,背景と被写体とを表す輝度値の分布が分離して存在 その間に閾値を設定することで,最適なセグメンテーションが可能 21 ( 補足 ) 大津の 2 値化法 [6] (1/4) [6] Nobuyuki Otsu. 1979. A Threshold Selection Method from Gray-Level Histograms. In IEEE Transactions on Systems, Man, and Cybernetics . 9, 1 (1979), 62-66. 被写体 背景 輝度値 低 高 頻度 多 少 被写体 背景 画像 ヒストグラムを 作成 この間に 最適な閾値が 存在

この手法では,ヒストグラムのみから最適な閾値を計算 輝度値が から まで存在すると仮定 輝度値が の画素の数を ,全画素数を と定義 輝度値 の出現頻度: ( , ) 2 値化後のクラス , を定義 ( いずれかが背景でもう一方が被写体 ) 各クラスの出現頻度: , 各クラスの輝度値の平均: , 全画素の輝度値の平均:   22 ( 補足 ) 大津の 2 値化法 [6] (2/4) [6] Nobuyuki Otsu. 1979. A Threshold Selection Method from Gray-Level Histograms. In IEEE Transactions on Systems, Man, and Cybernetics . 9, 1 (1979), 62-66.

輝度値 が最適な閾値であると仮定 クラス には から まで, には から までの輝度値の画素が所属   23 ( 補足 ) 大津の 2 値化法 [6] (3/4) [6] Nobuyuki Otsu. 1979. A Threshold Selection Method from Gray-Level Histograms. In IEEE Transactions on Systems, Man, and Cybernetics . 9, 1 (1979), 62-66.
Tags