Fijikaru AI Benkyoukai Shiryou Dai 1-kai me

dyamashita1 65 views 17 slides Sep 24, 2025
Slide 1
Slide 1 of 17
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17

About This Presentation

フィジカルAI勉強会


Slide Content

第1回フィジカルAI勉強会
2025/09/16

本⽇のメイントピック
今回ロボットを使ってお⾒せする内容
•協働ロボットであるUR5eを⽤いたデモ
•⼈の⼿のよるロボットの操作
•ティーチングによるロボットの動作計画
•Physical AI である「CLIport」による物体ピッキング&プレースデモ

協働ロボットの概要
協働ロボットとは何か︖
協働ロボットの例産業⽤ロボットの例
•安全性︓⼒・速度を制御、センサーで接触検知
•柔軟性︓⼩規模⽣産や多品種対応に適応
•簡単操作︓直感的なプログラミング、教⽰で動作記録
協働ロボットの特徴
•従来の産業⽤ロボット
•⾼速かつ⾼精度に作業を⾏うことを得意とする
•安全装置が無く、強い⼒で動くため、⼈と同じ空間
で使うのは危険であった。
•そのため、安全柵の中に設置し、⼈と隔離して稼働
させるのが⼀般的である。
•協働ロボット
•⼈と同じ空間で作業できるように設計されている。
•⼒や速度を制御したり、接触を検知して動きを⽌め
るなど、安全に配慮した仕組みを備えている。
•プログラミングが容易で導⼊ハードルが低く、研究
から現場まで使いやすい。
従来の産業⽤ロボットとの⽐較
⼈とロボットの共同作業
https://www.e-mechatronics.com/product/robot/special/hc10/collaborative/index.html

UR5eの特性と優位性(他ロボットとの⽐較)
UR5eは精度・安全性・使いやすさのバランスが取れた標準機である。
•デンマークUniversal Robots社のUR5eは、6⾃由度(6
軸)の協働ロボットアームである。
•最⼤可搬重量5kg、リーチ850mmと、⼈⼿作業に近い範囲
の作業が可能で、繰り返し精度は約±0.03mmと⾼い。
•各関節に⼒覚センサを内蔵し、⼈との接触検知や⼒制御が
可能で、安全に協働できる設計である。
•本体重量は約20kgと軽量で、消費電⼒も平均200W程度と
低く、様々な環境での取り扱いが容易である。
同シリーズの他機種の特性
•中程度の可搬重量・リーチで、軽作業から組⽴まで幅広く
対応できる
•プログラミングが容易等の理由から導⼊ハードルが低く、
研究から現場まで使いやすい
•研究、開発にも利⽤されることから、他の協働ロボットと
⽐べて必要な情報・パーツが⼿に⼊りやすい
•世界的に普及しており、エコシステム・サポートが充実し
ている
UR5eの特性
レポート
•UR3e︓3kg可搬で軽作業中⼼、能⼒不⾜となる場⾯多。
•UR10e︓10kg可搬で⼤型⽤途向け、⼩規模作業では過剰
性能となる
UR5eの優位性
UR5eUR5eの使⽤例

ロボット周辺機器
Physical AI に必要不可⽋なロボット周辺機器
•RGB︓普通のカメラと同じく、⾚(Red)、緑(Green)、
⻘(Blue)の3⾊でカラー画像を撮影する部分。
•D(Depth)︓被写体までの「奥⾏き(距離)」を測る部分。
•つまり「カラー画像+ 距離情報」を同時に取得できる
RGB-D カメラ︓RealSense D435i(Intel社製)
•ロボットが物を「つかむ」「持つ」「操作する」ときに使
うツール。
•グリッパ型や多指ハンド、吸盤や磁⽯を使った特殊ハンド
など、⽤途に応じて様々な種類がある。
•特にグリッパ型は、指先で物をはさみ、安定して保持する。
ロボットハンド︓RG6(Onrobot社製)
RealSense D435i三次元計測の様⼦RG6 三次元計測結果
RealSense
D435i

デモその1
⼈によるUR5eの操作
UR5eのティーチペンダント ⾮常停⽌の様⼦
•ロボットの各関節⾓度や⼿先位置姿勢を指定することで
操作できる。
•協働ロボットであるUR5eは動作中に⼈の⼿に当たると、
⾃動で停⽌する。

デモその1
ティーチングによるUR5eの動作計画
ティーチングによる動作計画
•ロボットにあらかじめ動作を教えておくことで、毎回の同じ動作を実⾏することができる

背景と課題
従来のロボット制御は柔軟性と汎⽤性に乏しく、新しい枠組みが必要であった。
•産業⽤ロボットは従来、固定された動作を繰り返すよ
う綿密にプログラミングされてきた。
•センサーや制御則により⾼精度な動作が可能だが、環
境やタスクの変化への適応⼒は低い。
•新しい作業をさせるには都度専⾨的な再プログラミン
グが必要であり、汎⽤性に限界がある。
•近年、認識や経路計画にAI(機械学習)を利⽤する例
は増えてきたが、意思決定の⼤部分は⼈間が設計して
いる。
•⼈間が⾔葉で指⽰するような柔軟なタスク遂⾏は、従
来⼿法では困難であった。
LLM/VLMの登場と統合
•近年登場したLLM(⼤規模⾔語モデル)は、⼈間の⾔
語を⾼度に理解し、⽂脈に沿った応答や推論が可能で
ある。
•同様にVLM(視覚・⾔語モデル)は画像と⾔語の対応
付けを学習し、物体や状況を⾔語的に認識できる。
•これらモデルをロボットに組み込むことで、視覚情報
を意味的に理解し、⼈間の指⽰を解釈して動作計画に
反映できる可能性が出てきた。
•例えばカメラ映像から「⾚い箱を取って」といった指
⽰を理解し、⾃律的に動作⼿順を考えられるような制
御が期待される。
•⾔語と視覚の知識を持つモデルの統合により、ロボッ
ト制御の⼿法はルールベースから学習ベースへと転換
しつつある。
従来のロボット制御
Xx

•LLMにより、⼈間が⾃然⾔語でロボットに⾼⽔準な指
⽰を与え、それをAIが分解して具体的な動作に落とし
込むことが可能になる。
•VLMの導⼊で、ロボットがカメラ越しに環境を理解し、
対象物の意味や⽬的を考慮した⾏動選択ができるよう
になる。
•両者の組み合わせにより、ロボットは単なるセンサ値
でなく「状況の意味」を理解した制御を実現できる。
•従来は対応が難しかった曖昧な指⽰(「それを⽚付け
て」等)にも、⽂脈と視覚から推測して対処できる可
能性がある。
•総じて、⼤規模モデルの活⽤により、プログラムを⼀
から書かずとも多様なタスクへの適応が期待され、ロ
ボットの汎⽤性向上につながる。
なぜLLM/VLMが注⽬されているのか
ロボット制御への利点LLM/VLMの強み
L
L
M



V
L
M



•⼤規模テキスト学習により世界知識と推論⼒を備える
•⽂脈を理解し、適切な回答や⼿順を⽣成できる
•未知の問いにもゼロショットで対応可能である
•複雑な⼿順や条件分岐を⽂章から把握できる
•曖昧な要求も意図を汲み取り処理できる
•画像とテキストを結びつけ、視覚情報を⾔語で表現できる
•オープンボキャブラリで未知の対象を認識できる
•複数物体の関係や配置を理解できる
•新規物体や属性にも対応できる
•視覚データを意味レベルに変換し、意思決定に活⽤できる
LLMとVLMは未知タスクへの汎⽤性をもたらす強⼒な基盤である。
×

デモその2
Physical AI である「CLIport」による物体ピッキング&プレース
“Pick the red cylinder and place in the brawn box”
•タスクの指⽰(⾃然⾔語)とRGB-D情報をネットワークに⼊⼒し,動作を⽣成する
“Pick the blue block and place on the green block”

CLIport︓概要と可能性
少量データで⾃然⾔語指⽰に応じた操作を実現する「CLIport」と呼ばれるAIを採⽤
•CLIportは2021年に提案された、⾔語指⽰に応じてロボッ
ト操作を⾏う模倣学習エージェントである。
•単⼀のポリシーネットワークで複数種類のテーブルトップ
作業(例︓物品の仕分け、箱詰め、布の折り畳み等)を学
習できる点が特徴である。
•画像⼊⼒(カメラ映像)とテキスト指⽰を受け取り、それ
に沿ったピックアンドプレース動作を出⼒する。
•⼤規模事前学習モデルであるCLIPを組み込み、視覚と⾔語
の意味理解能⼒をポリシーに取り⼊れている。
•模倣学習の⼿法を⽤いており、⼈間が⽰したお⼿本(デモ
ンストレーション)データからタスクの遂⾏を学ぶ。
CLIportの成果
•シミュレーション依存が強く、実環境で劣化する
•動作はピック&プレースに限定される
•状態保持や⻑期計画ができず、リカバリが困難である
CLIportの概要
引⽤①︓BCGレポート
引⽤②︓Mckinseyレポート
CLIportの限界
•少量デモで複数タスクを学習できる
•9種類の実機タスクに成功した
•未知物体や⾊にも⼀定の汎化性能を⽰した
•単⼀ポリシーで複数タスクを扱えることを実証した

CLIport︓アーキテクチャと実装・運⽤
アーキテクチャ
CLIportはCLIPとTransporterを統合し、少量デモから動作を学習できるが、実機運⽤ではキャリブレーションと
安全設計が不可⽋である。
















•少量のデータセットで動作を獲得できる
•CLIP(意味経路)は凍結し、Transporter
(空間経路)を学習する
•ネットワークには⾼さマップを⼊⼒
•アフォーダンス+回転分類でピック及びプ
レースの座標を予測する
•カメラとロボットの座標を正しく合わせる
キャリブレーションを必ず⾏う。
•衝突しないように動きを計算( MoveItな
ど)し、安全装置も準備する。
•出⼒が不安定になる可能性に備え、リトライ
機能や⼈による介⼊を準備しておく。

π⁰︓概要と可能性
多様なロボット・タスクに適応する出来る、汎⽤的なVision-Language-Actionモデル「π⁰」
•π⁰は2024年にVision-Language-Action(VLA)型の複数
のロボット形態(シングルアーム、双腕、移動体など)を
対象とする汎⽤モデルとして提案された。
•カメラ画像+指⽰⽂だけでなく、ロボットの関節の状態や
姿勢など(=状態情報)も観察情報として⼊⼒することも
可能である。
•VLM をバックボーンにして、それにアクション出⼒モ
ジュール(flow matching を使ったものなど)を組み込ん
でいる。
•「Flow Matching」を使って、⾼頻度かつ滑らかな動きを実
現する。例えば、ロボット関節の軌道を滑らかに細かく制
御できるようになる。
•異なる形態のロボット(たとえば,⽚腕・両腕・移動付き
など)で共通の動きを学べるよう、「クロスエンボディメ
ント学習」を取り⼊れている。
π⁰の成果
•学習には膨⼤なデータと⾼性能GPUが必要である
•実機で「リアルタイムに低レイテンシ」で動かすのはまだ
である。遅延があると安全性や精度に影響する。
•モデルが⼤規模であり、導⼊・運⽤コストが⾼い
•環境ノイズ・センサー誤差・ロボットの慣性などで期待通
りにならないことがある。
π⁰の概要
引⽤①︓BCGレポート
引⽤②︓Mckinseyレポート
π⁰の弱点
•複数ロボット(単腕・双腕・移動)で共通利⽤できる汎⽤
性を実現した
•家庭内作業(⽚付け、洗濯物畳みなど)やナビゲーション
タスクにも対応できる
•⼤規模事前学習によりゼロショットや少量データでの適応
が可能となり、複雑で連続的なタスクを⾼精度に遂⾏でき

π⁰︓アーキテクチャと実装
アーキテクチャと実装


•⽫の盛り付け,封筒への詰め
込み、⾐類の折りたたみ、
ケーブルの配線、箱の組み⽴
て、電源プラグの接続などの
ロボットに求められる実際の
タスクの範囲を網羅している。
⼤規模事前学習とFlow Matchingにより、複雑かつ連続的な動作系列を⽣成できる。
•左側では多様なロボットの作業データを集め、 pre-trainingを⾏う。
•⼤規模な事前学習済み視覚⾔語モデルに「アクション出⼒部」を追加する。
•さらに⾼品質な追加学習データを⽤い、より複雑で器⽤さが必要なタスクを実⾏
するために、post-trainingを⾏う。

CLIportとπ⁰の⽐較と、実機導⼊の課題と対策
CLIportは軽量特化、π⁰は⼤規模汎⽤であり、実機導⼊には様々な課題克服が不可⽋である。
実機導⼊の課題と対策
•環境変動︓照明・摩擦・配置ずれにより性能が劣化するた
め、データ拡張や再キャリブレーションで対処する
•安全性︓衝突や誤動作を防ぐため、速度制限・⾮常停⽌・
危険出⼒の遮断を多層的に設ける
•リアルタイム性︓推論遅延は安全性と成功率に直結する。
対策︓フレームレート最適化、推論や制御に使う PCをロ
ボット近傍に配置し、有線LANを繋げる。
•信頼性︓推論失敗に備え、環境変化なし・接触異常・進捗
ゼロなどの失敗検知や判定リトライを組み込む
•導⼊ステップ︓シミュレータ→制限付き実験→本番運⽤の
段階的展開が望ましい
CLIportとπ⁰の⽐較











•画像+指⽰⽂から
テーブル上の把持
点/配置点を出⼒。
•軽量な模倣学習モ
デル。
•画像・⾔語・ロ
ボット状態を統合
し、連続アクショ
ンを⾼頻度で出⼒。
•VLAモデル。
•少量のデータセッ
トで学習。
•単⼀GPUで⼗分な
構成が多く、学
習・推論とも軽量。
•⼤規模事前学習は
提供側が実施想定。
•⾼品質データでの
事後学習には⾼性
能GPUが必要。
•テーブル上・短い
操作列・対象物が
定義された整頓/
配置タスクに強い。
•複合・多段タスク
まで⾏える。
•ゼロショット/少
量データ適応の可
能性がある
CLIportπ⁰

普及の壁︓なぜ⼤規模モデルは難しいか
⼤規模モデルは計算資源・安全性・費⽤対効果の壁に直⾯し、現場普及は容易でない
•⼤規模モデルは学習に膨⼤なデータと計算コストを要し、
企業が単独で⼀から構築するのは現実的に困難である。
•モデルが⼤きくなるほど推論にも時間がかかり、ロボット
制御で要求されるリアルタイム性を確保するのが難しくな
る。
•ブラックボックス度が⾼く、どういう判断でその動作に
⾄ったか説明が難しいため、安全性やデバッグにが残
る。
•現実世界では環境変動やセンサーノイズが多く、訓練デー
タ分布とずれると⼤規模モデルでも脆弱性を露呈しうる。
•モデルの更新や再学習も容易ではなく、⼀度構築した⼤規
模モデルを他⽤途に転⽤・追加学習する際には性能劣化や
忘却のリスクがある。
現場導⼊のハードル
•現場のエンジニアから⾒ると、⼤規模モデルは中⾝が⾒え
ず信頼しにくいとの声もあり、従来技術への信頼感との
ギャップが存在する。
•ロボットにAIが意思決定する仕組みを組み込むことに対し
て社内外で安全基準や規制上の懸念があり、導⼊に慎重に
ならざるを得ない。
•実機に導⼊する際、クラウドを介してモデルを利⽤すると
応答遅延や通信依存の問題が⽣じ、オンプレミスで動かす
には⾼価な計算装置が必要になる。
•⾼度なモデルを扱える⼈材が不⾜しており、既存スタッフ
にとってはメンテナンスやチューニングが難解で、運⽤負
担が⼤きい。
技術⾯の課題
引⽤①︓BCGレポート
引⽤②︓Mckinseyレポート
以上の理由から、研究レベルで成果が出ていても、
⼤規模モデルを⽤いたロボット製品・サービスはまだ限られた実験的導⼊に留まっている。

まとめと展望
LLM/VLMの活⽤は汎⽤ロボット実現の⼀歩であり、今後は軽量化と安全性が普及の鍵となる。
•LLMやVLMの活⽤により、ロボット制御はこれまでのルー
ルベースを超えて柔軟な知能化の⽅向へ進みつつある。
•CLIportの事例では、視覚と⾔語の事前知識を組み合わせる
ことで単⼀モデルが複数タスクを遂⾏しうる可能性が⽰さ
れた。
•π⁰に⾒るように、⼤規模データと統合アーキテクチャに
よってロボットの汎⽤的なポリシーを学習させる試みが始
まっている。
•UR5eのような協働ロボットハードは、こうした AI技術の検
証・実装プラットフォームとして重要な役割を果たしてい
る。
•⼀⽅で、⼤規模モデルの実運⽤には計算資源や安全性など
多くのが残り、現時点では適⽤範囲が限定的である。
将来の展望
•今後、ロボット向けの基盤モデルはさらに洗練され、より
少ないデータで多様なタスクに適応できる性能向上が期待
される。
•研究から実⽤への移⾏が進み、⼯場だけでなくサービス業
や医療など様々な領域で AIロボットの試⽤が広がる可能性
がある。
•⼤規模モデルと⼩規模・専⾨モデルのハイブリッド運⽤な
ど実⽤志向の⼯夫が進み、信頼性と効率を両⽴するアーキ
テクチャが模索される。
•データ共有基盤の整備や企業・研究機関間の協⼒によって
ロボット⽤⼤規模データセットが構築されれば、モデルの
精度と汎⽤性は⾶躍的に⾼まる。
•最終的には、⼈が⾔葉で意図を伝えるだけでロボットが理
解・⾏動するという、SFで描かれるような汎⽤ロボットの
実現に近づいていくと考えられる。
まとめ
引⽤①︓BCGレポート
引⽤②︓Mckinseyレポート
Tags