•LLMにより、⼈間が⾃然⾔語でロボットに⾼⽔準な指
⽰を与え、それをAIが分解して具体的な動作に落とし
込むことが可能になる。
•VLMの導⼊で、ロボットがカメラ越しに環境を理解し、
対象物の意味や⽬的を考慮した⾏動選択ができるよう
になる。
•両者の組み合わせにより、ロボットは単なるセンサ値
でなく「状況の意味」を理解した制御を実現できる。
•従来は対応が難しかった曖昧な指⽰(「それを⽚付け
て」等)にも、⽂脈と視覚から推測して対処できる可
能性がある。
•総じて、⼤規模モデルの活⽤により、プログラムを⼀
から書かずとも多様なタスクへの適応が期待され、ロ
ボットの汎⽤性向上につながる。
なぜLLM/VLMが注⽬されているのか
ロボット制御への利点LLM/VLMの強み
L
L
M
の
強
み
V
L
M
の
強
み
•⼤規模テキスト学習により世界知識と推論⼒を備える
•⽂脈を理解し、適切な回答や⼿順を⽣成できる
•未知の問いにもゼロショットで対応可能である
•複雑な⼿順や条件分岐を⽂章から把握できる
•曖昧な要求も意図を汲み取り処理できる
•画像とテキストを結びつけ、視覚情報を⾔語で表現できる
•オープンボキャブラリで未知の対象を認識できる
•複数物体の関係や配置を理解できる
•新規物体や属性にも対応できる
•視覚データを意味レベルに変換し、意思決定に活⽤できる
LLMとVLMは未知タスクへの汎⽤性をもたらす強⼒な基盤である。
×
デモその2
Physical AI である「CLIport」による物体ピッキング&プレース
“Pick the red cylinder and place in the brawn box”
•タスクの指⽰(⾃然⾔語)とRGB-D情報をネットワークに⼊⼒し,動作を⽣成する
“Pick the blue block and place on the green block”