AgentOps:AIエージェント時代の幕開けとガバナンスについて ~AgentOpsの体系的な理解を目指して~

ARISEanalytics 0 views 32 slides Sep 30, 2025
Slide 1
Slide 1 of 32
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31
Slide 32
32

About This Presentation

近年の急速なAIの発展によって、AIエージェント時代が幕を開けている。
AIエージェントにおいても、DevOpsやMLOpsなどと同様に、AgentOpsによる効率的な保守運用や改善作業が行えるような設計が必要である一方で、これらの知�...


Slide Content

CONFIDENTIAL
AgentOps
日比宏明
©2022 ARISE analytics Reserved.

アジェンダ
©2022 ARISE analytics Reserved. 1
□□Ops と AgentOps1
AgentOpsの構成要素2
AgentOpsで扱う主な課題と現状の緩和策3
おわりに4

AgentOps:AIエージェント時代の幕開けとガバナンス
-近年の急速な AIの発展によって、 AIエージェント時代が幕を開けている
-AIエージェントにおいても、 DevOpsやMLOpsなどと同様に、 AgentOpsによる効率的
な保守運用 や改善作業が行えるよ うな設計が必要である
-しかし、これらの知見はまだ手探りの状態である。
-本資料では、公開されている様々な情報から、 AgentOpsを体系的に理解することを目
指し、その重要性、直面する課題、そして未来について 一考する。

進化するOps
©2023 ARISE analytics Reserved. 3
新たな技術の出現によって DevOps から LLMOpsへ発展していったように、 AgentAIの出現によって
AgentAI特化の Ops の導入が必要となっている。
DevOps
専門チームによる
改善活動
MLOps AgentOpsLLMOps
静的な管理対象 + 動的な管理 対象
•データセット
•MLモデル
•アプリケーションコード
•インフラストラクチャ (IaC)
•自律型エージェント モデル
•利用ツール
•意思決定プロセス (思考・推論 のトレース)
•基盤モデル
•プロンプト
•ベクトルストア
入力・出力
意思決定プロセス
稼働状況
管理
対象
モニタ
リング
年 2007- 2015- 2020- 2023-
•AI Agent は複数のステップにわたるタスクを外部ツールと対話しながら自律的に実行するため、複数のコンポーネントのオーケスト
レーションに対応する必要がある。
•AI Agent を使用するうえでは最終的な出力だけでなく、それに至るまでの過程が重視されるため、意思決定プロセスも含めた可
視化が重要になってくる。
なぜ従来の Opsでは
不十分なのか?
開発(Dev)と運用(Ops)の連携により、ソフ
トウェアのリリースサイクルを高速化し、信頼性
を向上させる。
機械学習(ML)モデルのライフサイクル
全体を管理し、モデルの再現性と品
質を保証しながら本番環境への導入
を効率化する 。
大規模言語モデル (LLM)を活用
したアプリケーションの固有のライフ
サイクルを管理・運用する。
自律型AIエージェントの振る舞いを統制・観
測し、信頼性、透明性、安全性を確保する。
目的

アジェンダ
©2022 ARISE analytics Reserved. 4
□□Ops と AgentOps1
AgentOpsの構成要素2
AgentOpsで扱う主な課題と現状の緩和策3
おわりに4

AgentOpsの構成要素
©2023 ARISE analytics Reserved. 5
AgentOpsには、これまでの Ops と同様にいくつかの大きなタスクに分解される。
設計
評価
展開監視
改善
設計
評価
展開
監視
改善
AgentOpsの重要性 (エージェントシステムの最適化 )
動的な行動計画の設計
→ 複雑な目標達成に向けた、自律的な行動の仕組みを設計
行動妥当性の評価
→ 意思決定プロセスを分析し、自律的な行動の適切性を評価
AI Agent の効率的なサービング
→ 複数のツールや APIと連携した環境を効率的に展開
ガードレールと安全性の監視
→ 意図しない行動やコスト超過を防ぐための意思決定プロセスやポリシーを監視
運用で得られたフィードバックによる改善
→ 本番環境で FBを収集し、学習と改善を継続
AgentOpsのサイクルイメージ 各タスクの概要

MLOpsvs AgentOps
©2023 ARISE analytics Reserved. 6
MLOpsはモデルやモデルの入出力を対象がしている が、AgentOpsではモデルだけでなくシステム全体の最
適化や最終出力までのプロセスに対象が広がっている。










MLOpsの重要性 (モデルの最適化)
静的なモデルアーキテクチャ
→ 予測タスクに特化したモデル構造の設計
予測精度の追求
→ モデル単体の性能を評価し、精度向上を目指す
モデルの効率的なサービング
→ パイプラインに組み込み、安定した推論環境を提供
モデルの性能監視
→ データドリフトや性能劣化を検知
オフラインでの再学習
→ 新しいデータでモデルを再学習し、性能を更新
AgentOpsの重要性 (エージェントシステム の最適化)
動的な行動計画の設計
→ 複雑な目標達成に向けた、自律的な行動の仕組みを設計
プロセス妥当性の評価
→ 意思決定プロセスを分析し、自律的な行動の適切性を評価
AI Agent の効率的なサービング
→ 複数のツールや APIと連携した環境を効率的に展開
ガードレールと安全性の監視
→意図しない行動やコスト超過を防ぐための意思決定プロセスやポリシーを監視
運用で得られたフィードバックによる改善
→ 本番環境で FBを収集し、学習と改善を継続

AgentOpsの構成要素
©2023 ARISE analytics Reserved. 7
AgentOpsの 「設計」 について掘り下げる
設計
評価
展開監視
改善
設計
動的な行動計画の設計
→ 複雑な目標達成に向けた、自律的な行動の仕組みを設計
AgentOpsのサイクルイメージ タスクの概要

設計の要点
©2023 ARISE analytics Reserved. 8
Agent システムの設計では、「どのようにエージェントを組み合わせるか」と「どのようなガードレールを導入する
か」が要点となる。
設計 展開評価 監視 改善
企業事例
watsonxOrchestrate (IBM)
AgentForce(Salesforce)
人事、営業などの定型業務自動化、シングルエージェントとツール利用の好

責任あるAI設計の模範例、倫理指針を製品設計の中核に組み込む
アーキテクチャパ
ターンの検討
責任ある設計
(ガードレールの導入 )
シングルエージェント
マルチエージェント
エージェントAIメッシュ
論理的ガードレール
セキュリティガードレール
技術的・運用的ガードレール
設計の要点
単一の自律エンティティが意思決定
単純なタスクに適するが、スケーラビリティに限界がある場合がある
複数の専門エージェントが協調
-階層型: オーケストレーターがタスクを分解し、ワーカーに委任。責任の所在が明確
-協調型: 各エージェントが対等な立場で共有メモリ空間に情報を書き込み、集合的に解

オーケストレーターによる動的な協調
エージェントが発見可能なサービスとして機能し、オーケストレーターが動的にチーム編成。再利
用性とスケーラビリティを向上
偏見、差別、有害コンテンツ防止 (コンテンツフィルター、モデルアライメント )
プロンプトインジェクション、機密データ漏洩防止 (アクセス制御、データ匿名化 )
APIコール上限、コスト上限、人間による承認要求などのビジネスルール
概要

AgentOpsの構成要素
©2023 ARISE analytics Reserved. 9
設計
展開監視
改善
AgentOpsのサイクルイメージ タスクの概要
評価
評価
行動妥当性の検証
→ 意思決定プロセスを分析し、自律的な行動の適切性を評価
AgentOpsの 「評価」 について掘り下げる。

評価の観点
©2023 ARISE analytics Reserved. 10
最終成果だけでなく、ゴールに至るまでのプロセス全体の妥当性、効率性、安全性を多角的に評価する。内
部プロセス(思考の連鎖、ツールの選択など)も評価対象。
設計 展開評価 監視 改善
評価観点 概要
多次元メトリクス
フレームワーク
レイテンシ、コスト、トークン消費量、完了までのステップ数。効率性とコスト
エラー率、ガードレール発動率。安全性と信頼性
タスク完了率、正確性・正解率、ツール利用の正当性。
タスクパフォーマンスと
品質
タスクパフォーマンスと品質の評価においてはベンチマークデータセットを使用、
または参考にした独自のデータセットを用いることが良いと思慮

[補足] ベンチマーク
©2023 ARISE analytics Reserved. 11
設計 展開評価 監視 改善
一般的なタスク
における評価
WebArena ウェブサイト上での自律的なタスク遂行能力の評価 https://webarena.dev/
専門的なタスク
における評価
汎用的な評価
AgentBench
GAIA 実世界の問題解決能力を問うベンチマーク
https://huggingface.co
/gaia-benchmark
汎用的なタスクにおける LLMエージェントの能力評価
https://github.com/TH
UDM/AgentBench
ToolBench 外部ツール( API)の利用能力評価
https://github.com/Op
enBMB/ToolBench
MLE-bench 機械学習エンジニアリング能力の評価
https://github.com/op
enai/mle-bench
PaperBench 研究論文の理解と実験の再現能力の評価
https://openai.com/ind
ex/paperbench/
MMAU 複数領域にわたるエージェント能力の網羅的な評価
https://github.com/ap
ple/axlearn/tree/main/
docs/research/mmau
評価観点 ベンチマーク 概要 リンク

AgentOpsの構成要素
©2023 ARISE analytics Reserved. 12
設計
評価
監視
改善
AgentOpsのサイクルイメージ タスクの概要
展開
展開
ツール連携の動的な管理
→ 複数のツールや APIとの連携を設計し、複雑な相互作用を管理
AgentOpsの 「展開」 について掘り下げる

展開の要点
©2023 ARISE analytics Reserved. 13
設計 展開評価 監視 改善
一般的なDevOps, MLOpsなどと同様のため省略

AgentOpsの構成要素
©2023 ARISE analytics Reserved. 14
設計
評価
展開
改善
AgentOpsのサイクルイメージ タスクの概要
監視
監視
ガードレールと安全性の監視
→ 意図しない行動やコスト超過を防ぐためのポリシーを監視
AgentOpsの 「監視」 について掘り下げる

可観測性への拡大
©2023 ARISE analytics Reserved. 15
AgentOpsとその他Opsの決定的な違いとしてプロセスの監視があげられる。
設計 展開評価 監視 改善
DevOps MLOps AgentOpsLLMOps
-The Four Keys
-デプロイ頻度、
-変更リードタイム
-変更障害率
-サービス復元時間
-…
-モデル精度
-データ/コンセプトドリフト
-推論速度
-…
-トークン使用量 /コスト
-ハルシネーション /有害性検出率
-プロンプト性能
-RAG品質 (文脈関連性など )
-…
-タスク成功率
-ツール呼び出し成功率 /レイテンシ
-タスク毎のコスト
-…
-エージェントの実行トレース (意思
決定プロセス )
(なし)
事前定義された
メトリクスの監視
動的振る舞いの
可観測性
メトリクス監視 : 事前に定義されたメトリクスを追跡し、「何の」問題が発生したかを通知。
可観測性: システムの状態について任意の問いを発し、「なぜ」問題が発生したのかを理解するためのデータを収集・分析する能力。
ポイント

[補足] 主要な可観測性プラットフォーム
©2023 ARISE analytics Reserved. 16
AgentOps.ai
[https://agentops.ai/]
エージェントのセッションリプレイ、メトリクス分析、コスト追跡を提供する統合監視プラットフォーム。 CrewAI、AutoGenなど複数のフレームワークとシームレスに連携。
LangSmith(LangChain) [https://www.langchain.com/langsmith]
LLMアプリケーションのデバッグ、テスト、評価、モニタリングを支援。詳細なトレースとパフォーマンス分析を提供し、エージェントチェーンの可視化を実現。
OpenTelemetry
[https://opentelemetry.io/]
分散システム向けの標準化された可観測性フレームワーク。エージェントの動作ログ、メトリクス、トレースの収集と分析を可能にする基盤技術。
可観測性を向上させる技術
※ その他 AI agent 関連技術に関しては参考資料 #1 を参照









AgentOpsの構成要素
©2023 ARISE analytics Reserved. 17
設計
評価
展開監視
AgentOpsのサイクルイメージ タスクの概要
改善
改善
リアルタイムなフィードバックループ
→ 本番環境での行動ログを即座に分析し、学習と改善を継続
AgentOpsの 「改善」 について掘り下げる

改善の目的
©2023 ARISE analytics Reserved. 18
AgentOpsにおいては以下の観点での改善活動があげられる。
設計 展開評価 監視 改善
エージェントの
性能改善
セキュリティと
論理の確保
コストの
最適化
目的
プロンプトエンジニアリングの最適化
LLM の性能改善
ツールの連携強化
不適切な振る舞いの検出
権限の管理
API利用料の監視
リソース配分の最適化
エージェントのタスク実行能力を向上させるために、指示やコンテキストの与え方を調整します
特定のタスクに合わせて基盤となる LLM(大規模言語モデル)をファインチューニングし、応答の
精度や質を高めます。
エージェントが利用できる外部ツール( API、データベース、Web検索など)を増やし、より複雑な
タスクに対応できるようにします
ハルシネーション(事実に基づかない応答)やセキュリティ上のリスクとなる振る舞いを検知・防止
する仕組みを導入します。
エージェントに与えるアクセス権限を最小限に抑え、不正な操作を防ぎます。
LLMのAPI利用料など、エージェントが利用するリソースのコストを監視し、無駄な利用を削減しま
す。
エージェントのタスクに応じて計算リソースを動的に調整し、効率的な運用を目指します。
実施内容概要

改善のための FB
©2023 ARISE analytics Reserved. 19
AI エージェントの性能改善の指標として、 3つの観点でデータを収集機能を準備しておくと良い。
設計 展開評価 監視 改善
How to get FB
FB
ソース
明示的 FB
ユーザーによる高評価 /低評価、
直接的な訂正
暗黙的 FB
ユーザー行動からの推測 (商品
購入、対話放棄など )
システム FB
タスク成功率、エラー率、レ
イテンシなどの運用メトリクス
明示的FB
の例
承認/検証
エスカレーション /
フォールバック
データラベリング
と洗練
リスクの高いアクション実行前の人間による
確認において、どの程度・どのような内容が
承認・却下がされるか記録する。
エージェントに自信がなく、人間へ引き継い
だケースを記録する。
人間が応答をレビューし、誤り訂正や高品
質な応答を付与する。
明示的FB の例

アジェンダ
©2022 ARISE analytics Reserved. 20
□□Ops と AgentOps1
AgentOpsの構成要素2
AgentOpsで扱う主な課題と現状の緩和策3
おわりに4

再現性の危機 想定外の病的ループ
経済的不安定性 新たなセキュリティ脅威
AgentOpsで対面する主な課題
©2023 ARISE analytics Reserved.
2
1

課題#1:再現性の危機
©2023 ARISE analytics Reserved. 22
Agent AI では様々な要因によって再現性が確保できなくなってしまう可能性があるため、あらかじめ
予防策を実施しておく必要がある。
課題 #1
LLMの確率的性質
実行するたびに内容のテキストを生成する可能性
があり、エージェントの行動を変化させてしまう
課題 #2
外部環境の動的変化
APIを通じて外部の常に変化する情報源 (株価、
天気など)にアクセスするため、昨日と今日でエー
ジェントの行動が変化してしまう 。
課題 #3
エージェントの内部状態の変化
対話の履歴や過去のタスク実行結果を記憶し、
次の行動決定に使用しているため、同じ状態を再
現することが困難になります。
緩和策 #1
統計的評価
複数回のテスト実行を通じた成功率、ステップ数分布、
エラー種別の測定。
緩和策 #2
可観測性の確保
タイムトラベルデバッグやセッションリプレイ機能の導入
再現性が得られない要因となる課題 再現性の危機に対する緩和策の例

課題#2:想定外の病的ループ
©2023 ARISE analytics Reserved. 23
AgentAIの思考が袋小路?5\?\?\?\?\?\?\?\?\?\??]S]d]?\?\?\?R路?\??\??\?\? ?\?\?R
防・監視する仕組みを導入する必要がある。
課題 #1
無限ループ
エージェントの「思考」が袋小路に陥る「認知的ループ」(例:ツール失敗ループ、ハルシネー
ションカスケード、過剰なタスク分解)。
緩和策 #1
ベンチマーキング
GAIAやAgentBenchのような標準化されたベンチマー
クの活用
緩和策 #4
LLM-as-a-Judge
LLMを評価者として利用し、評価プロセスを最適化させ

緩和策 #2
トピカル/行動ガードレール
特定のトピックや不適切な行動を制限(例: NVIDIA
NeMoGuardrails)
緩和策 #5
Human-in-the-Loop (HITL)
人間が評価基準の妥当性を検証したり、判断が難しい
ケースをレビューしたりする。
緩和策 #3
サーキットブレーカーパターン
外部ツール呼び出しの失敗を監視し、一定期間呼び
出しを停止することで、失敗ループを防ぐ)
緩和策 #6
階層型エージェントアーキテクチャ
「マネージャー」エージェントが「ワーカー」エージェントの活
動を監督し、堅牢性を高める
… …

課題#3:経済的不安定性
©2023 ARISE analytics Reserved. 24
コントロールが難しい AgentAIにおいて、そのワークフローに特化した FinOps の構築や、管理・制御
がしやすいアーキテクチャを構築することが重要である。
課題 #1
「トークン爆発」問題
LLMの使用量増加によるコストの指数関数的増加。
課題 #2
制御不能なループ
認知的ループが「制御不能な課金ループ」となり、多
大なコストを発生させる可能性がある。
緩和策 #1
トークン予算と最適化
タスクごとのトークン数や実行ステップ数に上限を設定。
プロンプト圧縮、応答キャッシングによるトークン消費の
最適化。
緩和策 #2
リアルタイムコスト監視とアラート
コストを特定のコンポーネントに細分化し、予算超過
時にアラートを発する。
経済的不安定性の要因となる課題 経済的不安定性に対する緩和策の例
緩和策 #3
実行制御と権限管理
利用可能なツールや APIコール数に制限を設ける、
エージェントごとに権限レベルを設定するなど、高コスト
な処理の実行を制限する

課題#4:新たなセキュリティ脅威
©2023 ARISE analytics Reserved.
2
5
エージェントがツールを利用して外部環境に作用する能力が、新たな深刻なセキュリティリスクをもたらす可能
性がある。
課題 #1
AI Agent特有のサイバー攻撃
プロンプトインジェクション、データ漏洩 /流出、過剰な権限
行使(Excessive Agency)、モデルポイズニングなど
緩和策 #1
Policy-as-Code (PaC)
RegoやCedarのような言語でエージェントの権限を
コードとして定義・強制。
緩和策 #3
自動化されたレッドチーミング
ぺネストレーションテストや、別の AIを攻撃者として用い
るなど、脆弱性を発見・防御策を講じる
セキュリティに関連する課題 AgentSecOpsの導入による緩和策の例
緩和策 #2
トレーサビリティの確保
思考プロセスや実行ログに関して全てのエージェントの
ログを一元的に管理し、全体の流れを可視化

アジェンダ
©2022 ARISE analytics Reserved. 26
□□Ops と AgentOps1
AgentOpsの構成要素2
AgentOpsで扱う主な課題と現状の緩和策3
おわりに4

おわりに
©2023 ARISE analytics Reserved. 27
本資料のまとめ
AIエージェントの自律性が高まる中、その信頼性、透明性、安全性を確保するための AgentOpsが不可欠であり、従来の
運用(Ops)とは異なり、動的な管理対象と向き合う必要がある。その中で向き合う主な課題としては、非決定論的振る
舞い、意思決定プロセスの病的な振る舞いの制御・管理、コスト、セキュリティなどがあり、それぞれの課題の緩和策についても
様々な取り組みが試されている。
今後について
将来的には、 AIエージェントが自身の運用を自己監視し、最適化する「自己修復的な Ops」へと進化していく可能性も考え
られます。しかし、その段階に至るまでには、人間が AIの振る舞いを理解し、信頼し、そして最終的な責任を負うための堅牢
なフレームワークが不可欠です。 DevOpsからAgentOpsへと続くこの進化の道筋は、そのための基盤を築く、現在進行形の
挑戦といえるでしょう。

参考資料
©2023 ARISE analytics Reserved. 28

参考#1
©2023 ARISE analytics Reserved. 29
DevOpsについて
•https://seleck.cc/devops
•https://newrelic.com/devops/what-is-devops
•https://www.knowledgehut.com/blog/devops/history -of-devops
•https://www.atlassian.com/devops/what -is-devops/history-of-devops
MLOps について
•https://learn.g2.com/mlops
•https://www.ibm.com/think/topics/mlops
LLMOps について
•https://eleks.com/blog/guide-to-llmops/
•https://medium.com/@soumavadey/the -evolution-of-llmops-from-devops-to-mlops-and-beyond-
b8a19536d3cd

参考#2
©2023 ARISE analytics Reserved. 30
AgentOpsについて
•https://docs.agentops.ai/v2/introduction
•https://dysnix.com/blog/what-is-agentops
•https://shieldbase.ai/glossary/agentops
•https://research.ibm.com/blog/ibm-agentops-ai-agents-observability
•https://www.xenonstack.com/blog/agentops -ai
•https://www.infosys.com/iki/research/agentops-agentic-lifecycle-management.html
•https://www.querypie.com/ja/resources/discover/white -paper/21/welcome-to-the-age-of-agentsecops
•https://www.finops.org/wg/finops-for-ai-overview/

参考 #3
©2023 ARISE analytics Reserved. 31
AI Agent関連ツール・プラットフォーム
•AgentOps.ai: https://agentops.ai/
•LangSmith (LangChain): https://www.langchain.com/langsmith
•OpenTelemetry: https://opentelemetry.io/
•CrewAI: https://www.crewai.com/
•AutoGen: https://microsoft.github.io/autogen/
•IBM AgentOps: https://www.ibm.com/think/topics/agentops
•Pinecone: https://www.pinecone.io/
•Weaviate: https://weaviate.io/
ベンチマーク
•AgentBench: https://github.com/THUDM/AgentBench
•GAIA: https://huggingface.co/gaia-benchmark
•WebArena:https://webarena.dev/
•ToolBench: https://github.com/OpenBMB/ToolBench
•MLE-bench: https://github.com/openai/mle-bench
•PaperBench:https://openai.com/index/paperbench/
•MMAU: https://github.com/apple/axlearn/tree/main/docs/research/mmau