ツール比較・実践ガイド 2026.05.07 27分で読めます

【2026年最新】AIエージェント観測・評価完全ガイド｜運用基盤

結論: 2026年のAIエージェント本番運用は「観測（Observability）」と「評価（Evaluation）」を分けて設計するのが標準です。観測はLangSmith・Langfuse・Helicone・Arize Phoenixの4強から1つ選び、評価はRAGAS・DeepEvalで「Golden Dataset 50問 + LLM-as-judge」を回します。LangSmithはオーバーヘッド実質ゼロでLangGraph純正、Langfuseは19K star OSSでself-host可、Heliconeは1行URL変更で$25/月固定、Arize PhoenixはML厳格な統計検定が強み。Claude Code・ChatGPT・Cursor・OpenAI Agents SDKすべてOpenTelemetry互換なので、選んだプラットフォームを横断的に使えます。

この記事の要点:

「観測」と「評価」の役割分担: トレース vs スコアリングの違い
LangSmith / Langfuse / Helicone / Arize Phoenix の4強比較表（料金・OSS/SaaS・オーバーヘッド）
RAGAS / DeepEval / TruLens の評価フレームワーク比較とLLM-as-judge設計
Golden Dataset 50問の作り方と、CI/CDでの自動評価パイプライン構築
OpenTelemetry標準でClaude Agent SDK・LangGraph・OpenAI Agents SDKを横断的にトレース
本番運用の落とし穴4選（コスト爆発・トレース欠損・LLM judge偏向・規制対応）

対象読者: AIエージェントを本番運用しているMLエンジニア・DevOpsエンジニア／品質保証を担当するQA・PM／LLMアプリケーションのコスト最適化を任されているエンジニアリングマネージャー／AIシステムの監査ログ・SLA運用を社内で整備中の情報システム責任者

「AIエージェントを本番デプロイしたんですが、どこで何が起きてるか全然わからないんです…」

先日、ある顧問先（従業員300名のSaaS企業）のCTOから相談を受けました。Claude Codeで顧客対応チャットを作って3週間経った頃、突然AIの回答品質が落ちたというクレームが営業から来た。でもログを見ても、どのプロンプトで、どのツールが、どのモデルバージョンで、どんな回答をしたのか追えなかったんです。結局、原因特定だけで2日かかり、その間ユーザー対応の品質はガタ落ちでした。

この経験から気づいたのは、「2026年のAIエージェント本番運用では、観測（Observability）と評価（Evaluation）を最初から組み込まないと、3週間後に必ず破綻する」ということです。100社以上の研修・顧問先で見てきた感覚として、観測ツール（LangSmith等）と評価フレームワーク（RAGAS等）を入れているチームは、入れていないチームと比べて品質低下の検知速度が10〜30倍違います。

この記事では、LangSmith・Langfuse・Helicone・Arize Phoenix・RAGAS・DeepEvalなど主要プラットフォームを実装コード付きで解説します。観測と評価の役割分担、Golden Dataset作成の実務テンプレート、CI/CDで自動評価を回すパイプライン設計まで、稟議資料そのままで使える形でまとめました。

まず5分で動かす: LangfuseでAIエージェントをトレース

AIエージェントの全体像については、AIエージェント導入完全ガイドで体系的にまとめています。本記事では観測・評価に絞って深掘りします。まずは無料枠で動くLangfuseから始めます。

セットアップ（5分）

# 1. Langfuse Cloud 無料登録 (https://cloud.langfuse.com)
#    → Public Key と Secret Key を取得（無料tier 50K events/月）

# 2. Python SDKインストール
pip install langfuse openai

# 3. 環境変数設定
export LANGFUSE_PUBLIC_KEY="pk-lf-xxxxxxxx"
export LANGFUSE_SECRET_KEY="sk-lf-xxxxxxxx"
export LANGFUSE_HOST="https://cloud.langfuse.com"

最小構成のトレース付きエージェント

# trace_agent.py
from langfuse.openai import openai  # 通常のopenaiライブラリの代わり
from langfuse import observe

@observe()
def customer_support_agent(question: str) -> str:
    """カスタマーサポートエージェント（自動トレース）"""
    response = openai.chat.completions.create(
        model="gpt-5-mini",
        messages=[
            {"role": "system", "content": "あなたはサポート担当です。"},
            {"role": "user", "content": question}
        ]
    )
    return response.choices[0].message.content

# 実行
result = customer_support_agent("解約方法を教えてください")
print(result)
# → Langfuse Cloud で全トレース確認可能：プロンプト・レスポンス・トークン数・コスト・レイテンシ

これだけで、各リクエストのプロンプト・レスポンス・モデル・トークン数・コスト・レイテンシがLangfuseのダッシュボードに自動記録されます。@observe()デコレータをつけるだけで、ネストした関数呼び出しも階層的にトレースされます。

研修先での実例: 上記の最小構成を顧問先のCTOに見せたところ、「観測を入れる工数が3行で済むなら、なぜ最初から入れなかったのか」と本人が悔しがっていました。デプロイ済みのAIエージェントに後付けでobserveデコレータを足すだけで、当日中に過去3週間分の品質劣化原因（特定モデルの出力長短縮）を特定できました。

「観測」と「評価」の違い: 役割を分けて設計する

2026年のベストプラクティスは、観測（Observability）と評価（Evaluation）を別の役割として設計することです。両者を混同するとツール選定で迷い、運用が複雑化します。

観点	観測 (Observability)	評価 (Evaluation)
目的	本番で何が起きたかを可視化	出力品質をスコア化して改善
タイミング	本番リクエストごとリアルタイム	開発時 + CI/CD + 定期バッチ
主な指標	レイテンシ・コスト・エラー率・トレース	精度・関連性・忠実性・幻覚率
主要ツール	LangSmith / Langfuse / Helicone / Arize Phoenix	RAGAS / DeepEval / TruLens
ストレージ	時系列ログ（数週間〜数年）	Golden Dataset（バージョン管理）

観測が必要な理由

本番AIエージェントは「何が起きたか」が見えないと、問題が起きた時の原因特定が不可能です。LangGraphのような状態機械型エージェントは特に複雑で、どのノードでエラーが起きたか・どのツール呼び出しが遅かったかを階層的に可視化できないと運用できません。

評価が必要な理由

「動いている」ことと「品質が高い」ことは別物です。AIエージェントの回答が、本来期待される回答からどれだけズレているかを数値化する仕組みが必要です。これがGolden Dataset + LLM-as-judgeのアプローチです。

AI活用、何から始めればいい？

100社以上の研修実績をもとに、30分の無料相談で貴社の課題を整理します。

無料相談はこちら →資料ダウンロード（無料）

観測ツール4強比較: LangSmith / Langfuse / Helicone / Arize Phoenix

観測ツールは2026年に多くの選択肢がありますが、エンタープライズ運用に耐える4つに絞って比較します。

ツール	提供形態	価格	強み	弱み
LangSmith	SaaS（LangChain）	無料tier + 有料プラン	LangChain・LangGraph純正、ノード単位のstate diff、ほぼ0%オーバーヘッド	LangChain依存、他フレームワークでは価値減
Langfuse	OSS（MIT, 19K stars）+ SaaS	無料tier 50K events/月、self-host無料	self-host可、最大OSSコミュニティ、評価機能も内蔵	計装オーバーヘッド15%、自前運用要
Helicone	SaaSプロキシ	$25/月flat（無制限）	1行のURL変更だけ、コスト固定、キャッシュ機能	API callレベルのみ、深いトレース不可
Arize Phoenix	OSS（Apache 2.0）+ SaaS	OSS無料、SaaS有料	ML厳格な統計検定、ドリフト検知、Embedding可視化	セットアップやや複雑、UIが技術的

LangSmithの選び方

LangChain・LangGraphベースで開発しているチームは、LangSmithが圧倒的に強いです。各ノードで状態がどう変化したか、どのツールが呼ばれたか、リプレイで別モデルバージョンと比較できる、など他ツールにない機能が揃っています。オーバーヘッドも実質ゼロ（ベンチマーク測定）。

# LangSmith + LangGraph
import os
os.environ["LANGSMITH_TRACING"] = "true"
os.environ["LANGSMITH_API_KEY"] = "lsv2_pt_xxxxxxxx"
os.environ["LANGSMITH_PROJECT"] = "my-agent-prod"

# あとはLangGraphで普通に書くだけ。全自動トレースされる
from langgraph.graph import StateGraph, MessagesState

graph = StateGraph(MessagesState)
graph.add_node("agent", agent_node)
graph.add_node("tools", tools_node)
# ...

app = graph.compile()
result = app.invoke({"messages": [{"role": "user", "content": "..."}]})
# → LangSmith上にノード単位の詳細トレースが自動記録される

Heliconeの選び方

「OpenAI APIを使っていて、最小工数で観測を入れたい」場合、Heliconeが最速です。base_urlを1箇所変えるだけで、SDKの変更は一切不要。料金が$25/月固定で予測可能なのも経費承認しやすいポイントです。

# Helicone — 1行のURL変更だけ
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["OPENAI_API_KEY"],
    base_url="https://oai.helicone.ai/v1",  # ← これだけ
    default_headers={"Helicone-Auth": f"Bearer {os.environ['HELICONE_API_KEY']}"}
)

# 通常通り使う。Heliconeダッシュボードに全リクエストが自動記録
response = client.chat.completions.create(
    model="gpt-5-mini",
    messages=[{"role": "user", "content": "..."}]
)

Arize Phoenixの選び方

機械学習チーム出身者が多い組織や、統計的厳密性を求める規制対象業種（金融・医療）はArize Phoenixが向いています。ドリフト検知（モデル出力分布の経時変化）、Embedding空間の可視化、A/Bテストの統計検定など、MLOpsの強い知見が前提の機能が揃っています。

OpenTelemetry標準: ベンダーロックインを避ける

2026年の重要トレンドとして、OpenTelemetry（OTel）が観測の業界標準になりつつあります。LangSmith・Langfuse・Arize Phoenix・Datadog LLM すべてがOTelに対応しており、計装コードを一度書けばツールを後から差し替えられます。

# OpenTelemetryで計装（プラットフォーム非依存）
from opentelemetry import trace
from opentelemetry.exporter.otlp.proto.grpc.trace_exporter import OTLPSpanExporter
from opentelemetry.sdk.trace import TracerProvider
from opentelemetry.sdk.trace.export import BatchSpanProcessor

# Langfuseに送る場合
exporter = OTLPSpanExporter(
    endpoint="https://cloud.langfuse.com/api/public/otel",
    headers={"Authorization": f"Basic {LANGFUSE_BASIC_AUTH}"}
)

# Arize Phoenixに切り替えたい場合 → endpoint変更だけでOK
# exporter = OTLPSpanExporter(endpoint="https://app.phoenix.arize.com/v1/traces")

provider = TracerProvider()
provider.add_span_processor(BatchSpanProcessor(exporter))
trace.set_tracer_provider(provider)

tracer = trace.get_tracer(__name__)

@tracer.start_as_current_span("agent.chat")
def agent_chat(message: str):
    span = trace.get_current_span()
    span.set_attribute("agent.user_message", message)
    response = call_llm(message)
    span.set_attribute("agent.response_length", len(response))
    return response

このパターンなら、初期はLangfuse、本番運用が成熟したらDatadog LLM Observabilityに移行、というベンダー切り替えがコード変更ほぼゼロで実現できます。Claude Agent SDK・OpenAI Agents SDKもOTel対応済みで、横断的にトレースを集約できます。

評価フレームワーク3強比較: RAGAS / DeepEval / TruLens

評価（Evaluation）はAIエージェントの「品質を数値化する」仕組みです。RAG（検索拡張生成）特化と一般エージェント評価で使い分けます。

フレームワーク	得意領域	主要メトリクス	CI/CD統合	特徴
RAGAS	RAG特化	Faithfulness・Context Precision・Context Recall・Answer Relevancy	あり	Ground truth不要で動く、軽量
DeepEval	汎用LLM + RAG	14種類の標準メトリクス + カスタム可能	Pytest native	Goldenデータセット自動生成機能つき
TruLens	RAG + 一般エージェント	Honest・Harmless・Helpful（3H）+ カスタム	Snowflake統合	説明可能なAI（Explainable AI）寄りの設計

RAGASによるRAG評価の実装例

# RAGAS — RAGの4メトリクス評価
from ragas import evaluate
from ragas.metrics import faithfulness, answer_relevancy, context_precision, context_recall
from datasets import Dataset

# 評価データセット（5問の例）
data = {
    "question": [
        "Uravationのオフィスはどこにありますか？",
        "AIエージェント研修の料金は？",
        # ...
    ],
    "answer": [
        "東京都文京区です。",
        "標準プランは月額25万円です。",
        # ...
    ],
    "contexts": [
        ["Uravationは東京都文京区本郷6丁目に本社を構える..."],
        ["AI個別指導サービスは月額25万円、グループ研修は別料金..."],
        # ...
    ],
    "ground_truth": [
        "東京都文京区本郷6丁目25番14号",
        "個別指導は月額25万円、グループは要相談",
        # ...
    ],
}

dataset = Dataset.from_dict(data)
results = evaluate(
    dataset=dataset,
    metrics=[faithfulness, answer_relevancy, context_precision, context_recall]
)
print(results)
# → 各メトリクスのスコア（0-1）が返る
# → faithfulness低いなら、検索結果と回答の整合性に問題あり

DeepEvalによるCI/CD評価の実装例

# DeepEval — Pytestネイティブな評価
import pytest
from deepeval import assert_test
from deepeval.metrics import AnswerRelevancyMetric, FaithfulnessMetric
from deepeval.test_case import LLMTestCase

@pytest.mark.parametrize("test_case", [
    LLMTestCase(
        input="解約方法を教えてください",
        actual_output="解約はマイページから...",
        expected_output="マイページの設定 > プラン > 解約手続き",
        retrieval_context=["マイページの設定タブから..."],
    ),
])
def test_customer_support_agent(test_case):
    relevancy = AnswerRelevancyMetric(threshold=0.7)
    faithfulness = FaithfulnessMetric(threshold=0.8)
    assert_test(test_case, [relevancy, faithfulness])

# pytest tests/ で実行 → CIで自動回る
# → 閾値を下回ったらPRをブロック

Golden Dataset 50問の作り方

評価の根幹は「Golden Dataset」です。期待される入出力ペアの集合で、これに対するスコア推移を追うことで品質を定量管理します。

50問あれば十分

業界の経験則として、50問程度の良質なGolden Datasetがあれば、品質変化を統計的に有意な形で検知できます。100問・1000問は不要で、むしろメンテナンスコストが上がるため推奨されません。

Golden Dataset作成の3ステップ

# Step 1: 自動生成（DeepEvalのSynthesizer活用）
from deepeval.synthesizer import Synthesizer

synthesizer = Synthesizer()
goldens = synthesizer.generate_goldens_from_docs(
    document_paths=["docs/customer_support.md", "docs/pricing.md"],
    num_goldens_per_context=5,
    max_contexts_per_document=10,
)
# → 約50問の質問+期待回答+参照コンテキストが自動生成

# Step 2: 人手レビュー（必須）
# 自動生成された50問のうち、明らかに変な質問・想定外の回答を10〜20%手動で修正
# → 「実際にユーザーが聞きそうな質問か」を人間が確認することで品質が劇的に上がる

# Step 3: バージョン管理
# Golden DatasetはGitで管理する
# tests/golden_dataset_v1.json → v2 → v3 と進化させる
# 「v1からv2でAccuracyが72% → 81%に向上」のような追跡が可能になる

Golden Datasetの観点別バランス

50問の構成は以下のようにバランスを取ると、各種品質劣化を検知しやすくなります。

観点	問題数	狙い
標準的な質問（Happy Path）	20問（40%）	通常運用での品質基準
エッジケース（複雑・長文）	10問（20%）	長文処理・複合条件のテスト
誤情報誘導（Adversarial）	10問（20%）	幻覚・誤情報耐性
否定・拒否すべき質問	5問（10%）	業務外質問への対応
多言語・特殊文字	5問（10%）	国際対応・特殊入力耐性

LLM-as-judge: 評価スコアを自動計算する

RAGAS・DeepEval・TruLensすべてが採用するアプローチが「LLM-as-judge」です。GPT-4やClaude Opusなどの強力なLLMを「審判」として使い、生成出力と期待出力の比較スコアを自動算出します。

# LLM-as-judge の基本パターン（DeepEval内部の例）
JUDGE_PROMPT = """
あなたは厳格なAI品質審査員です。
以下の生成回答が、期待回答とどれだけ意味的に一致しているか0〜1で採点してください。

【生成回答】
{actual}

【期待回答】
{expected}

【評価基準】
1.0: 完全一致または同等の意味
0.7: 主要な要素は一致、細部に差
0.4: 部分的一致、重要要素の欠落あり
0.0: 全く異なる、または誤情報

スコア（0〜1の小数）と、その根拠を1行で答えてください。
形式: SCORE=0.X | REASON=...
"""

LLM-as-judgeの精度を上げる3つのコツ

判事LLMは生成LLMより強力なものを使う: 生成側がgpt-5-miniなら、判事はgpt-5かClaude Opus 4を使う。同等以下のモデルだと甘い採点になる傾向
Few-shot exampleを2-3個入れる: 「こういう回答は0.8、こういう回答は0.3」と例示することで判定の一貫性が上がる
Reasoning（CoT）を出力させる: 「スコアだけ」ではなく「根拠も書け」と指示すると精度が向上する

CI/CDで自動評価パイプラインを回す

本番品質を保つには、Golden Datasetでの評価をCI/CDに組み込むのが標準です。プロンプト変更・モデル切り替え・依存ライブラリ更新のたびに自動でスコアが計算され、品質が劣化したらPRをブロックする仕組みです。

GitHub Actionsでの実装例

# .github/workflows/agent-eval.yml
name: AI Agent Quality Eval

on: [pull_request]

jobs:
  eval:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      - uses: actions/setup-python@v5
        with:
          python-version: "3.12"
      - name: Install
        run: |
          pip install deepeval ragas
      - name: Run evaluations
        env:
          OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }}
          DEEPEVAL_API_KEY: ${{ secrets.DEEPEVAL_API_KEY }}
        run: |
          deepeval test run tests/test_agent_quality.py
      - name: Upload results
        if: always()
        run: |
          deepeval upload-results --tag pr-${{ github.event.number }}

このパイプラインを入れた顧問先では、「プロンプトを少し改善したら別のメトリクスが落ちた」というトレードオフが事前に検出できるようになり、本番事故が劇的に減りました。CIで品質を数値で見える化することの威力は、コードの単体テストと同じです。

主要AIエージェントプラットフォームの観測対応

本記事で解説した観測・評価が、各プラットフォームでどこまで標準サポートされているかを整理します。

プラットフォーム	観測	評価	OpenTelemetry
AWS Bedrock AgentCore	CloudWatch + 専用Observability	独自実装	対応
Vertex AI Agent Builder	Cloud Logging + Vertex AI Eval	Vertex AI Eval Service	対応
Microsoft Copilot Studio	Application Insights	Azure AI Studio Eval	対応
Salesforce Agentforce	Event Monitoring	Einstein Analytics	限定対応
Claude Agent SDK	独自 + LangSmith等	独自実装 / RAGAS等	対応
OpenAI Agents SDK	OpenAI Tracing + 独自	独自実装 / RAGAS等	対応
LangGraph	LangSmith純正	LangSmith Evaluations	対応
AutoGen	独自 + OpenTelemetry	独自実装	対応
CrewAI	独自 + AgentOps	独自実装	対応

選び方の指針: フルマネージド環境ならクラウドネイティブ（CloudWatch / Cloud Logging / App Insights）を最初に使い、横断観測が必要になった段階でLangfuse・LangSmith・Datadog LLMに統合していくのが定石です。

【要注意】よくある失敗パターン4選と回避策

失敗1: 観測ツールでコストが爆発する

❌ NG例: 全プロンプト・全レスポンスを永続保存し、検索インデックスを全張る

⭕ 正しいアプローチ: 詳細トレースは7〜30日、サンプリングログは90日〜365日、というように階層的に保存。Heliconeのキャッシュ機能を使えばOpenAI APIコスト自体を30〜50%削減できる場合もあります。

顧問先の実例: ある企業でLangfuseの自前ホスティングを始めた当初、PostgreSQLの容量が3週間で250GBを超え、月額DB費用が15万円を超えました。「7日詳細 / 30日サマリ / 365日件数のみ」という階層的保存に切り替えた後は3GB/月程度に収まり、コストが20分の1になりました。

失敗2: トレース欠損で重要な障害を見逃す

❌ NG例: トレースを「Best effort」設定にして、サーバー高負荷時にトレース送信失敗を許容する

⭕ 正しいアプローチ: 重要操作（金銭・個人情報・契約系）のトレースは「Required」設定にし、送信失敗時はリクエスト自体を失敗させる。コスト的に重い場合はサンプリング率を下げ、重要操作だけ100%トレースする方針が安全です。

失敗3: LLM judgeが「なんでも肯定」になる

❌ NG例: gpt-5-miniを判事として使い、自分が出した回答を採点させる（甘くなる）

⭕ 正しいアプローチ: 判事は生成LLMより1段階以上強力なモデルを使う（gpt-5-miniならgpt-5、Claude HaikuならClaude Sonnet）。可能なら2つのモデルで判定し、不一致時のみ人間レビューに回すパターンが精度・コストのバランス最良です。

失敗4: 規制対象データを誤って観測ツールに送信する

❌ NG例: PII・個人情報・医療データを含むプロンプトをそのままLangfuse Cloudに送信

⭕ 正しいアプローチ: 観測ツール送信前にPIIマスキングを必ず適用。Lakera GuardやAWS ComprehendのPII Detectionを前段に置く。規制業種（金融・医療）はLangfuse Self-host・Arize Phoenix Self-hostでデータを社内に留める設計が標準です。AIエージェントセキュリティ全般はAIエージェントセキュリティ完全ガイドで解説しています。

30-60-90日観測・評価ロードマップ

0-30日: クイックスタート

Langfuse Cloud or Helicone を無料tierで導入（観測の最短ルート）
1つの主要AIエージェントに@observeデコレータ or base_url変更だけ適用
1週間運用してダッシュボードを社内に共有
Golden Dataset 20問を手動作成（最頻出の質問パターン）
RAGAS or DeepEvalで初回評価実行

31-60日: 評価の本格化

Golden Datasetを50問に拡張（DeepEval Synthesizer活用）
CI/CDにdeepeval test runを組み込み、PRごとに自動評価
閾値を下回ったらPRをブロックする運用を開始
LLM judgeのモデルを生成側より強いものに固定
観測ダッシュボードのアラート設定（レイテンシ・エラー率）

61-90日: 横断観測 + ドリフト検知

OpenTelemetry標準でツール非依存の計装に移行
本番ログから「実際のユーザー質問」をGolden Datasetに追加（A/Bテスト用）
Arize Phoenix or Datadog LLMでドリフト検知を導入
四半期ごとのGolden Dataset棚卸しと品質サミット運用開始
SLA / SLO / Error Budgetを定義し、本番運用基準を文書化

まとめ：今日から始める3つのアクション

AIエージェントの本番運用は「観測」と「評価」の2軸で守るのが2026年の標準です。観測ツールはLangSmith・Langfuse・Helicone・Arize Phoenixの4強から1つ選び、評価フレームワークはRAGAS・DeepEval・TruLensから1つ選ぶ、というシンプルな選定で十分始められます。今日から試せる順番を整理します。

今日やること: Langfuse Cloud に無料登録（50K events/月）→ pip install langfuse して、稼働中のAIエージェントに @observe() デコレータを1行追加。10分でダッシュボードに本番トレースが流れ始めます。
今週中: 主要な利用シーンから20問のGolden Datasetを作成し、DeepEvalで初回評価を実行。「現在の品質スコア」を数値化することが、改善のスタート地点です。
今月中: Golden Datasetを50問に拡張し、GitHub Actionsで deepeval test run を自動実行する。PRごとに品質スコアが計算される運用に持っていけば、プロンプト改善の影響を客観的に追えるようになります。

📅 5月開催｜Uravation主催 Zoomウェビナー

【5/23(土) 14:00-17:00】AI活用入門講座 — ChatGPT・Gemini・Claude・NotebookLM・Manus 全部触る3時間（早割 ¥3,000、5/16締切／通常 ¥4,000）
【5/24(日)】Claude Code 活用講座【実践編】 — 活用事例50選と業務実装テクニック（早割 ¥3,000）

講師: 株式会社Uravation代表佐藤傑（X @SuguruKun_ai） / Yusei Tataka

あわせて読みたい:

AIエージェントセキュリティ完全ガイド：観測ログ送信時のPIIマスキング・規制対応設計
LangGraph完全ガイド：LangSmithと組み合わせた状態機械型エージェントの観測
Claude Agent SDK完全ガイド：OpenTelemetryでClaude APIをトレースする実装
OpenAI Agents SDK完全ガイド：OpenAI純正TracingとLangfuse連携
MCP完全実装ガイド：MCP Server経由のツール呼び出しを観測する
AIエージェント導入完全ガイド：観測・評価を含むエージェント全体像
AIエージェントMemory完全ガイド：Mem0/Zep/Lettaで永続記憶を実装、Core/Archival/Recall 3層モデル
AI Voiceエージェント7強完全比較：Vapi/Retell/ElevenLabs/Deepgramほか電話AI比較
AIカスタマーサポート7強完全比較：Decagon/Sierra/Intercom Fin等のCS AI基盤比較
士業のAI活用完全ガイド：税理士/社労士/弁護士/司法書士/行政書士の実践プロンプト10選
Codex×経理自動化プロンプト10選：経理特化10シーンで最大80%削減
Codex×Excel自動化プロンプト10選：VBA/Apps Script/Power Query代替
Codex×業務15選部署別ガイド：営業/マーケ/人事/法務/経企/情シス/CSの15シーン

参考・出典

LangSmith Documentation — LangChain（参照日: 2026-05-07）
Langfuse Documentation — Langfuse（参照日: 2026-05-07）
Helicone Documentation — Helicone（参照日: 2026-05-07）
Arize Phoenix Documentation — Arize AI（参照日: 2026-05-07）
RAGAS Documentation — Exploding Gradients（参照日: 2026-05-07）
DeepEval Documentation — Confident AI（参照日: 2026-05-07）
Agent Observability: LangSmith, Langfuse, Arize 2026 — Digital Applied（参照日: 2026-05-07）
RAGAS, TruLens, DeepEval: LLM Evaluation Frameworks 2026 — Atlan（参照日: 2026-05-07）
OpenTelemetry Semantic Conventions for GenAI — OpenTelemetry（参照日: 2026-05-07）

著者: 佐藤傑（さとう・すぐる）
株式会社Uravation代表取締役。早稲田大学法学部在学中に生成AIの可能性に魅了され、X（@SuguruKun_ai）フォロワー約10万人。100社以上の企業向けAI研修・導入支援を展開。著書『AIエージェント仕事術』（SBクリエイティブ）。SoftBank IT連載7回執筆（NewsPicks最大1,125ピックス）。

ご質問・ご相談はお問い合わせフォームからお気軽にどうぞ。

この記事を書いた人佐藤傑

株式会社Uravation代表取締役。早稲田大学法学部在学中に生成AIの可能性に魅了され、X（旧Twitter）で活用法を発信（@SuguruKun_ai、フォロワー10万人超）。100社以上の企業向けAI研修・導入支援を展開。著書累計3万部突破。SoftBank IT連載7回執筆（NewsPicks最大1,125ピックス）。

@SuguruKun_ai SoftBank IT連載詳しいプロフィール

media AI活用の最前線

【2026年最新】AIエージェント観測・評価完全ガイド｜運用基盤

まず5分で動かす: LangfuseでAIエージェントをトレース

セットアップ（5分）

最小構成のトレース付きエージェント

「観測」と「評価」の違い: 役割を分けて設計する

観測が必要な理由

評価が必要な理由

観測ツール4強比較: LangSmith / Langfuse / Helicone / Arize Phoenix

LangSmithの選び方

Heliconeの選び方

Arize Phoenixの選び方

OpenTelemetry標準: ベンダーロックインを避ける

評価フレームワーク3強比較: RAGAS / DeepEval / TruLens

RAGASによるRAG評価の実装例

DeepEvalによるCI/CD評価の実装例

Golden Dataset 50問の作り方

50問あれば十分

Golden Dataset作成の3ステップ

Golden Datasetの観点別バランス

LLM-as-judge: 評価スコアを自動計算する

LLM-as-judgeの精度を上げる3つのコツ

CI/CDで自動評価パイプラインを回す

GitHub Actionsでの実装例

主要AIエージェントプラットフォームの観測対応

【要注意】よくある失敗パターン4選と回避策

失敗1: 観測ツールでコストが爆発する

失敗2: トレース欠損で重要な障害を見逃す

失敗3: LLM judgeが「なんでも肯定」になる

失敗4: 規制対象データを誤って観測ツールに送信する

30-60-90日観測・評価ロードマップ

0-30日: クイックスタート

31-60日: 評価の本格化

61-90日: 横断観測 + ドリフト検知

まとめ：今日から始める3つのアクション

参考・出典

よく読まれている記事

contact お問い合わせ

media AI活用の最前線

【2026年最新】AIエージェント観測・評価完全ガイド｜運用基盤

まず5分で動かす: LangfuseでAIエージェントをトレース

セットアップ（5分）

最小構成のトレース付きエージェント

「観測」と「評価」の違い: 役割を分けて設計する

観測が必要な理由

評価が必要な理由

観測ツール4強比較: LangSmith / Langfuse / Helicone / Arize Phoenix

LangSmithの選び方

Heliconeの選び方

Arize Phoenixの選び方

OpenTelemetry標準: ベンダーロックインを避ける

評価フレームワーク3強比較: RAGAS / DeepEval / TruLens

RAGASによるRAG評価の実装例

DeepEvalによるCI/CD評価の実装例

Golden Dataset 50問の作り方

50問あれば十分

Golden Dataset作成の3ステップ

Golden Datasetの観点別バランス

LLM-as-judge: 評価スコアを自動計算する

LLM-as-judgeの精度を上げる3つのコツ

CI/CDで自動評価パイプラインを回す

GitHub Actionsでの実装例

主要AIエージェントプラットフォームの観測対応

【要注意】よくある失敗パターン4選と回避策

失敗1: 観測ツールでコストが爆発する

失敗2: トレース欠損で重要な障害を見逃す

失敗3: LLM judgeが「なんでも肯定」になる

失敗4: 規制対象データを誤って観測ツールに送信する

30-60-90日 観測・評価ロードマップ

0-30日: クイックスタート

31-60日: 評価の本格化

61-90日: 横断観測 + ドリフト検知

まとめ：今日から始める3つのアクション

参考・出典

関連サービス

生成AI研修

AI顧問

AI受託開発

AI×SNS運用支援

AIエージェント導入支援

Claude Code 個別指導

関連記事

【2026年最新】Codex×業務15選｜営業・マーケ・人事・法務

【2026年最新】Codex×Excel自動化プロンプト10選｜VBA代替

【2026年最新】Codex×経理 自動化プロンプト10選｜80%削減

他のカテゴリのおすすめ

【2026年5月速報】GPT-5.5 Instantとは？企業AI運用の次の標準

【2026年最新】製造業AI完全ガイド｜品質管理・予知保全・スマートファクトリー

【2026年最新】営業AI完全ガイド｜商談・提案・案件管理の自動化

よく読まれている記事

contact お問い合わせ

30-60-90日観測・評価ロードマップ

【2026年最新】Codex×経理自動化プロンプト10選｜80%削減