コンテンツへスキップ

media AI活用の最前線

ツール比較・実践ガイド 27分で読めます

【2026年最新】AIエージェント観測・評価完全ガイド|運用基盤

結論: 2026年のAIエージェント本番運用は「観測(Observability)」と「評価(Evaluation)」を分けて設計するのが標準です。観測はLangSmith・Langfuse・Helicone・Arize Phoenixの4強から1つ選び、評価はRAGAS・DeepEvalで「Golden Dataset 50問 + LLM-as-judge」を回します。LangSmithはオーバーヘッド実質ゼロでLangGraph純正、Langfuseは19K star OSSでself-host可、Heliconeは1行URL変更で$25/月固定、Arize PhoenixはML厳格な統計検定が強み。Claude Code・ChatGPT・Cursor・OpenAI Agents SDKすべてOpenTelemetry互換なので、選んだプラットフォームを横断的に使えます。

この記事の要点:

  • 「観測」と「評価」の役割分担: トレース vs スコアリングの違い
  • LangSmith / Langfuse / Helicone / Arize Phoenix の4強比較表(料金・OSS/SaaS・オーバーヘッド)
  • RAGAS / DeepEval / TruLens の評価フレームワーク比較とLLM-as-judge設計
  • Golden Dataset 50問の作り方と、CI/CDでの自動評価パイプライン構築
  • OpenTelemetry標準でClaude Agent SDK・LangGraph・OpenAI Agents SDKを横断的にトレース
  • 本番運用の落とし穴4選(コスト爆発・トレース欠損・LLM judge偏向・規制対応)

対象読者: AIエージェントを本番運用しているMLエンジニア・DevOpsエンジニア/品質保証を担当するQA・PM/LLMアプリケーションのコスト最適化を任されているエンジニアリングマネージャー/AIシステムの監査ログ・SLA運用を社内で整備中の情報システム責任者

「AIエージェントを本番デプロイしたんですが、どこで何が起きてるか全然わからないんです…」

先日、ある顧問先(従業員300名のSaaS企業)のCTOから相談を受けました。Claude Codeで顧客対応チャットを作って3週間経った頃、突然AIの回答品質が落ちたというクレームが営業から来た。でもログを見ても、どのプロンプトで、どのツールが、どのモデルバージョンで、どんな回答をしたのか追えなかったんです。結局、原因特定だけで2日かかり、その間ユーザー対応の品質はガタ落ちでした。

この経験から気づいたのは、「2026年のAIエージェント本番運用では、観測(Observability)と評価(Evaluation)を最初から組み込まないと、3週間後に必ず破綻する」ということです。100社以上の研修・顧問先で見てきた感覚として、観測ツール(LangSmith等)と評価フレームワーク(RAGAS等)を入れているチームは、入れていないチームと比べて品質低下の検知速度が10〜30倍違います。

この記事では、LangSmith・Langfuse・Helicone・Arize Phoenix・RAGAS・DeepEvalなど主要プラットフォームを実装コード付きで解説します。観測と評価の役割分担、Golden Dataset作成の実務テンプレート、CI/CDで自動評価を回すパイプライン設計まで、稟議資料そのままで使える形でまとめました。

まず5分で動かす: LangfuseでAIエージェントをトレース

AIエージェントの全体像については、AIエージェント導入完全ガイドで体系的にまとめています。本記事では観測・評価に絞って深掘りします。まずは無料枠で動くLangfuseから始めます。

セットアップ(5分)

# 1. Langfuse Cloud 無料登録 (https://cloud.langfuse.com)
#    → Public Key と Secret Key を取得(無料tier 50K events/月)

# 2. Python SDKインストール
pip install langfuse openai

# 3. 環境変数設定
export LANGFUSE_PUBLIC_KEY="pk-lf-xxxxxxxx"
export LANGFUSE_SECRET_KEY="sk-lf-xxxxxxxx"
export LANGFUSE_HOST="https://cloud.langfuse.com"

最小構成のトレース付きエージェント

# trace_agent.py
from langfuse.openai import openai  # 通常のopenaiライブラリの代わり
from langfuse import observe

@observe()
def customer_support_agent(question: str) -> str:
    """カスタマーサポートエージェント(自動トレース)"""
    response = openai.chat.completions.create(
        model="gpt-5-mini",
        messages=[
            {"role": "system", "content": "あなたはサポート担当です。"},
            {"role": "user", "content": question}
        ]
    )
    return response.choices[0].message.content

# 実行
result = customer_support_agent("解約方法を教えてください")
print(result)
# → Langfuse Cloud で全トレース確認可能:プロンプト・レスポンス・トークン数・コスト・レイテンシ

これだけで、各リクエストのプロンプト・レスポンス・モデル・トークン数・コスト・レイテンシがLangfuseのダッシュボードに自動記録されます。@observe()デコレータをつけるだけで、ネストした関数呼び出しも階層的にトレースされます。

研修先での実例: 上記の最小構成を顧問先のCTOに見せたところ、「観測を入れる工数が3行で済むなら、なぜ最初から入れなかったのか」と本人が悔しがっていました。デプロイ済みのAIエージェントに後付けでobserveデコレータを足すだけで、当日中に過去3週間分の品質劣化原因(特定モデルの出力長短縮)を特定できました。

「観測」と「評価」の違い: 役割を分けて設計する

2026年のベストプラクティスは、観測(Observability)と評価(Evaluation)を別の役割として設計することです。両者を混同するとツール選定で迷い、運用が複雑化します。

観点観測 (Observability)評価 (Evaluation)
目的本番で何が起きたかを可視化出力品質をスコア化して改善
タイミング本番リクエストごとリアルタイム開発時 + CI/CD + 定期バッチ
主な指標レイテンシ・コスト・エラー率・トレース精度・関連性・忠実性・幻覚率
主要ツールLangSmith / Langfuse / Helicone / Arize PhoenixRAGAS / DeepEval / TruLens
ストレージ時系列ログ(数週間〜数年)Golden Dataset(バージョン管理)

観測が必要な理由

本番AIエージェントは「何が起きたか」が見えないと、問題が起きた時の原因特定が不可能です。LangGraphのような状態機械型エージェントは特に複雑で、どのノードでエラーが起きたか・どのツール呼び出しが遅かったかを階層的に可視化できないと運用できません。

評価が必要な理由

「動いている」ことと「品質が高い」ことは別物です。AIエージェントの回答が、本来期待される回答からどれだけズレているかを数値化する仕組みが必要です。これがGolden Dataset + LLM-as-judgeのアプローチです。

AI活用、何から始めればいい?

100社以上の研修実績をもとに、30分の無料相談で貴社の課題を整理します。

無料相談はこちら 資料ダウンロード(無料)

観測ツール4強比較: LangSmith / Langfuse / Helicone / Arize Phoenix

観測ツールは2026年に多くの選択肢がありますが、エンタープライズ運用に耐える4つに絞って比較します。

ツール提供形態価格強み弱み
LangSmithSaaS(LangChain)無料tier + 有料プランLangChain・LangGraph純正、ノード単位のstate diff、ほぼ0%オーバーヘッドLangChain依存、他フレームワークでは価値減
LangfuseOSS(MIT, 19K stars)+ SaaS無料tier 50K events/月、self-host無料self-host可、最大OSSコミュニティ、評価機能も内蔵計装オーバーヘッド15%、自前運用要
HeliconeSaaSプロキシ$25/月flat(無制限)1行のURL変更だけ、コスト固定、キャッシュ機能API callレベルのみ、深いトレース不可
Arize PhoenixOSS(Apache 2.0)+ SaaSOSS無料、SaaS有料ML厳格な統計検定、ドリフト検知、Embedding可視化セットアップやや複雑、UIが技術的

LangSmithの選び方

LangChain・LangGraphベースで開発しているチームは、LangSmithが圧倒的に強いです。各ノードで状態がどう変化したか、どのツールが呼ばれたか、リプレイで別モデルバージョンと比較できる、など他ツールにない機能が揃っています。オーバーヘッドも実質ゼロ(ベンチマーク測定)。

# LangSmith + LangGraph
import os
os.environ["LANGSMITH_TRACING"] = "true"
os.environ["LANGSMITH_API_KEY"] = "lsv2_pt_xxxxxxxx"
os.environ["LANGSMITH_PROJECT"] = "my-agent-prod"

# あとはLangGraphで普通に書くだけ。全自動トレースされる
from langgraph.graph import StateGraph, MessagesState

graph = StateGraph(MessagesState)
graph.add_node("agent", agent_node)
graph.add_node("tools", tools_node)
# ...

app = graph.compile()
result = app.invoke({"messages": [{"role": "user", "content": "..."}]})
# → LangSmith上にノード単位の詳細トレースが自動記録される

Heliconeの選び方

「OpenAI APIを使っていて、最小工数で観測を入れたい」場合、Heliconeが最速です。base_urlを1箇所変えるだけで、SDKの変更は一切不要。料金が$25/月固定で予測可能なのも経費承認しやすいポイントです。

# Helicone — 1行のURL変更だけ
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["OPENAI_API_KEY"],
    base_url="https://oai.helicone.ai/v1",  # ← これだけ
    default_headers={"Helicone-Auth": f"Bearer {os.environ['HELICONE_API_KEY']}"}
)

# 通常通り使う。Heliconeダッシュボードに全リクエストが自動記録
response = client.chat.completions.create(
    model="gpt-5-mini",
    messages=[{"role": "user", "content": "..."}]
)

Arize Phoenixの選び方

機械学習チーム出身者が多い組織や、統計的厳密性を求める規制対象業種(金融・医療)はArize Phoenixが向いています。ドリフト検知(モデル出力分布の経時変化)、Embedding空間の可視化、A/Bテストの統計検定など、MLOpsの強い知見が前提の機能が揃っています。

OpenTelemetry標準: ベンダーロックインを避ける

2026年の重要トレンドとして、OpenTelemetry(OTel)が観測の業界標準になりつつあります。LangSmith・Langfuse・Arize Phoenix・Datadog LLM すべてがOTelに対応しており、計装コードを一度書けばツールを後から差し替えられます。

# OpenTelemetryで計装(プラットフォーム非依存)
from opentelemetry import trace
from opentelemetry.exporter.otlp.proto.grpc.trace_exporter import OTLPSpanExporter
from opentelemetry.sdk.trace import TracerProvider
from opentelemetry.sdk.trace.export import BatchSpanProcessor

# Langfuseに送る場合
exporter = OTLPSpanExporter(
    endpoint="https://cloud.langfuse.com/api/public/otel",
    headers={"Authorization": f"Basic {LANGFUSE_BASIC_AUTH}"}
)

# Arize Phoenixに切り替えたい場合 → endpoint変更だけでOK
# exporter = OTLPSpanExporter(endpoint="https://app.phoenix.arize.com/v1/traces")

provider = TracerProvider()
provider.add_span_processor(BatchSpanProcessor(exporter))
trace.set_tracer_provider(provider)

tracer = trace.get_tracer(__name__)

@tracer.start_as_current_span("agent.chat")
def agent_chat(message: str):
    span = trace.get_current_span()
    span.set_attribute("agent.user_message", message)
    response = call_llm(message)
    span.set_attribute("agent.response_length", len(response))
    return response

このパターンなら、初期はLangfuse、本番運用が成熟したらDatadog LLM Observabilityに移行、というベンダー切り替えがコード変更ほぼゼロで実現できます。Claude Agent SDKOpenAI Agents SDKもOTel対応済みで、横断的にトレースを集約できます。

評価フレームワーク3強比較: RAGAS / DeepEval / TruLens

評価(Evaluation)はAIエージェントの「品質を数値化する」仕組みです。RAG(検索拡張生成)特化と一般エージェント評価で使い分けます。

フレームワーク得意領域主要メトリクスCI/CD統合特徴
RAGASRAG特化Faithfulness・Context Precision・Context Recall・Answer RelevancyありGround truth不要で動く、軽量
DeepEval汎用LLM + RAG14種類の標準メトリクス + カスタム可能Pytest nativeGoldenデータセット自動生成機能つき
TruLensRAG + 一般エージェントHonest・Harmless・Helpful(3H)+ カスタムSnowflake統合説明可能なAI(Explainable AI)寄りの設計

RAGASによるRAG評価の実装例

# RAGAS — RAGの4メトリクス評価
from ragas import evaluate
from ragas.metrics import faithfulness, answer_relevancy, context_precision, context_recall
from datasets import Dataset

# 評価データセット(5問の例)
data = {
    "question": [
        "Uravationのオフィスはどこにありますか?",
        "AIエージェント研修の料金は?",
        # ...
    ],
    "answer": [
        "東京都文京区です。",
        "標準プランは月額25万円です。",
        # ...
    ],
    "contexts": [
        ["Uravationは東京都文京区本郷6丁目に本社を構える..."],
        ["AI個別指導サービスは月額25万円、グループ研修は別料金..."],
        # ...
    ],
    "ground_truth": [
        "東京都文京区本郷6丁目25番14号",
        "個別指導は月額25万円、グループは要相談",
        # ...
    ],
}

dataset = Dataset.from_dict(data)
results = evaluate(
    dataset=dataset,
    metrics=[faithfulness, answer_relevancy, context_precision, context_recall]
)
print(results)
# → 各メトリクスのスコア(0-1)が返る
# → faithfulness低いなら、検索結果と回答の整合性に問題あり

DeepEvalによるCI/CD評価の実装例

# DeepEval — Pytestネイティブな評価
import pytest
from deepeval import assert_test
from deepeval.metrics import AnswerRelevancyMetric, FaithfulnessMetric
from deepeval.test_case import LLMTestCase

@pytest.mark.parametrize("test_case", [
    LLMTestCase(
        input="解約方法を教えてください",
        actual_output="解約はマイページから...",
        expected_output="マイページの設定 > プラン > 解約手続き",
        retrieval_context=["マイページの設定タブから..."],
    ),
])
def test_customer_support_agent(test_case):
    relevancy = AnswerRelevancyMetric(threshold=0.7)
    faithfulness = FaithfulnessMetric(threshold=0.8)
    assert_test(test_case, [relevancy, faithfulness])

# pytest tests/ で実行 → CIで自動回る
# → 閾値を下回ったらPRをブロック

Golden Dataset 50問の作り方

評価の根幹は「Golden Dataset」です。期待される入出力ペアの集合で、これに対するスコア推移を追うことで品質を定量管理します。

50問あれば十分

業界の経験則として、50問程度の良質なGolden Datasetがあれば、品質変化を統計的に有意な形で検知できます。100問・1000問は不要で、むしろメンテナンスコストが上がるため推奨されません。

Golden Dataset作成の3ステップ

# Step 1: 自動生成(DeepEvalのSynthesizer活用)
from deepeval.synthesizer import Synthesizer

synthesizer = Synthesizer()
goldens = synthesizer.generate_goldens_from_docs(
    document_paths=["docs/customer_support.md", "docs/pricing.md"],
    num_goldens_per_context=5,
    max_contexts_per_document=10,
)
# → 約50問の質問+期待回答+参照コンテキストが自動生成
# Step 2: 人手レビュー(必須)
# 自動生成された50問のうち、明らかに変な質問・想定外の回答を10〜20%手動で修正
# → 「実際にユーザーが聞きそうな質問か」を人間が確認することで品質が劇的に上がる

# Step 3: バージョン管理
# Golden DatasetはGitで管理する
# tests/golden_dataset_v1.json → v2 → v3 と進化させる
# 「v1からv2でAccuracyが72% → 81%に向上」のような追跡が可能になる

Golden Datasetの観点別バランス

50問の構成は以下のようにバランスを取ると、各種品質劣化を検知しやすくなります。

観点問題数狙い
標準的な質問(Happy Path)20問(40%)通常運用での品質基準
エッジケース(複雑・長文)10問(20%)長文処理・複合条件のテスト
誤情報誘導(Adversarial)10問(20%)幻覚・誤情報耐性
否定・拒否すべき質問5問(10%)業務外質問への対応
多言語・特殊文字5問(10%)国際対応・特殊入力耐性

LLM-as-judge: 評価スコアを自動計算する

RAGAS・DeepEval・TruLensすべてが採用するアプローチが「LLM-as-judge」です。GPT-4やClaude Opusなどの強力なLLMを「審判」として使い、生成出力と期待出力の比較スコアを自動算出します。

# LLM-as-judge の基本パターン(DeepEval内部の例)
JUDGE_PROMPT = """
あなたは厳格なAI品質審査員です。
以下の生成回答が、期待回答とどれだけ意味的に一致しているか0〜1で採点してください。

【生成回答】
{actual}

【期待回答】
{expected}

【評価基準】
1.0: 完全一致または同等の意味
0.7: 主要な要素は一致、細部に差
0.4: 部分的一致、重要要素の欠落あり
0.0: 全く異なる、または誤情報

スコア(0〜1の小数)と、その根拠を1行で答えてください。
形式: SCORE=0.X | REASON=...
"""

LLM-as-judgeの精度を上げる3つのコツ

  1. 判事LLMは生成LLMより強力なものを使う: 生成側がgpt-5-miniなら、判事はgpt-5かClaude Opus 4を使う。同等以下のモデルだと甘い採点になる傾向
  2. Few-shot exampleを2-3個入れる: 「こういう回答は0.8、こういう回答は0.3」と例示することで判定の一貫性が上がる
  3. Reasoning(CoT)を出力させる: 「スコアだけ」ではなく「根拠も書け」と指示すると精度が向上する

CI/CDで自動評価パイプラインを回す

本番品質を保つには、Golden Datasetでの評価をCI/CDに組み込むのが標準です。プロンプト変更・モデル切り替え・依存ライブラリ更新のたびに自動でスコアが計算され、品質が劣化したらPRをブロックする仕組みです。

GitHub Actionsでの実装例

# .github/workflows/agent-eval.yml
name: AI Agent Quality Eval

on: [pull_request]

jobs:
  eval:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      - uses: actions/setup-python@v5
        with:
          python-version: "3.12"
      - name: Install
        run: |
          pip install deepeval ragas
      - name: Run evaluations
        env:
          OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }}
          DEEPEVAL_API_KEY: ${{ secrets.DEEPEVAL_API_KEY }}
        run: |
          deepeval test run tests/test_agent_quality.py
      - name: Upload results
        if: always()
        run: |
          deepeval upload-results --tag pr-${{ github.event.number }}

このパイプラインを入れた顧問先では、「プロンプトを少し改善したら別のメトリクスが落ちた」というトレードオフが事前に検出できるようになり、本番事故が劇的に減りました。CIで品質を数値で見える化することの威力は、コードの単体テストと同じです。

主要AIエージェントプラットフォームの観測対応

本記事で解説した観測・評価が、各プラットフォームでどこまで標準サポートされているかを整理します。

プラットフォーム観測評価OpenTelemetry
AWS Bedrock AgentCoreCloudWatch + 専用Observability独自実装対応
Vertex AI Agent BuilderCloud Logging + Vertex AI EvalVertex AI Eval Service対応
Microsoft Copilot StudioApplication InsightsAzure AI Studio Eval対応
Salesforce AgentforceEvent MonitoringEinstein Analytics限定対応
Claude Agent SDK独自 + LangSmith等独自実装 / RAGAS等対応
OpenAI Agents SDKOpenAI Tracing + 独自独自実装 / RAGAS等対応
LangGraphLangSmith純正LangSmith Evaluations対応
AutoGen独自 + OpenTelemetry独自実装対応
CrewAI独自 + AgentOps独自実装対応

選び方の指針: フルマネージド環境ならクラウドネイティブ(CloudWatch / Cloud Logging / App Insights)を最初に使い、横断観測が必要になった段階でLangfuse・LangSmith・Datadog LLMに統合していくのが定石です。

【要注意】よくある失敗パターン4選と回避策

失敗1: 観測ツールでコストが爆発する

❌ NG例: 全プロンプト・全レスポンスを永続保存し、検索インデックスを全張る

⭕ 正しいアプローチ: 詳細トレースは7〜30日、サンプリングログは90日〜365日、というように階層的に保存。Heliconeのキャッシュ機能を使えばOpenAI APIコスト自体を30〜50%削減できる場合もあります。

顧問先の実例: ある企業でLangfuseの自前ホスティングを始めた当初、PostgreSQLの容量が3週間で250GBを超え、月額DB費用が15万円を超えました。「7日詳細 / 30日サマリ / 365日件数のみ」という階層的保存に切り替えた後は3GB/月程度に収まり、コストが20分の1になりました。

失敗2: トレース欠損で重要な障害を見逃す

❌ NG例: トレースを「Best effort」設定にして、サーバー高負荷時にトレース送信失敗を許容する

⭕ 正しいアプローチ: 重要操作(金銭・個人情報・契約系)のトレースは「Required」設定にし、送信失敗時はリクエスト自体を失敗させる。コスト的に重い場合はサンプリング率を下げ、重要操作だけ100%トレースする方針が安全です。

失敗3: LLM judgeが「なんでも肯定」になる

❌ NG例: gpt-5-miniを判事として使い、自分が出した回答を採点させる(甘くなる)

⭕ 正しいアプローチ: 判事は生成LLMより1段階以上強力なモデルを使う(gpt-5-miniならgpt-5、Claude HaikuならClaude Sonnet)。可能なら2つのモデルで判定し、不一致時のみ人間レビューに回すパターンが精度・コストのバランス最良です。

失敗4: 規制対象データを誤って観測ツールに送信する

❌ NG例: PII・個人情報・医療データを含むプロンプトをそのままLangfuse Cloudに送信

⭕ 正しいアプローチ: 観測ツール送信前にPIIマスキングを必ず適用。Lakera GuardやAWS ComprehendのPII Detectionを前段に置く。規制業種(金融・医療)はLangfuse Self-host・Arize Phoenix Self-hostでデータを社内に留める設計が標準です。AIエージェントセキュリティ全般はAIエージェントセキュリティ完全ガイドで解説しています。

30-60-90日 観測・評価ロードマップ

0-30日: クイックスタート

  1. Langfuse Cloud or Helicone を無料tierで導入(観測の最短ルート)
  2. 1つの主要AIエージェントに@observeデコレータ or base_url変更だけ適用
  3. 1週間運用してダッシュボードを社内に共有
  4. Golden Dataset 20問を手動作成(最頻出の質問パターン)
  5. RAGAS or DeepEvalで初回評価実行

31-60日: 評価の本格化

  1. Golden Datasetを50問に拡張(DeepEval Synthesizer活用)
  2. CI/CDにdeepeval test runを組み込み、PRごとに自動評価
  3. 閾値を下回ったらPRをブロックする運用を開始
  4. LLM judgeのモデルを生成側より強いものに固定
  5. 観測ダッシュボードのアラート設定(レイテンシ・エラー率)

61-90日: 横断観測 + ドリフト検知

  1. OpenTelemetry標準でツール非依存の計装に移行
  2. 本番ログから「実際のユーザー質問」をGolden Datasetに追加(A/Bテスト用)
  3. Arize Phoenix or Datadog LLMでドリフト検知を導入
  4. 四半期ごとのGolden Dataset棚卸しと品質サミット運用開始
  5. SLA / SLO / Error Budgetを定義し、本番運用基準を文書化

まとめ:今日から始める3つのアクション

AIエージェントの本番運用は「観測」と「評価」の2軸で守るのが2026年の標準です。観測ツールはLangSmith・Langfuse・Helicone・Arize Phoenixの4強から1つ選び、評価フレームワークはRAGAS・DeepEval・TruLensから1つ選ぶ、というシンプルな選定で十分始められます。今日から試せる順番を整理します。

  1. 今日やること: Langfuse Cloud に無料登録(50K events/月)→ pip install langfuse して、稼働中のAIエージェントに @observe() デコレータを1行追加。10分でダッシュボードに本番トレースが流れ始めます。
  2. 今週中: 主要な利用シーンから20問のGolden Datasetを作成し、DeepEvalで初回評価を実行。「現在の品質スコア」を数値化することが、改善のスタート地点です。
  3. 今月中: Golden Datasetを50問に拡張し、GitHub Actionsで deepeval test run を自動実行する。PRごとに品質スコアが計算される運用に持っていけば、プロンプト改善の影響を客観的に追えるようになります。

📅 5月開催|Uravation主催 Zoomウェビナー

講師: 株式会社Uravation代表 佐藤傑(X @SuguruKun_ai) / Yusei Tataka


あわせて読みたい:


参考・出典


著者: 佐藤傑(さとう・すぐる)
株式会社Uravation代表取締役。早稲田大学法学部在学中に生成AIの可能性に魅了され、X(@SuguruKun_ai)フォロワー約10万人。100社以上の企業向けAI研修・導入支援を展開。著書『AIエージェント仕事術』(SBクリエイティブ)。SoftBank IT連載7回執筆(NewsPicks最大1,125ピックス)。

ご質問・ご相談は お問い合わせフォーム からお気軽にどうぞ。

佐藤傑
この記事を書いた人 佐藤傑

株式会社Uravation代表取締役。早稲田大学法学部在学中に生成AIの可能性に魅了され、X(旧Twitter)で活用法を発信(@SuguruKun_ai、フォロワー10万人超)。100社以上の企業向けAI研修・導入支援を展開。著書累計3万部突破。SoftBank IT連載7回執筆(NewsPicks最大1,125ピックス)。

この記事をシェア

📧 週1回、AIツール最新情報をお届け

Claude Code・Codex・Cursorなど最新AI実務情報を、月8-12本の厳選記事から要約してメール配信。すでに3,000人以上のAI担当者が購読中です。

※ いつでも登録解除できます。配信頻度は週1〜2回程度。

AIエージェントを企業に安全に導入したい方へ

Claude Code・OpenClaw・Codex等のAIエージェントを、ガバナンス設計込みで導入支援。権限制御・監査ログ・停止条件まで含めた「ハーネス設計」で運用リスクをゼロに。

✓ 1対1のマンツーマン ✓ 全12回・3ヶ月 ✓ 実務ベースの指導
AIエージェント導入支援を見る まずは無料相談

contact お問い合わせ

生成AI研修や開発のご依頼、お見積りなど、
お気軽にご相談ください。

Claude Code 個別指導(1対1・12セッション)をご希望の方はこちらから別途お申し込みください

Claude Code 個別指導 無料相談