AIエージェントは過大評価されている。
これは炎上狙いの煽りではない。2026年3月最終週、Oracle、Databricks、Alibaba、NVIDIAが相次いでエージェンティックAI基盤を発表した。Microsoft Power PlatformにはCopilotが直接統合され、Sierra AIは自然言語だけでAIエージェントを構築できる「Ghostwriter」をリリースした。ベンダー各社は「AIエージェントが業務を自律的に回す未来」を声高に語っている。
だが、1,573社を対象にしたETR(Enterprise Technology Research)の最新調査を見ると、現実は違う景色を見せる。「AIで持続的にROIを出せている」と答えた企業はわずか13%。華やかなベンダーの発表会と、企業の現場の間には深い溝がある。
100社以上のAI研修・導入支援を通じて、この溝を毎週のように目にしている身として率直に言わせてほしい。問題はAIエージェントの技術そのものではない。企業がそれを受け入れる「土壌」がまだ整っていないことの方が圧倒的に深刻だ。
この記事では、最新の調査データ3本を突き合わせて、エージェンティックAIの「熱狂」と「現実」のギャップを3つの視点から読み解く。
ベンダーは3回表、企業はまだ1回表
SiliconAngleのBreaking Analysisが秀逸な比喩を使っている。テック業界はAIの波の「3回表(third inning)」にいるが、企業はまだ「1回表(first inning)」だと。
ベンダー側の進化は凄まじい。DeepMindの研究成果に始まり、2022年末のChatGPT、2024年のClaude 3、2025年のエージェンティックAI——と、ほぼ年単位でパラダイムが更新されている。2026年3月だけでも、Oracle AI Database、Databricks Lakewatch、Microsoft Copilot in Power Apps、Alibaba Accio Work、NVIDIA Nemotron 3 Superと、主要ベンダーが一斉にエージェント基盤を発表した。
一方で、ETRの調査データ(N=1,573、2026年3月公開)が示す企業の実態はこうだ。
| AI導入の段階 | 自社開発 | ベンダー製品 |
|---|---|---|
| 導入なし・トラクションなし | 約20% | 約15% |
| 導入したがROI未達 | 約30% | 約25% |
| パイロット・限定利用でROIあり | 約33% | 約39% |
| スケールで持続的ROI | 約13% | 約13% |
自社開発でもベンダー製品でも、スケールでROIを出せているのは13%前後。残りの87%は「パイロット止まり」「まだ始めたばかり」「やってみたけど成果が出ない」のどれかに分類される。
IT予算は期待と裏腹に縮小傾向
さらに深刻なのはIT予算の動きだ。ETRの四半期調査(N=1,543)によると、2026年1月には4.6%成長の見通しだった企業のIT支出期待値が、3月には3.6%まで後退している。わずか2ヶ月で1ポイントの下落。中東情勢の緊迫化、原油価格の上昇、インフレ懸念、利上げの可能性——地政学リスクが高まるたびにIT予算は真っ先に絞られる構造が、COVIDの頃から繰り返されている。
NVIDIAのジェンスン・フアンCEOは「ROIにこだわるな、イノベーションを解放しろ」と言う。だが、企業の現場では予算の不確実性の中で「確実に成果が出るもの」しか承認されない。正直に言うと、この状況で「エージェンティックAI元年」というベンダーのメッセージは、多くの企業にとって現実離れしている。
研修先の企業でもこの傾向は如実だ。「来期のAI予算、半分に削られました」「PoC2つ走らせてたけど1つ凍結です」——こういう相談が2026年に入ってから確実に増えている。
AIエージェントの基本概念や段階的な導入ステップについては、AIエージェント導入完全ガイドで体系的にまとめている。これからAIエージェントに取り組む方は、まずそちらを読んでから本記事の分析に戻ることをおすすめする。
81%が「バラバラAI」のまま進めない構造的理由
「AIは導入した。でも成果が出ない」——この悩みの根っこには、個々のツールの性能とは別の構造的な問題がある。
Typewiseが2026年3月に公開した「2026 Agentic AI Index」の数字が象徴的だ。カスタマーサービスチームの81%は、AIを「バラバラの単体ツール」として運用しており、統合されたシステムとして機能していない。米国・英国・ドイツの207名のカスタマーサービスエージェントを対象にした調査だが、日本でもまったく同じ状況を研修現場で何度も見てきた。
もう少し具体的に数字を見てみよう。
- 72%が「AIは効率を改善する」と回答しているのに、「AIが実際に自分の時間と労力を減らしている」と感じているのは42%だけ
- 約50%のエージェントが日常的にAIのミスを修正しており、そのうち10%は顧客からの指摘で初めてAIのエラーに気づいている
- 複数のAIシステムが「明確に連携している」と感じているのはわずか5人に1人(約20%)
- AI支援ワークフローにおける顧客対応の「オーナーシップ」が曖昧だと感じているのは約20%
要するに、AIツールは増えたが、それぞれがサイロ化して動いている。チャットボットはチャットボット、文書生成は文書生成、データ分析はデータ分析。それぞれに別のUIがあり、別のログインがあり、別のデータパイプラインが流れている。人間がその間に立って「翻訳者」を務めている状態だ。
これは「AIエージェント」と呼べる状態ではない。ただの「AIツールの寄せ集め」であり、Typewiseが指摘するように、多くの組織にはAIオーケストレーション層、ヒューマン・イン・ザ・ループのフィードバック設計、そしてリクエストの種類に応じたエージェントの専門化が欠けている。
「Day Two」の壁——ローンチ後が本当の勝負だ
CIO.comの最近の記事が、この問題のもう一つの側面を鋭く突いている。「Day Two」——つまりAIを導入した翌日からが本当の戦いだという指摘だ。
多くの企業はAIモデルのデプロイを「ゴール」だと考えている。プレスリリースを出し、ダッシュボードが光り、取締役会で「AI導入完了」を報告する。だが実際には、そこからが始まりだ。
データドリフト——顧客の行動パターンが季節や景気で変化し、学習時のデータが現実を反映しなくなる。コンセプトドリフト——たとえば不正検知モデルの場合、犯罪者の手口が進化すると過去のパターンがまるで使えなくなる。ラベルドリフト——業務プロセスの変更でアノテーションの基準が変わり、モデルの判断基準がズレる。
これらのドリフトを放置したAIモデルは静かに劣化する。精度が下がり、予測が外れ、バイアスが拡大し、最終的には「なんかAI使えないよね」という評価になって棚上げされる。銀行、保険、医療などの規制業種では、コンプライアンス違反や財務損失、レピュテーションダメージに直結するリスクだ。
そして再学習(リトレーニング)のコストは馬鹿にならない。計算リソース、データラベリング、ダウンタイム、人的監視——すべてが積み上がる。頻繁すぎる再学習はリソースの無駄になり、遅すぎる再学習はモデルの陳腐化を招く。このバランスを見極めるには、ROIベースのフレームワークと、ドリフト検知に基づく自動トリガーの設計が不可欠になる。
AIプロジェクトの多くが失敗するのは、モデルの設計が悪いからではない。デプロイ後の運用体制——監視、ドリフト検知、再学習、ガバナンス——が設計されていないからだ。Day Oneの華やかさに目を奪われ、Day Twoの泥臭い運用設計が後回しにされている。
パイロットから本番化への移行で企業がつまずくパターンは、AIパイロットの75%が本番化できない理由|3,235社調査の処方箋の記事でDeloitteとSalesforceの調査データをもとに詳しく分析している。
欠けているのは「認知サーフェス」という中間層
では、ベンダーの理想と企業の現実の間にあるギャップを埋めるには、何が必要なのか。
SiliconAngleの分析が興味深い4層フレームワークを提示している。企業のAIスタックを以下のように整理するモデルだ。
| 層 | 役割 | 主なプレイヤー |
|---|---|---|
| フロンティアモデル層 | トークンを生成する「AIファクトリー」。最先端ハードウェアで稼働 | OpenAI、Anthropic、Google、xAI |
| 認知サーフェス層 | 意図の解釈、文脈の組立、ポリシー適用、コンプライアンスチェック、監査証跡、既存システム統合 | ❓(ここが空白地帯) |
| トランザクション基盤層 | SoR(記録システム)。状態保持、SLA保証、トランザクション実行 | SAP、Oracle、Salesforce |
| エッジ層 | センシング、物理的実行。接続が切れても局所的に自律動作 | IoTデバイス、小型言語モデル |
最上位のフロンティアモデル層は、OpenAI・Anthropic・Google・xAIが猛スピードで進化させている。最下位のトランザクション基盤層は、SAP・Oracle・Salesforceが何十年もかけて盤石に築いてきた。エッジ層も、テスラやNVIDIAの推進でじわじわと形になりつつある。
問題は真ん中の「認知サーフェス(Cognitive Surface)層」がまだほとんど存在しないことだ。
この層が担うべき機能は極めて重い。フロンティアモデルの出力を受け取り、企業固有のセキュリティポリシーを適用し、業界規制に照らしてコンプライアンスをチェックし、全ての判断に監査証跡を残し、レイテンシーを制御しながら既存の業務システムと統合して、最終的にビジネスアクションに変換する。いわば「賢いモデル」を「規制された企業の中で安全に動くシステム」に変える翻訳層だ。
この認知サーフェスが未成熟だから、エージェンティックAIが「PoC止まり」になる。モデルの性能がどれだけ上がっても、それを企業のワークフローに安全かつ監査可能な形で組み込む仕組みがなければ、本番稼働には進めない。ETRのデータで87%がスケールROIに至れない構造的な原因は、ここにある。
ベンダー各社の「認知サーフェス」争奪戦
Microsoft、Oracle、Databricks、そしてGoogleが今まさに競って構築しようとしているのが、この認知サーフェス層だ。
- Microsoft Copilot Studio + Agent 365:2026年5月リリース予定。エージェントの発見・制御・ガバナンスの統合管理基盤
- Oracle AI Database:AIエージェントがリアルタイムの企業データに安全にアクセスするための基盤。「AIの未来はエージェントがデータとどう対話するかで決まる」と主張
- Databricks Lakewatch:データレイクハウスとAIエージェントの接続を自動化するプラットフォーム
- Google Agentspace:企業内のデータソースを横断してAIエージェントを動作させる基盤
名前は違うが、狙っている場所は同じだ。そして注意すべきは、この層でのスイッチングコストは極めて高くなるということ。セキュリティポリシー、セマンティクスの定義、ツール統合のカスタマイズ——これらがプラットフォームに組み込まれると、後から別のベンダーに乗り換えるのは非常に困難になる。
これは5年先の競争力を左右する選択だ。AIエージェントのガバナンス問題の深刻さについては、AIエージェントの半数は「無監視」で動いているの記事で5つの調査データを横断分析している。
日本企業が今すぐ確認すべき3つのこと
ここまでの分析を踏まえて、日本企業が特に注意すべきポイントを整理する。
1. 自社のAIは「統合」されているか、それとも「寄せ集め」か——棚卸しから始める
社内でChatGPT、Claude、Copilot、Geminiなど複数のAIツールを使っている企業は増えた。だが、それらは連携しているだろうか。データは共有されているか。同じセキュリティポリシーが適用されているか。利用ログは一元管理されているか。
Typewiseのデータが示すとおり、81%の組織がAIをバラバラに使っている。まずは現状の棚卸しから始めるべきだ。社内で使われているAIツールを全てリストアップし、データフロー・権限管理・コスト構造を可視化する。これだけで「うちのAIは実は統合されていない」ことが明確になるはずだ。
2. 「Day Two」の運用設計書を作る——デプロイして終わりにしない
AIモデルやエージェントをデプロイしたら終わりではない。以下の項目について、運用設計書が存在するか確認してほしい。
- ドリフト監視:入力データの統計的性質や、モデル出力の分布をリアルタイムで監視する仕組みがあるか
- 再学習トリガー:精度がX%以下に下がった場合、またはデータドリフトがY閾値を超えた場合に自動的に再学習を開始する設計になっているか
- コスト管理:再学習1回あたりのコスト(計算リソース+人件費+ダウンタイム)を見積もり、ROIベースで再学習の妥当性を判断できるか
- エスカレーションパス:AIが異常な出力をした場合、誰が判断し、どう対応するかが明文化されているか
これらが「未定義」の企業は、半年以内にAIプロジェクトが静かに棚上げされるリスクが高い。四半期ごとの手動監査では追いつかない。自動化された監視と、ROIに紐づいた再学習の仕組みが必要だ。
3. 認知サーフェスのベンダーロックインに注意する
Microsoft、Oracle、Google、Databricksが競って「認知サーフェス層」を構築している今、どのプラットフォームに乗るかは向こう5年の技術戦略を左右する。一度ポリシーやワークフローを特定のプラットフォームに組み込むと、乗り換えは極めて困難になる。
安易に「全社Copilot導入」「Oracle AIに一本化」と決める前に、以下を検討すべきだ。
- 複数ベンダーの認知サーフェスを比較評価する(Copilot Studio vs Agentspace vs Lakewatch)
- マルチベンダー戦略の実現可能性を検証する(MCP等のオープン標準の活用)
- データ主権と規制要件に基づいてオンプレミス/クラウドの配置を設計する
- 契約条件(スイッチングコスト、データポータビリティ、API互換性)を事前に交渉する
この判断を「IT部門に任せる」だけでは足りない。経営判断として、取締役レベルで議論すべきテーマだ。
私の結論——過大評価されているのは技術ではなく「今すぐ感」
AIエージェントという技術そのものが過大評価されているとは思わない。正確に言えば、「今すぐ全企業がエージェンティックAIを全面導入すべきだ」という切迫感が過大評価されている。
ETRのデータが突きつける現実は明確だ。87%の企業はまだスケールでROIを出せていない。Typewiseの調査は、81%の組織がAIを統合されたシステムではなくバラバラのツールとして使っていることを示している。CIO.comが指摘するように、多くの企業は「Day Two」の運用設計すらできていない。
ベンダーが語る「エージェンティックAI」のビジョンそのものは、正しい方向を向いている。AIが自律的に多段階のタスクをこなし、人間は判断と監督に集中する——その未来は確実に来る。SiliconAngleが提示する4層モデルの「認知サーフェス」が成熟すれば、企業のAI活用は一気に加速するだろう。
だが、そこに至るまでの道筋は、華やかなデモや資金調達ニュースの裏にある地味な運用設計にかかっている。ドリフト監視、再学習の自動化、ガバナンスの整備、データパイプラインの統合——こういった「Day Two」の仕事こそが、13%の「成功企業」と87%の「パイロット止まり企業」を分けている。
100社以上の研修を通じて確信していることがある。AIで成果を出す企業と出せない企業の差は、使っているモデルの性能ではない。GPT-5を使っていようがClaude 4を使っていようが、「デプロイした後に何をするか」の設計ができているかどうかで結果は決まる。
まだDay Oneにも立っていない企業は、焦ってエージェンティックAIに飛びつく必要はない。まずは今使っているAIツールの棚卸し、データ基盤の整備、そして運用設計書の作成から始めればいい。地味だが、この「土壌づくり」こそが最もレバレッジの高い投資だ。
逆に言えば、今のうちに土壌を整えない企業は、認知サーフェスが成熟した時点で完全に取り残される。その時間軸は、筆者の見立てではあと12〜18ヶ月。今動き始めれば、まだ間に合う。
参考・出典
- The agentic AI gap: Vendors sprint, enterprises crawl — SiliconAngle / Breaking Analysis(参照日: 2026-03-29)
- Typewise’s 2026 Agentic AI Index Finds 81% of Customer Service Teams Still Operating AI as Disconnected Tools — PR Newswire / Typewise(参照日: 2026-03-29)
- Day Two in enterprise AI: Why operations, drift, and retraining matter more than launch — CIO.com(参照日: 2026-03-29)
- AI Investment Is Up. Is the ROI Following? — Enterprise Technology Research(参照日: 2026-03-29)
- The Secret to Scaling AI Agents in the Enterprise: Day Two Matters — Endava(参照日: 2026-03-29)
- Oracle Unveils AI Database Agentic Innovations for Business Data — Oracle Newsroom(参照日: 2026-03-29)
著者: 佐藤傑(さとう・すぐる)
株式会社Uravation代表取締役。X(@SuguruKun_ai)フォロワー10万人超。
100社以上の企業向けAI研修・導入支援を展開。著書累計3万部突破。
SoftBank IT連載7回執筆(NewsPicks最大1,125ピックス)。
ご質問・ご相談は お問い合わせフォーム からお気軽にどうぞ。


