結論: Claude Opus 4.7は2026年4月16日GA。SWE-bench Verified 87.6%・SWE-bench Pro 64.3%・CursorBench 70%でGPT-5.4とGemini 3.1 Proを主要ベンチマークで超え、GitHub Copilot・AWS Bedrock・Vertex AI・Foundry・Snowflake全対応の2026年最強エンジニアリングモデルです。
この記事の要点:
- SWE-bench Verified 80.8%→87.6%(+8.4pt)、SWE-bench Pro 53.4%→64.3%(+10.9pt)、CursorBench 58%→70%(+12pt)
- 画像入力3.75MP(前世代比3.3倍)、xhighエフォートレベル追加、タスクバジェット機能で長時間エージェントのコスト制御が可能
- 料金$5/$25据え置きだが新トークナイザーで実コストが最大1.35倍増の可能性。エージェント検索はGPT-5.4 Pro優位(BrowseComp 89.3% vs 79.3%)
対象読者: 生成AIツールの切り替えを検討中のIT部門・経営企画担当者、エンジニアチームを抱える中小企業の経営者
読了後にできること: Opus 4.7への移行判断チェックリストを使って、今週中に「移行すべきか据え置くか」を社内で決定できる
「また新しいモデルが出た……でも、今使っているツールを切り替えるべきか分からない」
企業向けAI研修で最もよく聞かれるのが、このパターンです。2026年に入ってから、GPT-5.4、Gemini 3.1 Pro、そして4月16日にClaude Opus 4.7と、主要3社が立て続けにフラッグシップを更新し続けています。正直、追いかけるだけで精一杯ですよね。
4月16日、AnthropicがClaude Opus 4.7を正式リリースしました。SWE-bench Verified 87.6%という数字を見て、「これは本物だ」と思いました。前世代(Opus 4.6)の80.8%から一気に+8.4ptの改善。ソフトウェアエンジニアリングのベンチマークでこれほど短期間で伸びるのは、アーキテクチャレベルの変化がないと起きません。
この記事では、Opus 4.7の機能・ベンチマーク・料金体系を事実ベースで整理し、「御社がいつ切り替えるべきか」の判断フレームを提供します。架空の成果数字は一切使わず、公開されているデータとAnthropicの公式発表に基づいて書いています。
【2026年4月最新】Opus 4.7 GAから10日経過の運用知見と落とし穴
Claude Opus 4.7は2026年4月16日にGAされ、Anthropic API・Amazon Bedrock・Google Cloud Vertex AI・Microsoft Foundryで利用可能。GAから10日経過した4月26日時点の本番運用知見と、見落としがちな注意点を整理します。
初期パートナーの本番評価
- Cursor: CursorBenchで 58% → 70%(+12pt)。AIコーディング統合での実装速度が顕著に向上
- Vercel: 「Opus 4.7はシステムコードに着手する前に証明(proof)を実行する」という新しい挙動を確認(旧モデルになかった)
- あるパートナー: 93タスクの社内コーディングベンチで13%高い解決率。Opus 4.6・Sonnet 4.6では解けなかった4タスクを解決
注意すべき落とし穴3つ(2026年4月の運用報告から)
- 新トークナイザーで実質コスト20-30%増: 同じ入力テキストでも、Opus 4.7は最大35%多くのトークンを生成。$5/$25/Mトークンの料金は据え置きだが、実質的に料金が上がっている状態。コスト試算を必ず再実施
- 「リテラル実行」の罠: Opus 4.7は提示されたテキストを正確に実行。Opus 4.6の「ギャップを埋める」挙動に依存していたプロンプトは、4.7で「字義通りで誤った結果」になる可能性。プロンプトの再検証が必要
- BrowseComp(Web検索)の劣化: 83.7% → 79.3%にダウン。GPT-5.4 Pro 89.3%、Gemini 3.1 Pro 85.9%と差。Web検索・合成主体のエージェントは要再評価
Opus 4.7の主要ベンチマーク(再確認)
| ベンチマーク | Opus 4.6 | Opus 4.7 | 変化 |
|---|---|---|---|
| SWE-bench Verified | 80.8% | 87.6% | +6.8pt |
| SWE-bench Pro | 53.4% | 64.3% | +10.9pt |
| CursorBench | 58% | 70% | +12pt |
| 画像認識(最大解像度) | ~700px | 2,576px (3.75MP) | 3倍超 |
| BrowseComp(Web) | 83.7% | 79.3%(↓) | -4.4pt |
移行判断の3チェックポイント
- コーディング・エージェント主体なら即移行推奨 — SWE-bench/CursorBench大幅改善は実装速度に直結
- Web検索エージェントは要評価 — BrowseComp低下、GPT-5.4 Proへの切替検討
- コスト試算を必ず再実施 — 新トークナイザーで実質+20-30%、月額API予算の見直し
4月最新動向の出典
- Claude Opus 4.7 Benchmarks Explained – Vellum
- AWS Weekly Roundup: Claude Opus 4.7 in Amazon Bedrock
- Claude Opus 4.7 Review: 87.6% SWE-Bench, New Tokenizer Cost Trap
- Claude Opus 4.7: What Changed for Coding Agents (April 2026)
何が変わったのか — Opus 4.7の変更点全体像
Opus 4.7の主要変更点を一覧表で整理します。
| 項目 | Opus 4.6 | Opus 4.7 | 変化率 |
|---|---|---|---|
| SWE-bench Verified | 80.8% | 87.6% | +8.4pt |
| SWE-bench Pro | 53.4% | 64.3% | +10.9pt |
| CursorBench | 58% | 70% | +12pt |
| GDPVal-AA Elo(知識業務) | 未公開 | 1,753(GPT-5.4の1,674超え) | エンタープライズ知識業務で首位 |
| BigLaw Bench(法律文書) | 未公開 | 90.9% | 法律文書分析で首位 |
| 画像入力(最大解像度) | 1.15メガピクセル | 3.75メガピクセル | 3.3倍 |
| エフォートレベル | low / medium / high | low / medium / high / xhigh | xhigh追加 |
| タスクバジェット | なし | あり(エージェントループ全体でトークン上限設定) | 新機能 |
| 料金(per百万トークン) | $5/$25 | $5/$25 | 据え置き |
| 実質コスト(トークナイザー変更) | — | 1.0〜1.35倍増の可能性 | 要注意 |
特に注目すべきはSWE-bench Proの+10.9pt改善です。SWE-bench Verifiedが「整理された問題セット」なのに対し、SWE-bench Proは実際のGitHubリポジトリから抽出した未整理の問題が含まれます。実務に近い難易度でこれだけ改善したのは、エンジニアリング業務での実用性が大幅に上がったことを意味します。
また、VentureBeat・The Next Web・楽天の実証実験では「本番タスク解決数がOpus 4.6比3倍」という報告も出ています。
AIエージェントの基本概念や企業での活用ステップについては、AIエージェント導入完全ガイドで体系的にまとめています。
競合モデルとの詳細比較 — GPT-5.4・Gemini 3.1 Proとどう違うか
同時期の主要3モデルの比較表を見てみましょう。
| 指標 | Claude Opus 4.7 | GPT-5.4(OpenAI) | Gemini 3.1 Pro(Google) |
|---|---|---|---|
| SWE-bench Verified | 87.6% | —(未公開) | 80.6% |
| SWE-bench Pro | 64.3% | 57.7% | 54.2% |
| CursorBench | 70% | —(未公開) | —(未公開) |
| BrowseComp(エージェント検索) | 79.3% | 89.3%(GPT優位) | — |
| GDPVal-AA Elo(知識業務) | 1,753 | 1,674 | 1,314 |
| BigLaw Bench(法律文書) | 90.9% | — | — |
| コンテキストウィンドウ | 200K tokens | 128K tokens | 1M tokens |
| 料金(入力/出力) | $5/$25 | —(未公開) | $3.5/$10.5 |
| タスクバジェット機能 | あり | なし | なし |
コーディング・エージェント業務でOpus 4.7が頭一つ抜けているのは明らかです。ただし1点、正直に言うと:エージェント検索(BrowseComp)はGPT-5.4 Proが優位です(89.3% vs 79.3%)。ウェブブラウジングを多用する調査業務や競合分析では、GPT-5.4の方が向いている場合があります。
100社以上の研修・コンサル経験から見ると、「どれが最強か」より「どの業務にどれを使うか」の設計が重要です。
Opus 4.7の新機能詳細 — xhigh・画像拡張・タスクバジェット
xhighエフォートレベル:思考時間を増やして精度を上げる
Opus 4.7では「xhigh」という新しいエフォートレベルが追加されました。これはExtended Thinkingの思考予算(トークン数)を大きく拡張するオプションです。
- low:即座に回答(シンプルな質問向け)
- medium:標準的な推論
- high:複雑な問題向け(従来の上限)
- xhigh(新規追加):最大100Kトークンの内部思考。数学・法律・コード設計など高精度が求められるタスクで効果を発揮
注意点として、xhighはコストが跳ね上がります。思考トークンも課金対象のため、1回の呼び出しで入力コストが10〜20倍になるケースもあります。「毎回xhighを使う」のではなく、精度が売上や品質に直結するケースに限定して使うのが実務的な使い方です。
【xhigh活用の推奨シナリオプロンプト例】
次の{業務内容}について、最も精度の高い判断をしてください。
thinking_budget: xhigh
条件:
- 全ての仮定は「仮定」と明記すること
- 数字の根拠(出典/計算式)を必ず付けること
- 最終判断前に反対意見を最低2つ検討すること
{業務内容を具体的に記述}画像解像度拡張:3.75メガピクセルで何が変わるか
画像入力の最大解像度が1.15メガピクセルから3.75メガピクセルに拡大しました(長辺最大2576px)。これは実務でどう使えるか?
- CAD図面・建築設計図のレビュー(細部まで読み取れる)
- 商品パッケージの文字認識(小さな注意書きも処理可能)
- 製造業の品質検査画像の異常検知補助
- 医療画像のセカンドオピニオン補助(※必ず専門家の確認が必要)
特に製造業や建設業の顧問先から「これは待っていた機能だ」と反応が来そうな改善です。ただし、AI単体での判断を最終決定にするのは絶対にNG。人間の確認プロセスと組み合わせることが前提です。
【高解像度画像分析プロンプト例】
添付の画像を分析してください。
対象:{図面/製品写真/文書/医療画像}
確認すべき項目:
1. {具体的な確認ポイント1}
2. {具体的な確認ポイント2}
3. {具体的な確認ポイント3}
注意:
- 不確実な点は必ず「不確実」と明記すること
- 判断できない部分は「人間の専門家による確認が必要」と明示することタスクバジェット:エージェントループのコスト制御
Opus 4.7の新機能の中で、エンタープライズ利用において最も実用的な追加機能の一つが「タスクバジェット」です。これは1つのエージェントタスク全体で消費するトークン上限を設定できる機能で、GPT-5.4には直接対応する機能がありません。
長時間エージェントタスク(数時間にわたる調査・コード生成・分析)では、コストが予測しづらいという問題がありました。タスクバジェットを設定することで、「このタスクの上限は$X」というルールが明示でき、予算管理が格段に楽になります。
利用可能なプラットフォーム — 全6箇所で同時GA
Opus 4.7は4月16日に、以下のプラットフォームで同時GA(一般提供)されています。
| プラットフォーム | 特徴 | 日本企業への適性 |
|---|---|---|
| Anthropic API(claude.ai) | 最速でアップデート。直接API連携 | エンジニアチームあり・スタートアップ |
| Amazon Bedrock | AWSセキュリティ・VPCエンドポイント対応 | AWS利用中の中大企業 |
| Google Vertex AI | GCPエコシステムとの統合 | Google Workspace利用中の企業 |
| Microsoft Foundry(Azure) | Azure環境統合。Copilot製品群との親和性 | Microsoft 365活用中の企業 |
| GitHub Copilot | Copilot Pro+/Business/Enterprise対応。コードエディタに統合 | 開発チームが多い企業 |
| Snowflake Cortex AI | データウェアハウスとの直接統合 | Snowflake利用中の企業・データ分析チーム |
日本の大企業・上場企業で最も多い選択肢はAmazon BedrockとAzure Foundryです。既存のクラウド契約があれば、新規のセキュリティ審査なしに利用を開始できるケースが多く、IT部門の承認フローが短縮されます。
また、GitHub Copilot対応は開発チームを抱える企業にとって特に重要です。Copilot Pro+ユーザーは数週間以内にモデルピッカーでOpus 4.7を選択できるようになる予定です。Opus 4.6と4.5は順次置き換えられます(GitHub公式Changelog、2026-04-16)。
【要注意】料金「据え置き」の落とし穴と4つの失敗パターン
Anthropicは「Opus 4.7の料金は据え置き($5/$25 per百万トークン)」と発表しています。しかし、実質的なコストは上がる可能性があります。
失敗パターン1:「料金据え置き」をそのまま信じてバジェットを組む
❌ よくある間違い:「Opus 4.6と同じコストで運用できる」と思ってシステム移行を進める
⭕ 正しいアプローチ:実際のプロンプトでトークン数を計測し、コスト増を試算してから意思決定する
なぜこれが重要か:Opus 4.7は新しいトークナイザーを採用しており、同じテキストが1.0〜1.35倍のトークン数にカウントされます。つまり、料金は据え置きでも実際に支払うコストは最大35%増加する可能性があります。
【コスト試算プロンプト】
現在のOpus 4.6の月間API利用状況を教えてください。
1. 月間総入力トークン数(概算):
2. 月間総出力トークン数(概算):
3. 主なプロンプトの平均文字数:
以下の条件でOpus 4.7移行後のコスト試算をしてください。
- トークナイザー変更による増加率:1.0倍〜1.35倍(最悪ケース:1.35倍)
- 料金:入力$5/百万トークン、出力$25/百万トークン
不足している情報があれば、最初に質問してから試算してください。失敗パターン2:xhighエフォートを「とりあえず全部」に設定する
❌ よくある間違い:精度向上のため全リクエストをxhighに設定する
⭕ 正しいアプローチ:業務の重要度に応じてエフォートレベルを使い分ける
なぜこれが重要か:xhighは通常のhighに比べて思考トークンを大量消費します。メールの件名生成にxhighを使うのは、スポーツカーで近所のコンビニに行くようなものです。コストパフォーマンスが最悪になります。
失敗パターン3:BrowseComp型の調査業務にOpus 4.7を使う
❌ よくある間違い:「Opus 4.7が最強だから競合調査・市場調査も全部Opus 4.7で」
⭕ 正しいアプローチ:ウェブブラウジング主体の調査ならGPT-5.4 Proを検討する
なぜこれが重要か:BrowseComp(エージェント検索)スコアはGPT-5.4 Pro 89.3% vs Opus 4.7 79.3%で、実は10pt差でGPT優位です。ウェブ上の情報収集・競合分析・市場調査が主な用途なら、GPT-5.4の方が精度が高いことがデータで示されています。
失敗パターン4:SWE-benchスコアをそのまま業務品質に換算する
❌ よくある間違い:「SWE-bench 87.6%→我々のコード品質も87%改善する」
⭕ 正しいアプローチ:ベンチマークは参考指標として使い、実際の業務でPoC検証を行う
なぜこれが重要か:SWE-benchはGitHubの実際のIssueを解決するタスクですが、御社のコードベース固有の複雑さ・命名規則・ビジネスロジックとは異なります。PoC(概念実証)を必ず先に行ってください。
Opus 4.7移行判断チェックリスト
「今すぐ移行すべきか」「もう少し待つべきか」を5つの問いで判断できるチェックリストです。
今すぐ移行を検討すべき状況(3つ以上あてはまる場合)
- ☐ 社内にソフトウェア開発・コードレビューでAIを使うエンジニアがいる
- ☐ AIエージェント(自律的にタスクを実行するシステム)を構築・運用している
- ☐ 高解像度の図面・写真・画像をAIに読み取らせる業務がある
- ☐ 法律・財務・技術文書の精度が高い推論が必要な業務がある
- ☐ GitHub Copilotを既に利用中で、最新モデルへの自動更新を望んでいる
もう少し待った方がよい状況
- ☐ 現在GPT-4o / Gemini 1.5 Proなど旧世代モデルを利用中で、移行コストをかけられない
- ☐ トークンコストの増加(最大35%)が社内予算上許容できない
- ☐ 日本語のシンプルな文書作成・要約が主な用途(低コストモデルで十分)
- ☐ ウェブブラウジング型の調査業務が中心(GPT-5.4 Proの方が適している可能性)
企業のモデル選定における実務的視点
100社以上のAI研修・コンサルを経験して分かってきたのは、「最強モデルを使えば成果が出る」という考え方が最も危険だということです。
実際に成果が出ている企業の共通点は、業務ごとにモデルを使い分けている点です。
| 業務タイプ | 推奨モデル | 理由 |
|---|---|---|
| コード生成・レビュー | Opus 4.7 | SWE-bench Pro 64.3%・CursorBench 70%で業界最高 |
| AIエージェント開発(ツール呼び出し) | Opus 4.7 | MCP-Atlas tool use最高スコア、タスクバジェット機能 |
| エージェント検索・ウェブ調査 | GPT-5.4 Pro | BrowseComp 89.3%(Opus 4.7の79.3%より優位) |
| 法律・財務文書の精密分析 | Opus 4.7 | BigLaw Bench 90.9%・GDPVal-AA Elo 1,753 |
| 大量文書の一括処理 | Gemini 3.1 Pro | 1Mトークンコンテキスト、低料金 |
| 日常的なメール・資料作成 | Claude 3.5 Haiku / GPT-4o mini | コスト効率が高い |
| 数式・論理推論(最高精度) | Opus 4.7 xhigh | 思考予算を最大化できる |
AI導入の全体戦略については、AI導入戦略の完全ガイドも参考にしてください。
まとめ:今日から始める3つのアクション
- 今日やること:Anthropic APIのコンソール(または利用中のプラットフォーム)でOpus 4.7を「試用」し、現在最もコストをかけている業務のプロンプトを1本試す。同時に「anthropic_token_counter」などのツールでトークン数の変化(最大1.35倍)を計測する
- 今週中:BrowseComp型の調査業務と、SWE-bench型のコーディング業務を区別し、どちらが自社の主な用途かを整理する。調査業務が主ならGPT-5.4 Proとの比較検討を行う
- 今月中:コーディング・エージェント業務での試験運用(PoC)を2〜3本設定し、SWE-bench改善が自社の実際の業務品質にどう反映されるかを検証する
次回の記事では「エンタープライズAIエージェント設計の実践ガイド」をテーマに、タスクバジェットを活用した長時間エージェントの運用方法をお届けします。
参考・出典
- Introducing Claude Opus 4.7 — Anthropic(参照日: 2026-04-16)
- Introducing Claude Opus 4.7 in Amazon Bedrock — AWS News Blog(参照日: 2026-04-16)
- Claude Opus 4.7 is generally available — GitHub Changelog(参照日: 2026-04-16)
- Anthropic releases Claude Opus 4.7 — VentureBeat(参照日: 2026-04-16)
- Claude Opus 4.7 leads on SWE-bench and agentic reasoning — The Next Web(参照日: 2026-04-16)
- Claude Opus 4.7 vs GPT-5.4: Agentic Coding Compared — Digital Applied(参照日: 2026-04-16)
著者: 佐藤傑(さとう・すぐる)
株式会社Uravation代表取締役。早稲田大学法学部在学中に生成AIの可能性に魅了され、X(旧Twitter)で活用法を発信(@SuguruKun_ai、フォロワー約10万人)。100社以上の企業向けAI研修・導入支援を展開。著書『AIエージェント仕事術』(SBクリエイティブ)。SoftBank IT連載7回執筆(NewsPicks最大1,125ピックス)。
ご質問・ご相談は お問い合わせフォーム からお気軽にどうぞ。






