OpenAIが「小さくて速い」GPT-5.4を2モデル同時に投入した
2026年3月17日、OpenAIがGPT-5.4 miniとGPT-5.4 nanoをリリースした。GPT-5.4の性能を、より小さく・速く・安くパッケージし直したモデルだ。入力トークン単価はnanoで100万トークンあたりわずか0.20ドル。フルサイズのGPT-5.4(2.50ドル)と比べると、実に92%の値下げになる。
なぜこのタイミングか。AIエージェントの実運用が広がるなか、企業は「メインの大型モデル1つで全部こなす」アプローチの限界にぶつかっている。コストがかさむ、レスポンスが遅い、並列処理しにくい。OpenAIはこの構造問題に対して、「大きいモデルが指揮し、小さいモデルが実行する」マルチモデル構成を公式に推す形で答えを出してきた。
GPT-5.4 mini — 何がどう変わったのか
まず数字を並べる。
| ベンチマーク | GPT-5.4(フル) | GPT-5.4 mini | GPT-5 mini(旧世代) |
|---|---|---|---|
| SWE-bench Pro | 57.7% | 54.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 38.2% |
| GPQA Diamond | 93.0% | 88.0% | 81.6% |
| OSWorld-Verified | 75.0% | 72.1% | 42.0% |
| Toolathlon | 54.6% | 42.9% | 26.9% |
| τ2-bench(通信業務) | 98.9% | 93.4% | 74.1% |
目を引くのはOSWorld-Verifiedのスコアだ。これはAIがPC操作を自動化するタスクの精度を測る指標で、miniはフルサイズGPT-5.4の96%の精度を叩き出している(72.1% vs 75.0%)。旧世代GPT-5 miniの42.0%からは劇的な飛躍だ。つまり、スクリーンショットを解釈してUIを操作する「コンピュータ使用」タスクが、低コストモデルでもほぼ実用レベルに達したということになる。
コーディング面でも、SWE-bench Proで54.4%と旧世代から約9ポイント向上。動作速度はGPT-5 miniの2倍以上。400Kトークンのコンテキストウィンドウを持ち、大規模なコードベースの一括解析にも対応する。
利用可能な場所
- API: テキスト・画像入力、ツール呼び出し、Web検索、ファイル検索、コンピュータ操作に対応
- Codex: アプリ・CLI・IDE拡張・Webすべてで使用可能。GPT-5.4クォータの30%で利用でき、サブエージェントとしても機能
- ChatGPT: Free・Goユーザーは「Thinking」機能経由で利用可能。それ以外のユーザーはGPT-5.4 Thinkingのレート制限フォールバックとして自動適用
GPT-5.4 nano — 「とにかく安い」を突き詰めた最小モデル
nanoはminiよりさらに割り切った設計だ。
| 項目 | GPT-5.4 nano | GPT-5.4 mini |
|---|---|---|
| 入力トークン単価 | $0.20/1M | $0.75/1M |
| 出力トークン単価 | $1.25/1M | $4.50/1M |
| キャッシュ入力 | $0.02/1M | — |
| コンテキスト | 400Kトークン | 400Kトークン |
| 最大出力 | 128Kトークン | — |
| 知識カットオフ | 2025年8月31日 | — |
| 提供チャネル | APIのみ | API・Codex・ChatGPT |
キャッシュ入力が100万トークンあたり0.02ドル。これは破格だ。同じプロンプトを繰り返し使う分類・抽出パイプラインでは、実質的なコストがほぼゼロに近づく。
ベンチマーク上、SWE-bench Proで52.4%と意外に健闘している。旧世代GPT-5 miniの45.7%を上回っているのだから、「前世代のミドルクラスを超えた最廉価モデル」という位置づけだ。ただしOSWorld-Verifiedは39.0%にとどまり、コンピュータ操作には向かない。分類、データ抽出、ランキング、ガードレール判定——こうした「地味だけど大量に回す」タスクがnanoの主戦場になる。
競合との価格比較 — 「安い」の基準が変わった
小型モデルの価格競争は2026年に入って一段と激化している。主要3社の低価格帯モデルを並べてみる。
| モデル | 提供元 | 入力($/1M) | 出力($/1M) |
|---|---|---|---|
| GPT-5.4 nano | OpenAI | $0.20 | $1.25 |
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | |
| GPT-5.4 mini | OpenAI | $0.75 | $4.50 |
| Claude Haiku 4.5 | Anthropic | $1.00 | $5.00 |
| Gemini 3 Flash | $0.50 | $3.00 |
入力単価だけ見れば、GPT-5.4 nanoはGoogleのGemini 3.1 Flash-Lite($0.25)を下回り、業界最安クラスに踊り出た。出力単価もFlash-Lite($1.50)より安い。
ただし、単純な価格比較は誤解を招く。重要なのは「その単価でどこまでの仕事ができるか」だ。nanoのSWE-bench Pro 52.4%に対し、Gemini 3.1 Flash-Liteはコーディング特化ベンチマークを公式に公開していない。Claude Haiku 4.5はコストパフォーマンスに優れるが、コンピュータ操作(CUA)機能は備えていない。各モデルの得意分野は異なるため、用途に応じた選定が必要になる。
「大が指揮し、小が実行する」— マルチモデル構成の本格化
今回のリリースで最も見逃せないのは、OpenAIがマルチモデル・アーキテクチャを公式にプッシュし始めた点だ。
OpenAIの公式ブログには、こう書かれている。
「最良のモデルは、必ずしも最大のモデルではない。素早く応答でき、ツールを確実に使い、それでいて複雑な専門タスクをこなせるモデルだ。」
具体的な設計パターンはこうだ。GPT-5.4(フルサイズ)が計画・調整・最終判断を担当し、GPT-5.4 miniのサブエージェントが並列で実務を処理する。コードベースの検索、大量ファイルのレビュー、補助ドキュメントの要約——こうしたタスクをminiに分散させることで、全体のコストとレイテンシを大幅に圧縮できる。
実際、OpenAIの自社製品Codexでは、すでにこのパターンが実装されている。GPT-5.4がメインの推論エンジンとして動き、miniがサブエージェントとして裏方を担う。miniの利用はGPT-5.4クォータの30%消費で済むため、開発者にとっては約1/3のコストで補助タスクを処理できる計算になる。
この動きはOpenAIだけの話ではない。Gartnerの調査によると、マルチエージェントシステムに関する企業からの問い合わせは2024年Q1から2025年Q2にかけて1,445%増加した。Accenture×Databricksの「Agent Bricks」、Snowflakeの「Project SnowWork」など、大手プラットフォームが軒並みマルチエージェント基盤を整備し始めた。GPT-5.4 mini/nanoは、この潮流のなかで「サブエージェント用の標準部品」としてポジションを確立しようとしている。
日本企業が今週チェックすべき3つのポイント
正直、「また新モデルか」と感じる読者もいるだろう。だが今回のリリースは、日本企業のAI運用コストに直接影響する話だ。確認しておくべきことを整理する。
1. 現在のAPI利用料金を棚卸しする
GPT-5.4やGPT-5をAPI経由で使っている企業は、既存のワークロードのうちどの部分がmini/nanoに置き換え可能かを洗い出すべきだ。典型的な置き換え候補は以下の通り。
- 分類・ラベリング: 問い合わせの自動振り分け、メール分類 → nanoで十分
- データ抽出: 請求書・契約書からの定型情報抽出 → nanoが最適
- コードレビュー補助: 差分の要約、簡易的なバグ検出 → miniで対応可
- ドキュメント要約: 会議議事録、レポートの要約生成 → mini推奨
仮に月間1,000万トークンの入力を処理しているとする。GPT-5.4からnanoに切り替えるだけで、入力コストは$25.00 → $2.00になる。年間で約$276の削減。「たった$276か」と思うかもしれないが、100万トークン単位で大量処理している企業にとっては桁が変わってくる。月間10億トークン処理なら、年間$27,600の差だ。
2. マルチモデル構成の設計を始める
「全部GPT-5.4でやる」から「GPT-5.4が司令塔、mini/nanoが実行部隊」へ。この設計転換は今すぐ着手できる。
たとえば、社内チャットボットを運用している場合。ユーザーの質問を受けたら、まずnanoで意図分類する。簡単な定型質問ならnanoがそのまま回答。複雑な質問だけGPT-5.4にルーティングする。これだけで、問い合わせの70〜80%を最安モデルで処理できる可能性がある。
3. 「コンピュータ操作」機能の可能性を把握する
GPT-5.4 miniのOSWorld-Verifiedスコア72.1%は、PC操作の自動化が低コストモデルでも現実的になったことを示している。RPA(ロボティック・プロセス・オートメーション)ツールを導入している企業にとっては、AIベースの代替手段として検討する価値がある。
ただし、本番環境での精度はベンチマークと異なる場合がある。まだ発展途上の技術だということは認識しておく必要がある。いきなり基幹業務に適用するのではなく、社内ツールの操作自動化など影響範囲の小さいタスクから試すのが現実的だ。
まだ見えていないこと
今回のリリースにはいくつか不明点も残っている。
まず、nanoの日本語性能が公式に示されていない。ベンチマークは英語中心であり、日本語の分類・抽出タスクでの精度は実際に試さないとわからない。知識カットオフが2025年8月31日であるため、それ以降の日本固有の情報(法改正、制度変更など)は拾えない。
もう一つ、レート制限の具体的な数値が明示されていない。nanoの安さに惹かれて大量リクエストを投げたら制限に引っかかった——という事態は十分に起こりうる。本格導入前にAPIのレート制限を確認し、必要に応じてOpenAIの営業チームに問い合わせることを推奨する。
さらに言えば、GPT-5.4 miniの長文コンテキスト性能はフルサイズと大きな差がある。OpenAIのMRCR v2ベンチマーク(128K〜256Kトークン、8ニードル)では、フルサイズが79.3%に対しminiは33.6%。400Kのコンテキストウィンドウを持つとはいえ、超長文の検索・参照精度は期待しすぎない方がいい。
この先、小型モデル戦争はどう動くか
OpenAIのmini/nano投入は、GoogleとAnthropicの次の一手を加速させるだろう。
Googleは3月にGemini 3.1 Flash-Liteを$0.25/$1.50で出してきたばかりだ。nanoの$0.20/$1.25はこれを明確に意識した価格設定に見える。Googleがさらなる値下げで応じるか、それとも性能差で勝負するか。
Anthropicは別のアプローチをとっている。3月18日に発表した「81,000人のユーザー調査」では、価格よりもAIの安全性・信頼性に関心を持つユーザーが多いことを示した。Claude Haiku 4.5はminiより割高だが、ガードレールの強さや拒否行動の透明性で差別化を図っている。ペンタゴンとの対立を辞さない姿勢も、企業のAIガバナンス担当者には刺さるポイントだ。
いずれにせよ、2026年のAIモデル市場は「フラッグシップの性能競争」と「小型モデルのコスト競争」の二正面作戦になった。日本企業が注視すべきは後者だ。大型モデルの進化はもちろん重要だが、実際のROIを左右するのは「日常業務を回す小型モデルのコストと精度」の方だからだ。
参考・出典
- Introducing GPT‑5.4 mini and nano — OpenAI公式ブログ(参照日: 2026-03-19)
- API Pricing — OpenAI開発者ドキュメント(参照日: 2026-03-19)
- GPT-5.4 mini and nano: OpenAI’s newest small models — ZDNet(参照日: 2026-03-19)
- Introducing OpenAI’s GPT-5.4 mini and nano for low-latency AI — Microsoft Tech Community(参照日: 2026-03-19)
- Multi-Agent AI Systems: The Architectural Shift Reshaping Enterprise Computing — Forbes(参照日: 2026-03-19)
- GPT-5.4 mini and nano: OpenAI just validated the multi-model agent architecture — Beam AI(参照日: 2026-03-19)
- Gemini 3.1 Flash-Lite — Google公式ブログ(参照日: 2026-03-19)
AIエージェントの基本概念や導入ステップについては、AIエージェント導入完全ガイドで体系的にまとめています。
あわせて読みたい:
- GPT-5.4完全解説|100万トークン・Extremeシンキング・PC自動操作 — フルサイズGPT-5.4の全機能を知りたい方に
- AIエージェントの半数は「無監視」で動いている — エージェント導入前に知っておくべきガバナンスの現実
ご質問・ご相談は お問い合わせフォーム からお気軽にどうぞ。
この記事はUravation編集部がお届けしました。


