コンテンツへスキップ

media AI活用の最前線

AI導入戦略

GPT-5.4 Computer Use|OSWorld 75%超RPA置換

GPT-5.4 Computer Use|OSWorld 75%超RPA置換

結論: GPT-5.4のComputer Useは、OSWorld-Verified 75.0%で人間ベースライン72.4%を超えた初の汎用AIモデルであり、従来のRPAを段階的に置き換えながら、フォーム入力・ブラウザ操作・デスクトップアプリ横断タスクを自律実行できます。

この記事の要点:

  • 要点1: GPT-5.4はOSWorld-Verified 75.0%(人間72.4%)を達成した初のAI汎用モデル
  • 要点2: スクリーンショット→構造化アクション変換で、コード不要のRPA代替が現実に
  • 要点3: 日本企業が今すぐ始められる「段階的RPA置き換え3フェーズ」を解説

対象読者: DX推進担当者・情報システム部門・業務改善責任者

読了後にできること: GPT-5.4 Computer Useのトライアルを設定し、自社の「RPA置き換え候補業務」を1つ選定できる


「うちのRPAが壊れるたびに、ベンダーを呼ぶコストが馬鹿にならない……」

企業向けAI研修で、最近こんな声をよく聞きます。先日、従業員150名ほどの製造業の情報システム部門を訪問したとき、担当者がため息をついていました。社内のRPAが月に3〜4回は何らかの理由で止まり、その都度スクリプトの修正か、ベンダーへの連絡が必要になるというんです。

でも、2026年3月5日にOpenAIがリリースしたGPT-5.4は、この状況を根本から変えるかもしれません。

なぜなら、GPT-5.4は「画面を見て、考えて、操作する」という人間と同じプロセスでコンピュータを使えるようになったからです。ピクセルベースのスクリーンショットを理解し、クリック・テキスト入力・スクロールといった操作を生成する。UIが多少変わっても、人間のように「あ、ボタンが移動したな」と対応できる。これが従来のRPAとの決定的な差です。

この記事では、GPT-5.4 Computer Useの仕組みと実力、そして日本企業が段階的にRPAを置き換えていくための実践的なアプローチを、コピペ可能なプロンプト付きで解説します。

まず試したい「5分即効」テクニック3選

「百聞は一見に如かず」なので、まずGPT-5.4 Computer Useを実際に動かしてみましょう。以下のプロンプトはChatGPT Pro(Computer Useモード有効)でそのまま使えます。

即効テクニック1:スクリーンショット解析でフォーム入力の手順書を自動生成

研修先での実例ですが、ある医療機器商社の営業部門で、毎週Excelで作成した受注データをレガシーな社内システムに手入力していました。このプロンプトで、まずその手順を構造化するだけで大きな時間短縮になりました。

あなたはコンピュータ操作の専門家です。以下のスクリーンショットを分析し、
このシステムへのデータ入力手順を、自動化できる粒度で記述してください。

分析してほしいこと:
1. 入力フィールドの種類(テキスト/ドロップダウン/チェックボックス)
2. 入力の順番と依存関係(A入力後でないとBが有効化されない、など)
3. バリデーションルール(文字数制限、形式制約)
4. エラーが起きやすい箇所とその回避方法

出力形式: JSON構造で手順を記述してください。
不足している情報があれば、最初に質問してから分析を開始してください。

効果: 研修先での実例 — 入力手順の文書化が30分→5分に。かつ、その文書をGPT-5.4に再度渡すことで、自動入力スクリプトの生成も可能になりました。

即効テクニック2:複数ステップのWebフォーム入力を自律実行

以下のWebフォームへのデータ入力を実行してください。

入力するデータ:
[会社名]: {{company_name}}
[担当者名]: {{contact_name}}
[メールアドレス]: {{email}}
[電話番号]: {{phone}}
[商品コード]: {{product_code}}
[数量]: {{quantity}}

手順:
1. フォームの全フィールドを確認する
2. データを順番に入力する
3. 入力内容を確認してから送信する(送信前に必ず一時停止して確認を求めること)

確認した後に承認を得るまで送信しないでください。

効果: 1件あたり平均3分の入力作業が、確認込みで45秒以内に。ただし「送信前の人間確認」を必ず入れることが安全運用のポイントです。

即効テクニック3:デスクトップアプリからのデータ抽出

添付のスクリーンショットに表示されているデータを抽出し、
以下のJSON形式で出力してください。

期待するJSON構造:
{
  "extraction_date": "今日の日付",
  "source_app": "アプリ名",
  "data": [
    {
      "field_name": "フィールド名",
      "value": "値",
      "data_type": "型(テキスト/数値/日付)",
      "confidence": "確信度(高/中/低)"
    }
  ],
  "notes": "抽出時の注意点や不明点"
}

確信度が「低」の項目は必ず「仮定」と明記してください。

効果: 紙の請求書や古いシステムの画面からデータを手動でExcelに転記していた作業(1枚あたり5分)が、スクリーンショットを渡すだけで自動化できます。

GPT-5.4 Computer Useの実力 — OSWorldベンチマークの意味

GPT-5.4はOSWorld-Verifiedというベンチマークで75.0%を達成しました。これが何を意味するのか、少し説明させてください。

OSWorldは、デスクトップ環境でのAIの能力を測る標準的な評価指標です。具体的には「ウェブブラウザでフォームを入力する」「ファイルを指定の場所に保存する」「複数のアプリを行き来してデータを集約する」といった、実際のビジネス業務に近いタスクをどれだけ正確にこなせるかを測ります。

モデルOSWorld-Verified スコアリリース
人間ベースライン72.4%
GPT-5.247.3%2025年6月
GPT-5.3-Codex64.0%2025年11月
GPT-5.475.0%2026年3月

つまり、GPT-5.4は人間のテスターが正確にこなせる割合(72.4%)を超えた、初の汎用AIモデルということになります。これは2024年のClaude 3のComputer Useリリースから約2年で実現した大きなマイルストーンです。

AIエージェントの基本概念や導入ステップについては、AIエージェント導入完全ガイドで体系的にまとめています。

AI活用、何から始めればいい?

100社以上の研修実績をもとに、30分の無料相談で貴社の課題を整理します。

無料相談はこちら 資料ダウンロード(無料)

従来RPAとGPT-5.4 Computer Useの本質的な違い

「RPAとどう違うの?」という質問を研修でよく受けます。一言で言うと、従来RPAは「座標・クラス名」で操作し、GPT-5.4は「画面を見て意味を理解して」操作します

比較軸従来RPA(UiPath/WinActor等)GPT-5.4 Computer Use
操作の仕組み要素のXPath・座標を記録・再生スクリーンショットを解析して操作を生成
UI変更への耐性ボタン1つ移動でスクリプト崩壊「ボタンが移動した」と認識して対応
初期設定コスト高(専門知識・ライセンス費用)低(APIアクセスとプロンプト設計)
非定型タスク不可ある程度対応可能
判断・例外処理ルール事前定義が必要文脈に応じて判断可能
監査ログ充実APIログで代替(要設計)
コスト(月)数十〜数百万円(ライセンス)API従量課金($2.50/1Mトークン〜)

とはいえ、RPAが完全に不要になるわけではありません。完全に定型化された大量処理(月10万件の伝票処理など)はRPAの方が安定・低コストです。GPT-5.4が強いのは、「UIが変わりやすい」「例外が多い」「手順が複雑で文書化されていない」タスクです。

日本企業のRPA置き換え3フェーズ戦略

100社以上のAI研修・導入支援の経験から、GPT-5.4 Computer Useへの移行は3つのフェーズで進めるのが最も安全で効果が高いと感じています。

フェーズ1:「RPA保険」として並列運用(1〜3ヶ月)

いきなりRPAを廃止するのではなく、既存RPAが壊れたとき用のバックアップとしてGPT-5.4を試します。RPA障害は月平均3〜4回という企業も珍しくない。そのたびに手作業に戻るコストを、GPT-5.4が吸収します。

【RPA障害時の緊急対応プロンプト】

本来は自動化ツールが処理すべき以下のタスクを、
画面を見ながら代わりに実行してください。

タスク: {{task_description}}
対象システム: {{system_name}}
入力データ: {{data_source}}
期待する出力: {{expected_output}}

実行前に:
1. 現在の画面状態を確認して説明してください
2. 実行予定の操作手順を示してください
3. 私の承認を得てから実行してください

注意: 不可逆な操作(削除・送信等)の前は必ず確認を求めること。

フェーズ2:「UI変化に弱いRPA」を置き換え(3〜6ヶ月)

よく壊れるRPAから順番にGPT-5.4に移行します。「月に2回以上修正が必要なRPAスクリプト」がターゲットです。実際に顧問先の物流会社で、7本中4本のRPAをこのフェーズで移行しました。

【定期業務の自動実行プロンプト】

以下の定期業務を実行してください。

業務名: {{task_name}}
実行頻度: {{frequency}}(日次/週次/月次)
対象システム: {{system_name}}
実行手順:
  1. {{step_1}}
  2. {{step_2}}
  3. {{step_3}}
実行後の確認事項: {{verification_points}}

実行ログを以下の形式で記録してください:
- 開始時刻
- 完了した手順
- 発生した問題と対処
- 完了時刻と処理件数

仮定した点は必ず「仮定」と明記してください。

フェーズ3:「複数システム横断タスク」に展開(6ヶ月〜)

従来のRPAでは困難だった「複数システムを行き来するタスク」がGPT-5.4の本領発揮です。例えば、「CRMから顧客情報を取得→会計システムで請求書を作成→メールで送付→スプレッドシートにログを記録」という一連の流れを、1つのエージェントが自律的に実行できます。

【マルチシステム横断タスクプロンプト】

以下の業務フローを順番に実行してください。

ステップ1: {{system_1}}から{{data_type}}を取得
  - アクセス先: {{url_or_path}}
  - 取得条件: {{filter_condition}}
  - 保存場所: 一時的にクリップボード

ステップ2: {{system_2}}で処理
  - 実行内容: {{action}}
  - 入力データ: ステップ1で取得したデータ

ステップ3: {{system_3}}に出力
  - 出力先: {{destination}}
  - フォーマット: {{format}}

各ステップ完了後に進捗を報告し、
エラーが発生した場合は即座に報告してください。

部門別の「Computer Use」活用法

営業部門:見積もり作成を3ステップ短縮

顧問先の商社で、見積もり作成プロセス(CRMから顧客情報取得→製品カタログ参照→Excelで計算→PDF変換→メール送付)に平均40分かかっていました。GPT-5.4 Computer Useで、顧客名を入力するだけで残りのステップを自律実行する仕組みを構築したところ、平均12分に短縮されました。

経理部門:銀行明細の突合作業

「銀行のオンラインバンキング画面から明細をダウンロード→Excelの請求書データと突合→差異をリスト化」という作業は、経理担当者が最も時間を取られる業務の1つです。GPT-5.4なら、銀行画面を直接見ながらデータを読み取り、突合まで一気に実行できます。

人事部門:採用管理システムのデータ整理

求人サイトからの応募データを社内の採用管理システムに転記する作業。各求人サイトによってUIが違うため、従来のRPAでは全サイト分のスクリプトを個別に作成する必要がありました。GPT-5.4なら、画面を見て判断するため、1つのプロンプトで複数のサイトに対応できます。

【要注意】Computer Use導入の失敗パターンと回避策

失敗1:「監視なし」の完全自動化は危険

❌ よくある間違い: 「人間の確認なしに、全て自動でやらせる」

⭕ 正しいアプローチ: 不可逆な操作(送信・削除・承認)の前には必ず人間の確認ステップを入れる

なぜ重要か: GPT-5.4でも誤操作はゼロではありません。実際にある企業でテスト中に、本来「ドラフト保存」すべき書類を「送信」してしまった例があります。「送信前に確認を求めること」というプロンプトを入れるだけで防げます。

失敗2:「全RPA一斉置き換え」の過信

❌ よくある間違い: 「GPT-5.4が完璧だから、全てのRPAをすぐに廃止する」

⭕ 正しいアプローチ: フェーズ1〜3の段階移行。完全定型の大量処理は従来RPAを維持

なぜ重要か: 月10万件以上の大量定型処理はRPAの方がコスト・速度ともに有利です。OSWorld 75%という数字は、精度の高さを示しますが、APIコストも発生します。用途に応じた使い分けが重要です。

失敗3:セキュリティリスクを軽視する

❌ よくある間違い: 「画面を見るだけだからセキュリティは関係ない」

⭕ 正しいアプローチ: APIキーの適切な管理、スクリーンショットの保存範囲の制限、アクセス権限の最小化

なぜ重要か: GPT-5.4 Computer Useは画面全体を見ます。パスワード入力画面が映り込んでいないか、機密情報がスクリーンショットに含まれていないかを必ず確認してください。OpenAIのAPIポリシーで学習利用されないよう、Enterprise/APIプランでの利用を推奨します。

失敗4:「プロンプトで全てを解決しようとする」

❌ よくある間違い: 「プロンプトを精巧にすれば、どんなシステムでも動く」

⭕ 正しいアプローチ: 環境整備(安定したUI、十分な画面解像度、ロード完了の確認)もセットで行う

なぜ重要か: 古いシステムで画面が完全に読み込まれる前にGPT-5.4が操作しようとするケースがあります。「操作前にページの完全ロードを確認すること」というプロンプトと、適切なウェイト設定を組み合わせることが必要です。

GPT-5.4 Computer Useのコストと費用対効果

気になるのはコストですよね。GPT-5.4の料金は以下の通りです(2026年3月時点)。

プラン入力出力適用場面
Standard$2.50/1Mトークン$15/1Mトークン通常の業務自動化
Mini$0.40/1Mトークン$1.60/1Mトークンシンプルな操作タスク
Pro$30/1Mトークン$180/1Mトークン高精度が必要な複雑業務

1回のComputer Useセッション(スクリーンショット1枚の解析+操作生成)は概ね1,000〜3,000トークン程度。Standardプランなら1回あたり約$0.003〜$0.01(0.5〜1.5円)程度です。

比較として、UiPath等のRPAライセンスは中小企業向けでも月30〜100万円程度。GPT-5.4 APIなら、月1万回のComputer Use操作でも$30〜$100(4,500〜15,000円)程度に収まる計算になります。もちろん、開発・運用コストは別途かかりますが、スケールによってはRPAより大幅にコストを削減できます。

正直にお伝えすると、GPT-5.4 Computer Useはまだ万能ではありません。OSWorld 75%という数字は「一般的なデスクトップタスク」の平均値です。特殊なUIや独自開発のシステムでは精度が下がることもあります。「試してみたら思ったより精度が低かった」というケースも。まずは「壊れやすいRPAの代替」から小さく始めることを強くお勧めします。

参考・出典

まとめ:今日から始める3つのアクション

  1. 今日やること: ChatGPT Pro(Computer Useモード)で、自分のPC画面のスクリーンショットを撮り、「この画面に表示されているデータを抽出してJSON形式で出力してください」と入力してみる。まず体感することが最重要です。
  2. 今週中: 社内で「月に2回以上修正が必要なRPAスクリプト」をリストアップし、Computer Useへの移行候補を3つ選定する。
  3. 今月中: フェーズ1「RPA保険としての並列運用」を1業務で実施し、コスト・精度・工数削減効果を測定してノウハウを蓄積する。

あわせて読みたい:


著者: 佐藤傑(さとう・すぐる)
株式会社Uravation代表取締役。早稲田大学法学部在学中に生成AIの可能性に魅了され、X(旧Twitter)で活用法を発信(@SuguruKun_ai、フォロワー約10万人)。100社以上の企業向けAI研修・導入支援を展開。著書『AIエージェント仕事術』(SBクリエイティブ)。SoftBank IT連載7回執筆(NewsPicks最大1,125ピックス)。

ご質問・ご相談は お問い合わせフォーム からお気軽にどうぞ。

佐藤傑
この記事を書いた人 佐藤傑

株式会社Uravation代表取締役。早稲田大学法学部在学中に生成AIの可能性に魅了され、X(旧Twitter)で活用法を発信(@SuguruKun_ai、フォロワー10万人超)。100社以上の企業向けAI研修・導入支援を展開。著書累計3万部突破。SoftBank IT連載7回執筆(NewsPicks最大1,125ピックス)。

この記事をシェア

Claude Codeを本格的に使いこなしたい方へ

週1回・1時間のマンツーマン指導で、3ヶ月後にはClaude Codeで自走できる実力が身につきます。
現役エンジニアが貴方の業務に合わせてカリキュラムをカスタマイズ。

✓ 1対1のマンツーマン ✓ 全12回・3ヶ月 ✓ 実務ベースの指導
Claude Code 個別指導の詳細を見る まずは無料相談

contact お問い合わせ

生成AI研修や開発のご依頼、お見積りなど、
お気軽にご相談ください。

Claude Code 個別指導(1対1・12セッション)をご希望の方はこちらから別途お申し込みください

Claude Code 個別指導 無料相談