結論: Goldman SachsがAI自律型コーディングエージェント「Devin」を12,000人の開発者と並行運用開始。Infosysとの戦略提携も加わり、企業向けAIコーディングの世界標準が変わろうとしています。
この記事の要点:
- 要点1: Goldman Sachsが12,000人のエンジニア組織にDevin AIを導入。脆弱性修正を30分→1.5分に短縮するなど、具体的な成果が出ている
- 要点2: Cognition社のDevinは企業利用が急拡大中。InflosysとAWS、Goldman Sachs、Citiなどが導入
- 要点3: 日本の金融・IT企業がAIコーディングエージェントを検討する際の判断軸を整理
対象読者: ソフトウェア開発チームを持つCTO・IT部門責任者、AIコーディングツール導入を検討中のエンジニアリングマネージャー
読了後にできること: Devin AI(自律型AIコーディングエージェント)の適切なユースケースと、自社への導入可否を判断できる
「AIがコードを書くのは知ってる。でも、本当に自律的に動くの?」
企業向けAI研修の現場で、エンジニアマネージャーからよく聞かれる質問です。GitHub CopilotやClaude Codeなどのコード補完ツールとは一線を画す「自律型AIコーディングエージェント」が、2025〜2026年にかけて急速に進化しています。
その象徴的な出来事が、Goldman Sachsの取り組みです。世界最大の投資銀行のひとつが、AI企業Cognitionが開発した「Devin」を、約12,000人のエンジニア組織と並行して動かし始めました。「AIを同僚として迎え入れる」という発想での導入で、金融業界のAI活用が新たなフェーズに入ったことを示しています。
この記事では、Devin AIとは何か、Goldman Sachsでの導入内容、Infosysとの戦略提携の意味、そして日本企業への示唆をまとめます。
Devin AIとは何か:自律型AIコーディングエージェントの概要
Devinは、米Cognition社が2024年3月に発表したAIソフトウェアエンジニアです。従来のコード補完ツール(GitHub Copilot等)との最大の違いは「自律性」です。
コード補完ツールとの違い
| コード補完型(Copilot等) | 自律型エージェント(Devin) | |
|---|---|---|
| 動き方 | エンジニアが書くコードを「次の行」で提案 | タスクを与えると自分でコード全体を書く・テストする・修正する |
| 対象タスク | 行・関数レベルの補完 | PR(プルリクエスト)単位の実装 |
| 人間の介在 | 常に必要 | 最終確認のみ(プロセス中は自律) |
| 得意領域 | コーディング効率化 | 反復的タスク・マイグレーション・テスト生成 |
Devinの2025年実績(Cognition公式発表より)
- PRマージ率: 昨年34% → 67%(約2倍に向上)
- 問題解決速度: 前年比4倍
- 脆弱性修正: 人間平均30分 → Devin 1.5分(20倍高速)
- テストカバレッジ: 50-60% → 80-90%に向上
- マイグレーション速度: 人間エンジニア比10〜14倍高速
Cognitionによると、Devinはジュニアエンジニア相当の実行力を持ちながら「無限のキャパシティ」で動く、という位置づけです。
AIエージェント全般の業務活用については、AIエージェント導入完全ガイドで体系的に解説しています。
Goldman Sachsの導入:「ハイブリッドワークフォース」という新概念
Goldman SachsのCIO マルコ・アルジェンティ氏は2025年7月、Devinを「新入社員」として採用したと発表しました。表現が象徴的です。「ツールを導入した」ではなく「社員を迎えた」という言い方をしています。
Goldman Sachsの導入規模と方針
事例区分: 公開事例
以下は各メディア(TechCrunch、Fortune、IBM Think等)が報じたGoldman Sachsの公式発表に基づく情報です。
- 既存エンジニア数: 約12,000人
- 展開方針: まず数百インスタンスから開始し、最終的に数千インスタンスまで拡大予定
- Devinのバージョン: v2.1を使用
- 監視体制: 常に人間が監督する「ハイブリッドワークフォース」モデル
- 割り当てタスク: レガシーコードの管理、リファクタリング、デバッグ(反復的な業務)
生産性の向上
Goldman Sachsは「以前のAIツールと比べて3〜4倍の生産性向上」を報告しています。ただし、Goldman Sachsは「代替」ではなく「拡張」という姿勢を明確にしており、Devinが担うのは繰り返し作業が多いタスクです。複雑な金融システムの設計・重要な判断は引き続き人間のエンジニアが担当します。
正直に言えば、「3〜4倍」という数字は全社平均ではなく特定タスクでの比較と推察されます。導入初期の数字として参考にしつつ、過大評価は禁物です。
Cognitionの企業戦略:Infosysとの提携が示す未来
Goldman Sachsの導入と並んで注目されるのが、2026年1月のInfosys×Cognition戦略提携です。
Infosys提携の3つの柱
Infosys(インド最大手ITサービス企業、従業員約30万人)は2026年1月、CognitionとAWS(Amazon Web Services)との3社戦略提携を発表しました。
- 内部生産性向上: Infosys自身のエンジニアリングチームにDevinを展開
- サービス提供の変革: クライアントプロジェクトにDevinを組み込んだ「ハイブリッドデリバリーポッド」を提供
- MSP(マネージドサービス): 顧客のエンジニアリング環境に直接Devinを展開するサービス
特に重要なのは2つ目の「ハイブリッドデリバリーポッド」です。Infosysのエンジニア+Devinを組み合わせたチームがクライアント企業のシステム開発を担う、という新しいサービスモデルです。
Cognitionの企業規模と評価
- 評価額: 約40億ドル(2024年にDevin発表後、1年で評価額が2倍に)
- 主要投資家: Peter Thiel’s Founders Fund、Joe Lonsdale(Palantir共同創業者)
- 主要顧客: Goldman Sachs、Citi、NASA
- 企業利用の伸び: 過去1年間で企業利用が約80倍に成長
Claude Code・GitHub Copilotとの比較:何が違うか
AIコーディングツール市場は急速に拡大しており、Devin以外にも有力なツールがあります。それぞれの特性を整理します。
| ツール | タイプ | 強み | 主なユースケース |
|---|---|---|---|
| Devin | 自律型エージェント | PR単位の完全自律実行、長時間タスク | レガシーコード移行、バグ修正、テスト生成 |
| Claude Code | 対話型エージェント | 高度な推論、長いコンテキスト、人間との協業 | 複雑なリファクタリング、設計議論、コードレビュー |
| GitHub Copilot | コード補完 | IDE統合、リアルタイム補完、広い言語対応 | 日常コーディング効率化、関数補完 |
| Cursor | AI搭載エディタ | プロジェクト全体のコンテキスト理解 | コードベース全体の把握、リファクタリング |
重要なのは「どれが最強か」ではなく「どのタスクに何を使うか」です。Devinのような自律型エージェントは「繰り返し作業」「明確な仕様があるタスク」に最適です。曖昧な要件や創造的な設計判断が必要な部分は、人間エンジニアとClaudeのような対話型エージェントの組み合わせが効果的です。
Claude Codeの詳しい使い方は、業務活用ガイドもあわせてご参照ください。
AIコーディングエージェントの市場動向:業界全体の変化
Devinの台頭はAIコーディング市場全体のパラダイムシフトを示しています。業界全体の動向を整理します。
なぜ今「自律型」が注目されるのか
2022〜2023年のAIコーディングブームでは「コード補完」が主流でした。GitHub Copilotを代表とする、リアルタイムでの次行提案型です。これはエンジニアの「打鍵数」を減らすツールでした。
2024〜2025年になると「エージェント型」が台頭します。タスクを与えると自律的に実行する仕組みです。Devinはこの「完全自律型」の先頭ランナーです。Cognitionのアニュアルレポートが示すように、PRマージ率が34%→67%に向上したことは、単なる補完ツールを超えた実用性を証明しています。
競合ツールの動向
| 企業 | ツール | アプローチ | 主な顧客 |
|---|---|---|---|
| Cognition | Devin | 完全自律型エージェント | Goldman Sachs、Citi、NASA |
| Anthropic | Claude Code | 対話型エージェント(エージェントモード対応) | ServiceNow(29,000人展開) |
| GitHub(Microsoft) | Copilot | 補完型 + エージェントモード追加中 | 全世界1億人以上の開発者 |
| Anysphere | Cursor | AI搭載エディタ(プロジェクト全体把握) | NVIDIA全社3万人 |
重要なのは、これらのツールが競合というより「補完関係」にある点です。コーディングのフェーズ(設計・実装・テスト・レビュー)によって最適なツールが異なります。
日本でのAIコーディング導入状況
日本では2025〜2026年にかけて、大手IT企業・SIerを中心にAIコーディングツールの導入が急増しています。NTTデータ、富士通、NRIなどの大手では全社展開も始まりました。一方で、中堅・中小のSIerでは「どこから始めればいい?」という状況が続いています。
研修現場での実感では、「GitHub Copilotは入れたが使いこなせていない」という企業が最も多い。ツールを入れることと、業務プロセスに組み込むことの間には大きなギャップがあります。
日本の金融業界・IT企業への示唆
Goldman Sachsの事例が日本企業に示唆することを整理します。
示唆1:技術的負債の解消に使える
「重要だがリソースが不足している」典型例が技術的負債の解消です。日本の金融機関でも、1980〜90年代のCOBOL・レガシーシステムの近代化が急務になっています。Devinのような自律型エージェントが得意とするのはまさにこのような領域です。
具体的なユースケース:
- 古いPythonコードのPython 3.x移行
- テストコードが書かれていない関数への自動テスト追加
- 重複したコードのリファクタリング
- セキュリティ脆弱性の自動スキャン・修正
示唆2:「代替」ではなく「拡張」という姿勢が重要
Goldman Sachsが「ハイブリッドワークフォース」という言葉を使ったのは意図的です。「AIがエンジニアを代替する」という誤解を避けながら、AIが人間の生産性を拡張するという本質を伝えています。
社内でAIコーディングツール導入を提案する際も、この「拡張」フレームが重要です。「エンジニアの仕事がなくなる」という懸念は、適切なコミュニケーションで先回りして払拭する必要があります。
示唆3:金融のコンプライアンス環境でも動く
Goldman SachsやCitiのような金融機関が導入しているという事実は、「コンプライアンスが厳しい業界でも使える」ことを証明しています。日本の金融機関でAI導入をためらっている場合、「海外大手が導入済み」という事実は稟議通過の後押しになります。
示唆4:Infosys提携が示す「AIと人間の混合チーム」
Infosysがクライアントに提供する「ハイブリッドデリバリーポッド」は、日本のSIer(システムインテグレーター)にとっても参考になるモデルです。エンジニア1人+Devin複数インスタンスというチーム構成で、以前の2〜3人チームと同等のアウトプットを出せるとすれば、サービスの価格競争力が変わります。
Devin AIの限界:現時点でできないこと
Cognition社のアニュアルレポート(2025年)も認めている、Devinが現時点で苦手とする領域を正直にお伝えします。
1. 曖昧な要件での独立実行
「新しい決済機能を作って」のような曖昧な指示では、方向性が定まりません。「入力:ユーザーID・金額・通貨コード。出力:トランザクションID・処理結果。制約:既存の認証システムを利用し、DB設計はX形式に従う」のような明確な仕様が必要です。
2. 複数チームにまたがる調整
「フロントエンドチームとバックエンドチームのAPIインターフェースをすり合わせながら実装する」のような、人間同士の調整が必要な業務は得意ではありません。あくまで「単一のタスクを自律実行する」ツールです。
3. ビジネスロジックの深い理解
「この計算ロジックはXX法の改正により変わった」のような業界・法律固有のコンテキストを自律的に把握することは現時点では難しい。この種の知識は人間が提供する必要があります。
4. セキュリティ・金融の高リスク判断
Goldman Sachsが「常に人間が監督する」原則を維持しているのは、高リスクな判断をAIに任せないためです。認証・暗号化・金融計算の最終確認は必ず人間のシニアエンジニアが行います。
これらの限界は決してDevinのみの問題ではなく、現在の自律型AIエージェント全般に共通する制約です。「AGI(汎用人工知能)はまだ来ていない」という現実を前提に、適切な使い方を設計することが重要です。弱点を理解した上で、得意領域(反復タスク、明確な仕様のタスク)にフォーカスして使うことが導入成功の鍵です。
自律型AIコーディングエージェントを試すためのプロンプト
Devinのような完全自律型エージェントを導入する前に、Claude Codeなどの対話型エージェントで「自律的なタスク」を試す練習ができます。
自律的コーディングタスクのプロンプト例:
以下のPythonコードをリファクタリングしてください。
【既存コード】:
```python
[コードを貼り付け]
```
リファクタリング要件:
1. 重複しているロジックを関数として切り出す
2. 変数名をより説明的な名前に変更する
3. 各関数にdocstringを追加する
4. エラーハンドリングを適切に追加する
完了したら以下も行ってください:
- 変更点の要約(箇条書き)
- リファクタリング前後で動作が変わる可能性がある箇所の警告
- 追加で改善できる点があれば提案
不足している情報があれば、最初に質問してから作業を開始してください。以下の要件でユニットテストを生成してください。
【テスト対象コード】:
```python
[コードを貼り付け]
```
テスト要件:
- pytestを使用
- 正常系・異常系・エッジケースを網羅
- テストカバレッジ80%以上を目標
- 各テストに日本語コメントで何をテストしているか明記
仮定した点は必ず"仮定"と明記してください。【要注意】AIコーディングエージェント導入の失敗パターン
失敗1:仕様が曖昧なタスクをAIに任せる
❌ 「この機能を何とかしておいて」と曖昧な指示でDevinに投げる
⭕ タスクを「明確な入力・出力・制約条件」で定義してから指示する
なぜ重要か: CognitionのDevin自身も「明確なスコープがないと独立実行が難しい」と認めています。AIエージェントは「何をすべきか」が曖昧だと、方向性が定まらず無駄なアウトプットを生成します。
失敗2:AIのアウトプットをレビューなしでマージする
❌ Devinが作ったPRを確認せずにmainブランチにマージする
⭕ 必ずエンジニアがコードレビューしてからマージする。Goldman Sachsも「常に人間が監督」を原則としている
なぜ重要か: AIエージェントは微妙なビジネスロジックのニュアンスを理解しきれない場合があります。特にセキュリティ・認証・金融計算に関わるコードは必ず人間がレビューすること。
失敗3:全てのタスクをAIに任せようとする
❌ 新機能設計・アーキテクチャ決定もDevinにやらせる
⭕ 「繰り返し作業・明確な仕様」をAIに任せ、「創造的判断・設計」は人間が担当
なぜ重要か: Devinのアニュアルレビューでも「曖昧な要件での独立実行は困難」と明記されています。得意・不得意を理解した上で使うことが、ROIを最大化します。
失敗4:コスト計算をしないまま大規模展開する
❌ 「便利そうだから全エンジニアに展開」→気づいたら月額費用が高騰
⭕ まずパイロット(10〜20人規模)で効果検証し、ROIを確認してから全社展開
なぜ重要か: AIコーディングエージェントは使い方次第で月額コストが変動します。Goldman Sachsも「まず数百インスタンスから」というスモールスタートを選んでいます。
まとめ:今日から始める3つのアクション
Goldman Sachsの事例は「金融×AIコーディング」の最前線を示しています。しかし重要なのは追従することではなく、自社に適したユースケースから始めることです。
- 今日やること: 自社エンジニアチームの「繰り返し発生している、仕様が明確な作業」をリストアップする(レガシーコードの修正、テスト追加、ドキュメント生成など)。これがAIエージェントに最初に任せるべきタスクの候補になる
- 今週中: Claude CodeまたはCursor等の対話型AIコーディングツールで、リストアップしたタスクの1つを試験的に実施し、品質・速度を計測する(無料プランで十分試せる)
- 今月中: Devin AIのエンタープライズプランの問い合わせ、またはGitHub Copilot Enterprise のトライアルを開始し、パイロット展開の計画を立てる
「AIコーディングエージェントは大手だけのもの」というのは誤解です。Goldman Sachsが実証したのは「反復タスクを明確に定義してAIに任せる」という考え方です。これは規模に関わらず実践できます。導入検討の詳細は お問い合わせフォーム からご相談ください。
著者: 佐藤傑(さとう・すぐる)
株式会社Uravation代表取締役。早稲田大学法学部在学中に生成AIの可能性に魅了され、X(旧Twitter)で活用法を発信(@SuguruKun_ai、フォロワー約10万人)。100社以上の企業向けAI研修・導入支援を展開。著書『AIエージェント仕事術』(SBクリエイティブ)。SoftBank IT連載7回執筆(NewsPicks最大1,125ピックス)。
参考・出典
- Goldman Sachs is testing viral AI agent Devin as a ‘new employee’ — TechCrunch(参照日: 2026-03-27)
- Meet Devin the AI Software Engineer, Employee #1 in Goldman Sachs’ “Hybrid Workforce” — IBM Think(参照日: 2026-03-27)
- Devin’s 2025 Performance Review: Learnings From 18 Months of Agents At Work — Cognition(参照日: 2026-03-27)
- Infosys and Cognition Announce Strategic Collaboration to Accelerate the AI Value Journey — Infosys(参照日: 2026-03-27)
- Goldman Sachs doesn’t have to hire a $180,000 software engineer—meet Devin — Fortune(参照日: 2026-03-27)
- Infosys partners with Cognition to expand engineering capacity — Cognition(参照日: 2026-03-27)


