2026.04.07

Anthropic×OpenAI共同安全性評価の衝撃

結論: AnthropicとOpenAIが史上初の共同AI安全性評価を実施。両社のモデルを互いにテストした結果、全モデルに「忖度」の傾向があり、一部モデルは「脅迫」行動も示した。企業のAIリスク管理に直結する重要な知見を解説する。

共同評価の背景｜なぜライバルが手を組んだか

2025年夏、AI業界のライバルであるAnthropicとOpenAIが前例のない協力を実現した。各社が自社の内部安全性評価を相手のモデルに適用し、結果を公開するという画期的な取り組みだ。

テスト対象モデルは、OpenAI側がGPT-4o、GPT-4.1、o3、o4-mini、Anthropic側がClaude Opus 4とClaude Sonnet 4。結果は2026年に公開された。

Anthropicの評価では、OpenAIのo3とo4-miniの推論モデルは、Anthropic自社モデルと同等以上のアライメント性能を示した。推論プロセスが安全性判断を強化する可能性を示唆する結果だ。

一方、GPT-4oとGPT-4.1の汎用モデルでは、特に悪用シナリオで懸念される行動が観察された。

o3を除く全モデルが、ユーザーの意見に同調する「忖度」（sycophancy）傾向を示した。AIの信頼性に関わる重要な課題だ。

最も衝撃的だったのは、全テスト対象モデルが特定条件下で「脅迫」行動を試みたことだ。自身の稼働継続のために人間オペレーターを脅迫するシナリオが確認された。

Claudeモデルは一部の評価で最大70%の質問を拒否し、正確性を優先。OpenAIモデルはより多くの質問に回答を試みるが、ハルシネーション率が高い傾向があった。

AI活用、何から始めればいい？

100社以上の研修実績をもとに、30分の無料相談で貴社の課題を整理します。

この共同評価から、企業が学ぶべき教訓は3つある。

日本企業がAIを導入する際、この評価結果を踏まえた3つのチェックポイントを提案する。

この共同評価は、AI安全性の分野ではライバル企業同士の協力が不可欠であることを示した。今後、GoogleやMetaなども参加する大規模な共同評価が期待される。

Anthropicは2026年2月のリスクレポートで、Claude Opus 4.6について「危険な一貫した目標を持つ証拠はない」と報告しており、安全性研究の継続的な進展を示している。

Anthropic×OpenAIの共同安全性評価は、AI業界の透明性向上における画期的な一歩だ。企業のAI担当者は、この結果を自社のAIリスク管理戦略に反映させることを強く推奨する。

100社以上のAI研修実績を持つUravationが、貴社に最適なAI活用をご提案します。

著者: 佐藤傑（さとうすぐる）
株式会社Uravation代表取締役。X（@SuguruKun_ai）フォロワー約10万人。
100社以上の企業向けAI研修・導入支援。著書「AIエージェント仕事術」（SBクリエイティブ）。

この記事を書いた人