結論: Anthropicは2026年4月、Mythos PreviewがASL-4(AI Safety Level 4)閾値を超えたと判定し非公開とした。これは「AI企業が自ら開発した製品の公開を安全性の理由で停止した」AI史上初の事例であり、企業のAI調達・ガバナンス担当者は対応を始めるべき重要なシグナルだ。
この記事の要点:
- ASL-4とは: 生物兵器支援能力・大規模サイバー攻撃自律実行という「真に危険な能力閾値」
- MythosはProject Glasswingとして12社の精鋭セキュリティ企業にのみ限定公開
- Responsible Scaling Policy v3.0(2026年)はFrontier Safety Roadmapと定量的リスクレポートを義務化
対象読者: AI調達担当者・法務・コンプライアンス・CISO・経営企画でAIガバナンスを検討している方
読了後にできること: ASL基準を企業のAIベンダー評価指標に組み込むチェックリストを今日から作成できる
「このAI、本当に安全なんですか?」
企業向けAI研修で、最近この質問が急増しています。特に2026年4月以降、Anthropicのニュースを見た経営層や法務部門からの問い合わせが増えてきました。
先日、金融機関の法務部門(従業員800名規模)からこんな相談がありました。「Anthropicが開発したAIが『危険すぎて公開できない』って報道されましたよね。うちで使っているClaudeは大丈夫なの?契約を見直すべき?」——これ、すごく真っ当な疑問です。
そして答えは「Claudeは現在ASL-2〜3で安全に運用されている。ただし、ASL-4の概念を理解することはベンダー評価に確実に役立つ」です。
この記事では、Anthropicのai Safety Levels(ASL)フレームワークの全貌と、Mythos Preview非公開の経緯、そして企業のAI調達・ガバナンス担当者が今日から実践できる対応ステップを体系的に解説します。
AI全般のガバナンス・セキュリティについては AI導入戦略完全ガイド もあわせてご確認ください。
まず全体像:ASL(AI Safety Levels)フレームワークとは
Anthropicが2023年9月に策定し、2026年に大幅改訂したResponsible Scaling Policy(RSP)の中核がASLです。簡単に言うと「AIの危険性レベルを数字で定義し、レベルに応じた安全措置を義務化する」フレームワークです。
| レベル | 危険性の定義 | 代表的なモデル(参考) | 必要な安全措置 |
|---|---|---|---|
| ASL-1 | 特定可能な危険能力を持たない。既存AIと同等以下 | (初期のGPT-2クラス) | 標準的なソフトウェア安全基準 |
| ASL-2 | 危険情報へのアクセスを容易にするが、実質的な向上なし(検索エンジン・教科書と同等) | Claude 3シリーズ・GPT-4クラス | 基本的な不正使用防止フィルター、安全利用ポリシー |
| ASL-3 | 生物・化学・核・放射線兵器の作成に「実質的な支援」を提供できる。または低レベルの自律能力(自己複製の初期兆候など) | Claude Opus 4.6(ASL-3に相当) | 厳格な不正使用防止・アクセス制限・第三者評価・内部安全審査 |
| ASL-4 | 大規模な国家安全保障レベルの脅威(生物・サイバー)を独力で引き起こせる。独立したAI研究を大幅に加速できる | Mythos Preview(ASL-4判定・非公開) | (現在設計中)極めて限定的なアクセス管理、ハードウェアレベルのセキュリティ |
| ASL-5以上 | 未定義。「人類の管理を根本的に脅かす能力」が想定される | (未存在) | (未定義) |
重要なのは、これが「Anthropicが開発するモデルは毎回このテストを受ける」という義務的フレームワークだという点です。「公開したいから評価をスキップする」ことは、RSP上できません。
MythosはなぜASL-4になったのか — 2つの危険能力
危険能力1:生物兵器支援(Biohazard)
Anthropicの評価チームと英国AI安全機構(AISI)の評価によると、Mythos Previewは次の能力を示しました:
- 危険な生物剤の合成に向けた化学経路の予測
- ウイルス学の実験プロトコルのトラブルシューティングを人間専門家の上位6%レベルで実行
- バイオセキュリティの封じ込めの微妙な欠陥を発見するための「連鎖推論」の自動化
- 非専門家が危険な生物剤を作成するための「実践的・実地的な知識」の提供
Anthropic公式表現: “tacit, hands-on knowledge of laboratory protocols that could assist a non-expert in creating dangerous biological agents”
危険能力2:自律的なゼロデイ脆弱性発見(Cybersecurity)
これが2026年4月に最も大きなニュースになった部分です。Mythos Previewが内部評価で示した能力:
- 主要OSとWebブラウザ全てに数千件の高深刻度(High-Severity)脆弱性を自律発見
- 発見した脆弱性の99%は未パッチ(当時)
- バーチャルサンドボックスからの脱出を指示通りに実行し、結果を公開サイトに投稿(テスト環境での発生)
- 人間のセキュリティ専門家が数日かかる多段階攻撃を自律実行
この能力が公開されれば、世界中の企業・政府のインフラが24時間以内に脆弱性を突かれる可能性がある——これがAnthropicの判断根拠です。
ASL-4判定のプロセス
Anthropicが「ASL-4基準を超えた」と判定したのは、以下のプロセスを経ています:
- 内部Red Team評価(Anthropicのセキュリティチーム)
- 英国AI安全機構(UK AISI)による第三者評価
- 外部生物・サイバーセキュリティ専門家によるレビュー
- AnthropicのCEO Dario Amodei・CTO Tom Brownによる最終判断
複数の独立した評価を経て、「ASL-3の安全措置では不十分」という結論に至りました。
Responsible Scaling Policy v3.0(2026年改訂版)の全貌
2026年に発表されたRSP v3.0は、v1・v2からの大幅な改訂です。企業のAI調達担当者が特に注目すべき3つのポイントを解説します。
変更点1:Frontier Safety Roadmapの義務化
RSP v3.0では、Anthropicが毎年「Frontier Safety Roadmap」を公開することが義務になりました。このロードマップには:
- Security(物理・デジタルセキュリティ)の改善計画
- Alignment(AIが人間の意図に従うこと)の研究進捗
- Safeguards(不正使用防止策)の強化計画
- Policy(規制当局・政府との連携)の方針
これは「何をするか」だけでなく「いつまでに・どの指標で測るか」が明記される点で、v1・v2より大幅に具体的です。
変更点2:定量的リスクレポートの導入
RSP v3.0では、デプロイされている全モデルについて定量的なリスク値を公開するRisk Reportsが義務化されました。
これは企業のAI調達にとって重要な変化です。「安全です」という定性的な主張ではなく、数値で裏付けられたリスク評価を入手できるようになりました。
変更点3:業界横断的なコミットメントの分離
v3.0はAnthropicが単独で実施するコミットメントと、業界全体で実施すべきコミットメントを明確に分けました。
- Anthropic単独コミットメント: 「ASL-4以上のモデルは公開しない(現在)」「評価プロセスを飛ばさない」など、実現可能な約束
- 業界横断的なコミットメント: 政府・他AI企業との協調が必要な措置(計算資源へのアクセス制限、国際的な評価基準の統一など)
Project Glasswing:Mythos Previewの限定公開体制
「非公開」とはいえ、Mythos Previewは完全に封印されているわけではありません。Anthropicが設計したのは「防衛のためだけに使う限定アクセス」体制です。
Project Glasswingに参加しているとされる組織(公式発表より):
- Amazon Web Services
- Apple
- Broadcom
- Cisco
- CrowdStrike
- JPMorgan Chase
- Linux Foundation
- Microsoft
- NVIDIA
- Palo Alto Networks
- (他1社、未公表)
目的: MythosがOSやブラウザに発見した脆弱性を、Mythos自身が「攻撃ツール」として使われる前に、セキュリティ企業がパッチを当てる機会を与える。「攻撃能力を防衛に先に使う」という考え方です。
ビジネス含意: これは一般の日本企業が直接Mythosを利用できるわけではないことを意味します。ただし、Glasswingパートナー企業が発見した脆弱性のパッチがあなたの会社のサーバー・ソフトウェアに適用されることはあります。
「現在使っているClaudeは安全か」— 企業向けQ&A
Q1: 現在一般公開されているClaude(Opus 4.6/4.7・Sonnet 4.6)はASL-3?
A: はい。Anthropic公式発表によると、現在一般公開されているモデルはASL-2〜3の安全措置が適用されています。ASL-3は「厳格な不正使用防止・アクセス制限・第三者評価・内部安全審査」が義務付けられたレベルです。
Q2: MythosがASL-4になったら、次のClaudeも危険なの?
A: 必ずしもそうではありません。Mythos Previewは「公開前の内部評価版」です。Anthropicは「ASL-3の安全措置で対処できる能力まで削減した版を一般公開する」というアプローチをとる可能性があります。これがOpus 4.7(2026年4月16日GA)の位置づけです——MythosではなくOpus 4.7として、ASL-3以内の能力に抑えてリリースされました。
Q3: 他社AI(ChatGPT・Gemini)は同様の評価をしているの?
A: OpenAIは「Preparedness Framework」、GoogleはDeepMindを通じた「Frontier Safety Framework」を持っていますが、Anthropicのように詳細な閾値と測定基準を公開しているのは現時点でAnthropicが最も透明性が高いです。ただし、評価基準が異なるため単純比較はできません。
Q4: 企業としてAIを調達する際、ASL基準をどう使えばいい?
これが最も実践的な質問です。次のセクションで詳しく解説します。
企業のAI調達・コンプライアンス担当者が今やるべきこと5選
アクション1:ベンダー評価にASL相当の質問を追加する
【AIベンダー評価用チェックリストプロンプト(ChatGPT/Gemini等にも使える)】
私はAIソリューションを自社に導入するベンダー評価を担当しています。
以下の質問事項を、評価対象の各AIベンダーに送付するための
フォーマルな質問書の下書きを作成してください。
評価ポイント:
1. 安全評価フレームワーク: 自社モデルの危険能力評価プロセスを開示しているか
2. 外部評価: 第三者機関(政府機関・独立評価機関)による評価を受けているか
3. インシデント対応: モデルに予期しない危険能力が発見された場合の対応手順
4. データ処理: 顧客の入力データはモデル学習に使用されるか
5. SOC 2/ISO 27001等のコンプライアンス認証の有無
6. 日本の個人情報保護法への対応状況
ビジネス調査を前提に、礼儀正しく具体的な質問書を作成してください。
不足情報があれば最初に確認してください。アクション2:社内AI利用ポリシーにASL概念を組み込む
【社内AI利用ポリシー更新プロンプト】
当社の社内AI利用ポリシーを更新したいです。
AnthropicのASL(AI Safety Level)フレームワークを参考に、
「利用可能なAIと利用不可AIの基準」を明記したセクションを追加してください。
当社の状況:
- 業種: [例: 製造業]
- 従業員数: [例: 300名]
- 現在利用中のAI: [例: Claude Pro(社内承認済み)、ChatGPT Plus(個人利用)]
- 機密情報の定義: [例: 顧客情報・設計図・財務情報]
追加してほしいポリシー項目:
1. 利用承認AIの定義基準(安全評価を公開しているベンダーを優先)
2. 機密情報をAIに入力する際の制限
3. AI出力の確認義務(特に法的・財務的な情報)
4. 新しいAIツールの社内承認プロセス
日本の法律・規制を踏まえた内容にしてください。
仮定した点は「仮定」と明記してください。アクション3:今後12ヶ月の業界動向をモニタリングする
ASL-4のような閾値判定は今後も繰り返されます。以下を定期的にモニタリングしてください。
| モニタリング対象 | 確認先 | 頻度 |
|---|---|---|
| Anthropic RSP更新 | anthropic.com/responsible-scaling-policy | 四半期 |
| 英国AI安全機構(AISI)評価 | aisi.gov.uk | 月次 |
| EU AI Act対応状況 | EUR-Lex + AIベンダー公式ブログ | 月次 |
| 日本AI戦略・規制動向 | 経済産業省・内閣府AI戦略室 | 月次 |
| Project Glasswingの脆弱性開示 | CERT/CVE公式発表 | 週次 |
アクション4:CISOと連携し、AIが発見した脆弱性パッチを優先適用する
Project Glasswingの成果として、CrowdStrike・Palo Alto Networks・Ciscoなどがパッチを開発・リリースしています。通常のCVE対応と同じ優先度で扱うのではなく、Glasswing関連と明示されたパッチは優先適用を検討してください。
【CISOへのブリーフィング文書プロンプト】
Anthropic Mythos PreviewのASL-4判定について、
社内CISOへの1ページのブリーフィング文書を作成してください。
含めてほしい内容:
1. 何が起きたか(ファクトサマリー、3〜4行)
2. 当社への直接的な影響(現在利用中のClaudeは安全か)
3. 今後6ヶ月で当社が取るべきアクション3点
4. Project Glasswingパートナーが開発するパッチへの対応方針
テクニカルな内容を経営層でも理解できる言葉で書いてください。
数字の根拠(出典)を添えてください。アクション5:EU AI Actとの関係を理解する
EU AI Act(2025年8月施行開始)は「高リスクAI」の定義と義務を定めています。ASL-3以上のモデルは、EU AI ActのGPAI(汎用AI)規定の対象となる可能性があります。
EU域外の日本企業でも、EU顧客に関するデータをAIで処理する場合は適用される可能性があります。法務部門への確認を推奨します。
【要注意】ASL-4ニュースで起こりがちな誤解と正しい理解
誤解1:「Anthropicが危険なAIを作っているから使うべきではない」
❌ Anthropicのツールは危険だから使うのをやめる
⭕ Anthropicは「危険能力を発見したら公開しない」という自主規制を最も透明に実行している
なぜこの理解が重要か: Mythos Previewの能力を発見できたのは、Anthropicが体系的な評価フレームワーク(RSP)を持っているからです。評価フレームワークを持たないベンダーは「危険性に気づいていないだけ」の可能性があります。
誤解2:「ASL-4以上のAIが将来公開されることはない」
❌ 危険なAIは永遠に非公開のまま
⭕ ASL-4の安全措置が整備されれば、ASL-4モデルも(限定的に)公開される可能性がある
なぜこの理解が重要か: ASL-3も2023年に「まだ定義されていない」状態でした。しかしAnthropicはASL-3の安全措置を設計し、2025年に初めてASL-3対応モデルをリリースしました。同様に、ASL-4の安全措置が整備される可能性はあります。
誤解3:「AI安全性は学術的な話で、ビジネスには関係ない」
❌ ASLやRSPは研究者が気にすることで、実務には無関係
⭕ ASL評価の結果は、あなたの会社のソフトウェアのパッチ適用優先度と直結する
具体例: Project GlasswingでCrowdStrikeが発見してパッチを当てた脆弱性は、放置すれば世界中の企業のWindowsサーバーに影響するものです。これはAI研究の話ではなく、月次のIT運用の話です。
誤解4:「他のAI企業も同じ評価をしているから安心」
❌ OpenAI・Googleも評価しているから、業界全体で管理できている
⭕ 各社の評価基準・閾値・公開レベルは大きく異なり、横断的な比較は難しい
現実: 2026年4月時点で、Anthropicほど詳細なASL定義・評価プロセス・閾値を公開しているAI企業はほぼありません。「評価している」と「結果を公開している」は別の話です。
今後の注目ポイント:2026年下半期のAI安全規制動向
以下のトピックが、2026年下半期に大きく動く可能性があります。
- ASL-4安全措置の設計: Anthropicは「ASL-4の安全措置を書く前にASL-4モデルを作らない」と約束しています。Mythos Preview評価後、ASL-4措置の設計が本格化するはずです
- UK AI Safety Summit 2026の提言: 英国主導の国際AI安全サミットで、ASL類似の国際基準が議論される見通し
- 日本の生成AI規制指針: 経済産業省・内閣府が生成AIの規制ガイドラインを策定中。ASL的な能力評価基準が参考にされる可能性
- EU AI Act GPAI条項の詳細規則: 汎用AIに関する詳細規則が2026年中に策定される見通し。ASL-3以上のモデルへの義務が明確化される可能性
まとめ:今日から始める3つのアクション
- 今日やること: 上記「AIベンダー評価用チェックリストプロンプト」を使い、現在利用中のAIベンダーへの質問書を下書きする(30分)
- 今週中: 「CISOへのブリーフィング文書プロンプト」で1ページのブリーフィング資料を作成し、情報システム部門・法務部門に共有する
- 今月中: 社内AI利用ポリシーを更新し、「安全評価を公開しているベンダーを優先する」という文言を明記する
正直に言うと、ASL-4やRSPは「理解した気になるのは簡単だけど、実務に落とし込むのが難しい」領域です。でも、今回の記事で紹介した5つのアクションは、AI安全の専門家でなくても明日から実行できるものを選びました。まず1つから始めてみてください。
次回予告: 次の記事では「AIガバナンス担当者のためのリスク評価テンプレート集」をテーマに、ASLを含む複数フレームワークを統合した実践的な評価ツールを公開します。
参考・出典
- Anthropic’s Responsible Scaling Policy — Anthropic公式(参照日: 2026-04-19)
- Responsible Scaling Policy Version 3.0 — Anthropic公式(参照日: 2026-04-19)
- Activating AI Safety Level 3 protections — Anthropic公式(参照日: 2026-04-19)
- Our evaluation of Claude Mythos Preview’s cyber capabilities — UK AI Safety Institute(参照日: 2026-04-19)
- How Anthropic Discovered Mythos AI Was Too Dangerous For Release — Bloomberg(参照日: 2026-04-19)
- Anthropic’s RSP v3.0: How it Works, What’s Changed, and Some Reflections — Centre for the Governance of AI(参照日: 2026-04-19)
- Anthropic withholds Mythos Preview model because its hacking is too powerful — Axios(参照日: 2026-04-19)
著者: 佐藤傑(さとう・すぐる)
株式会社Uravation代表取締役。早稲田大学法学部在学中に生成AIの可能性に魅了され、X(旧Twitter)で活用法を発信(@SuguruKun_ai、フォロワー約10万人)。100社以上の企業向けAI研修・導入支援を展開。著書『AIエージェント仕事術』(SBクリエイティブ)。SoftBank IT連載7回執筆(NewsPicks最大1,125ピックス)。
ご質問・ご相談は お問い合わせフォーム からお気軽にどうぞ。


