まず5分で試せる｜Slack障害通知Botの最小構成とは？

本記事の「まず5分で試せる｜Slack障害通知Botの最小構成」セクションで完全解説しています。

status.claude.comの完全ガイド｜見方・購読・活用法とは？

本記事の「status.claude.comの完全ガイド｜見方・購読・活用法」セクションで完全解説しています。

Anthropic SLAの実態｜Enterprise契約で何が保証されるのかとは？

本記事の「Anthropic SLAの実態｜Enterprise契約で何が保証されるのか」セクションで完全解説しています。

フォールバック設計の全パターン｜自動切替の実装方法とは？

本記事の「フォールバック設計の全パターン｜自動切替の実装方法」セクションで完全解説しています。

監視ツール統合｜Datadog・PagerDutyとの連携とは？

本記事の「監視ツール統合｜Datadog・PagerDutyとの連携」セクションで完全解説しています。

インシデントレスポンス手順テンプレートとは？

本記事の「インシデントレスポンス手順テンプレート」セクションで完全解説しています。

完全版 Slack通知Bot｜RSS・JSON API・Webhookを組み合わせた実装とは？

本記事の「完全版 Slack通知Bot｜RSS・JSON API・Webhookを組み合わせた実装」セクションで完全解説しています。

2026年4月の主要障害事例から学ぶ運用設計とは？

本記事の「2026年4月の主要障害事例から学ぶ運用設計」セクションで完全解説しています。

ツール比較・実践ガイド 2026.05.03 （更新: 2026.06.06）

Claude Status 監視完全ガイド【2026年最新】障害検知・SLA設計・自動フォールバック早見表

結論: Claude APIは2026年4月だけで重大障害が3回発生しており、「障害に気づいてから動く」ではなく「障害を予測して備える」運用設計が企業に求められています。

この記事の要点:

要点1: status.claude.comでは6コンポーネントの稼働状況をリアルタイム確認でき、RSSフィードやWebhookで自動通知も設定可能
要点2: Anthropic Enterpriseは2026年3月より99.99%アップタイムSLAを提供開始。標準APIは保証なし
要点3: LiteLLMやAI Gatewayを使えば、Claude→OpenAI→Geminiの自動フォールバックをコード5行以内で実装できる

対象読者: Claude APIをプロダクションで利用する開発者・SRE・AI運用担当者

読了後にできること: 今日すぐSlackに障害通知を流すPython Botを構築できる

「Claude APIが落ちてる！サービスが止まった！」

企業のAIシステム運用担当者から、こういう連絡が来るたびに思うことがあります。問題は障害の発生ではなく、障害を知るまでに5分も10分もかかっていることです。

2026年4月だけで、Anthropicは3回の重大インシデントを起こしました。4月15日の約2時間の障害では2,000人以上のユーザーが影響を受け、4月28日の78分間の大規模障害では12,000件以上の障害報告がDowndetectorに集まりました。毎月のように起きているのが現実です。

私がAI導入支援をしていて気づくのは、「Claude Status監視」と一口に言っても、個人がサービスを使うレベルと、企業がAPIをプロダクション運用するレベルでは、必要な設計がまったく異なるということです。この記事では、B2B運用担当者向けに、監視・SLA設計・フォールバック自動化を一気通貫で解説します。

5分で試せる実装サンプルから始めますので、ぜひ今日から取り入れてください。

まず5分で試せる｜Slack障害通知Botの最小構成

理論より先に動くものを見てもらいます。以下のコードをCronで5分おきに実行するだけで、Claude APIの障害を即座にSlackに通知できます。

import requests
import json

# status.claude.com の JSON API から稼働状態を取得
STATUS_API = "https://status.claude.com/api/v2/summary.json"
SLACK_WEBHOOK = "https://hooks.slack.com/services/YOUR/WEBHOOK/URL"

def check_claude_status():
    resp = requests.get(STATUS_API, timeout=10)
    data = resp.json()

    # インジケーター: none / minor / major / critical
    indicator = data["status"]["indicator"]
    description = data["status"]["description"]

    if indicator != "none":
        # 障害発生時のみSlackに通知
        components = data.get("components", [])
        affected = [c for c in components if c["status"] != "operational"]

        payload = {
            "text": f":red_circle: *Claude障害検知* `{indicator}`n{description}",
            "attachments": [
                {
                    "color": "#FF0000" if indicator in ["major", "critical"] else "#FF8800",
                    "fields": [
                        {"title": c["name"], "value": c["status"], "short": True}
                        for c in affected
                    ]
                }
            ]
        }
        requests.post(SLACK_WEBHOOK, json=payload)
        return True
    return False

if __name__ == "__main__":
    check_claude_status()

このコードは本記事後半で詳しく解説しますが、まずは「5分で動くBot」として手元で試してみてください。

ポイント: status.claude.comはStatuspage.ioベースのシステムで、/api/v2/summary.jsonに叩くとJSON形式でリアルタイムの稼働情報が取得できます。不足している情報があれば、最初に質問してから作業を開始してください。

status.claude.comの完全ガイド｜見方・購読・活用法

Anthropicの公式ステータスページは、2024年以前はstatus.anthropic.comでしたが、現在はstatus.claude.com（旧URLから自動リダイレクト）に移行しています。

AI導入支援の現場でよく聞かれるのが「Statusページって何を見ればいいの？」という質問です。単にページを開くだけでは意味がなく、何が監視されていて、どう解釈するかを理解することが重要です。

監視されている6コンポーネント（2026年5月時点）

コンポーネント	URL/用途	90日間稼働率
claude.ai	Web UIサービス	98.69%
Claude Console	platform.claude.com（開発者ポータル）	99.11%
Claude API	api.anthropic.com（APIエンドポイント）	99.01%
Claude Code	コーディング支援機能	99.18%
Claude Cowork	チームコラボ機能	99.35%
Claude for Government	政府機関向け環境	99.86%

企業のAPI利用において最も重要なのはClaude API（99.01%）です。この数字が意味するのは、90日間でおよそ21時間以上のダウンタイムがあったということ。「99%だから安定してる」と楽観視するのは危険です。

ステータスインジケーターの読み方

インジケーター	意味	対応レベル
🟢 Operational	正常稼働	無視でOK
🟡 Degraded Performance	遅延・部分的な問題	監視強化
🟠 Partial Outage	一部機能の停止	フォールバック準備
🔴 Major Outage	大規模障害	即フォールバック切替

通知を受け取る4つの方法

Statusページ右上の「Subscribe to Updates」から設定できます。

メール通知: 障害発生・更新・解決のたびにメールを受信。個人利用や小規模チームに最適
Slack/Teams連携: チャンネルに直接通知。運用チームへの共有に便利
Webhook: 自前のシステムに通知を送信。後述するインシデントレスポンスの自動化に活用
RSS/Atomフィード: https://status.anthropic.com/history.rssでインシデント履歴を購読

企業運用ではWebhookとSlack通知の両方を設定するのがおすすめです。Webhookは後述するフォールバック自動化のトリガーにでき、Slack通知はチームへの共有に使えます。

JSON APIでプログラマブルに監視する

StatusPage.ioのAPIは以下の3エンドポイントを使います。

エンドポイント	用途
`https://status.claude.com/api/v2/summary.json`	現在の全体ステータス（最もよく使う）
`https://status.claude.com/api/v2/incidents.json`	進行中のインシデント一覧
`https://status.claude.com/api/v2/incidents/unresolved.json`	未解決インシデントのみ

認証不要・無料で利用できます。summary.jsonには全コンポーネントのステータスが含まれるため、API監視にはこれ1本で十分です。

AI導入支援の現場でよく見かける失敗が、「Statusページをブックマークして目視確認する」というアプローチです。人間が定期的に確認するのは非現実的で、障害発生から気づくまでに30分以上かかることも珍しくありません。必ずプログラムによる自動監視を設定してください。

AIエージェントの基本概念や導入ステップについては、AIエージェント導入完全ガイドで体系的にまとめています。システム全体のAI活用設計と合わせてご参照ください。

Anthropic SLAの実態｜Enterprise契約で何が保証されるのか

「SLA」という言葉を企業担当者と話すと、多くの場合「Anthropicから99.9%とか保証されてるんですよね？」という認識を持たれています。これは正確ではありません。

プラン別のSLA比較（2026年5月時点）

プラン	SLA	ダウンタイム許容（月）
個人向け（Claude.ai無料・Pro）	なし	保証なし
API（従量課金）	なし（ベストエフォート）	保証なし
Team/Business	なし	保証なし
Enterprise（50席以上）	99.99%（2026年3月〜）	約4.3分/月

重要なポイントは、通常のAPI利用ではSLAが一切存在しないということです。スタートアップや中小企業がAPIキーを直接使っている場合、どれだけ障害が長引いても補償は受けられません。

Enterprise SLA（99.99%）の詳細

2026年3月にAnthropicはClaude 5リリースと同時に、Enterprise向けのセキュリティ認証とSLAを正式発表しました。

稼働率保証: 99.99%（月間許容ダウンタイム約4.3分）
最低契約規模: 50席以上、年間$50,000〜
含まれる機能: SSO/SCIM、監査ログ、DPA、HIPAA BAA、専任アカウントマネージャー
SLAクレジット: 契約書に明記された閾値を下回った場合、月額料金からのクレジット

ただし、注意が必要な点があります。SLAクレジットの計算方法、測定対象範囲（APIのみか、コンソールも含むか）、クレジットが唯一の救済手段かどうかは契約交渉の余地がある項目です。契約前に法務・調達と確認することをおすすめします。

SLAなし環境での自衛手段

Enterprise契約を結んでいない場合でも、運用設計で対応することは十分可能です。以下が実務的なアプローチです。

マルチプロバイダー戦略: Claude + OpenAI + Geminiの3つを並行利用、障害時に自動切替
AWS Bedrock経由の利用: BedrockでもClaude 3.5/3.7は利用可能。Anthropicとは別のインフラ・クォータプール
自前のSLO設定: APIレスポンスタイムとエラーレートを監視し、社内SLOを定義

フォールバック設計の全パターン｜自動切替の実装方法

AI運用担当者として100社以上の現場を見てきて、障害時に「手動で切り替えてください」という指示を出している企業がまだ多いことに驚きます。AIをプロダクションに組み込んでいるなら、フォールバックは自動でなければ意味がありません。

フォールバック設計の3パターン

パターン	概要	向いているケース
A: プロバイダー切替型	Claude→OpenAI→Geminiの順で自動フォールバック	コスト管理が重要な場合
B: 同一プロバイダー内モデル切替	Claude 3.7→3.5→Haiku（軽量モデルへのデグレード）	Claudeに特化した用途
C: リージョン/デプロイ切替	Anthropic直API→AWS Bedrock→GCP Vertex AIへの切替	大規模・ミッションクリティカル

LiteLLMを使ったパターンA実装（推奨）

LiteLLMはOpenAI互換のプロキシで、バックエンドに複数プロバイダーを設定してフォールバックを自動化できます。

# インストール
pip install litellm

# config.yaml
model_list:
  - model_name: "production-llm"
    litellm_params:
      model: "anthropic/claude-sonnet-4-5"
      api_key: "sk-ant-xxx"

  - model_name: "production-llm"
    litellm_params:
      model: "openai/gpt-4o"
      api_key: "sk-openai-xxx"

  - model_name: "production-llm"
    litellm_params:
      model: "gemini/gemini-1.5-pro"
      api_key: "AIza-xxx"

router_settings:
  routing_strategy: "fallback"
  num_retries: 2
  fallbacks: [{"production-llm": ["openai/gpt-4o", "gemini/gemini-1.5-pro"]}]

from litellm import Router

# ルーターの初期化
router = Router(
    model_list=[
        {
            "model_name": "production-llm",
            "litellm_params": {
                "model": "anthropic/claude-sonnet-4-5",
                "api_key": os.environ["ANTHROPIC_API_KEY"]
            }
        },
        {
            "model_name": "fallback-llm",
            "litellm_params": {
                "model": "openai/gpt-4o",
                "api_key": os.environ["OPENAI_API_KEY"]
            }
        }
    ],
    fallbacks=[{"production-llm": ["fallback-llm"]}],
    num_retries=3,
    retry_after=5  # 5秒待ってからリトライ
)

response = router.completion(
    model="production-llm",
    messages=[{"role": "user", "content": "分析してください"}],
)
# Claudeが落ちていれば自動的にGPT-4oに切り替わる

このコードはClaude APIが503/529（過負荷）や5xxエラーを返した場合、自動的にフォールバック先に切り替えます。アプリケーションコードを変更する必要はありません。

事例区分: 想定シナリオ
100社以上の研修経験をもとに構成した典型的なシナリオです。SaaS企業の開発チームがClaude APIを使ったAI機能をリリースしたとします。リリース後1週間で、Claude APIの障害によりAPI呼び出しの30%が失敗するインシデントが発生しました。LiteLLMを使ったフォールバックを事前に設定していたチームでは、ユーザー影響ゼロで障害期間を乗り切りました。設定していなかったチームは、約1時間のサービス停止と手動対応に追われました。

AWS Bedrockを使ったパターンC実装

AWS Bedrockは、AnthropicのClaude 3.5/3.7をAWSのインフラ上で動かせるサービスです。Anthropic直APIとは別のインフラ・クォータプールのため、Anthropic側の障害の影響を受けにくいというメリットがあります。

import boto3
import anthropic
import json

def call_claude_with_bedrock_fallback(prompt: str) -> str:
    """
    まずAnthropicダイレクトAPIを試み、失敗時はAWS Bedrockにフォールバック
    """
    # 1. Anthropic直API（プライマリ）
    try:
        client = anthropic.Anthropic()
        message = client.messages.create(
            model="claude-sonnet-4-5",
            max_tokens=1024,
            messages=[{"role": "user", "content": prompt}]
        )
        return message.content[0].text
    except anthropic.APIStatusError as e:
        if e.status_code in [500, 503, 529]:
            print(f"Anthropic API障害検知 ({e.status_code}), Bedrockへフォールバック")
        else:
            raise

    # 2. AWS Bedrock（フォールバック）
    bedrock = boto3.client("bedrock-runtime", region_name="us-east-1")
    body = json.dumps({
        "anthropic_version": "bedrock-2023-05-31",
        "max_tokens": 1024,
        "messages": [{"role": "user", "content": prompt}]
    })

    response = bedrock.invoke_model(
        body=body,
        modelId="anthropic.claude-3-5-sonnet-20241022-v2:0",
        contentType="application/json",
        accept="application/json"
    )
    result = json.loads(response["body"].read())
    return result["content"][0]["text"]

# 使用例
response = call_claude_with_bedrock_fallback("このデータを分析してください")

フォールバック設計の判断基準

どのパターンを選ぶかは、以下の基準で判断します。

判断軸	推奨パターン
Claudeに特化した機能（Claude固有の能力が必要）	パターンB（同一プロバイダー内）
コスト最適化が重要で、品質は多少落ちてもOK	パターンA（LiteLLM）
AWS環境で動作しており、データを外部に出したくない	パターンC（Bedrock）
週10万回以上のAPI呼び出しがある本番環境	パターンA or Cを推奨
PoC・社内ツール・低頻度利用	フォールバック不要なことも多い

監視ツール統合｜Datadog・PagerDutyとの連携

Claude Status監視を既存のオブザーバビリティ基盤に統合することで、他のシステム監視と一元管理できます。

DatadogによるClaude API監視

DatadogはAnthropicとネイティブ統合を提供しており、LLMアプリケーションの監視に使えます。主な監視項目は以下です。

APIレスポンスタイム: p50/p95/p99のレイテンシを追跡
エラーレート: HTTP 4xx/5xxの発生率
トークン使用量・コスト: Anthropic Usage APIと連携してコスト可視化
モデル別の性能比較: Claude 3.7 Sonnetとclaude-3-5-haiku-20241022の比較

# Datadog に Claude API呼び出し情報を送信するサンプル
from ddtrace import tracer
from ddtrace.llmobs import LLMObs

LLMObs.enable(ml_app="my-claude-app")

@tracer.wrap()
def call_claude(prompt: str):
    with LLMObs.workflow("claude-inference"):
        # Claude API呼び出し
        response = anthropic_client.messages.create(
            model="claude-sonnet-4-5",
            max_tokens=1024,
            messages=[{"role": "user", "content": prompt}]
        )

        LLMObs.annotate(
            span=tracer.current_span(),
            input_data=[{"role": "user", "content": prompt}],
            output_data=[{"role": "assistant", "content": response.content[0].text}],
            tags={"model": "claude-sonnet-4-5", "tokens": response.usage.input_tokens}
        )

        return response.content[0].text

PagerDutyとの統合（インシデント対応の自動化）

Claude APIの障害を検知したとき、PagerDutyでオンコール担当者に自動でページングする構成です。

import requests

def trigger_pagerduty_incident(severity: str, summary: str):
    """
    Claude障害検知時にPagerDutyインシデントを自動作成
    severity: critical / error / warning / info
    """
    headers = {
        "Content-Type": "application/json",
        "Authorization": f"Token token={PAGERDUTY_API_KEY}"
    }

    payload = {
        "routing_key": PAGERDUTY_INTEGRATION_KEY,
        "event_action": "trigger",
        "payload": {
            "summary": f"Claude API障害: {summary}",
            "severity": severity,
            "source": "claude-status-monitor",
            "component": "Claude API",
            "group": "AI-Infrastructure",
            "custom_details": {
                "status_page": "https://status.claude.com/",
                "fallback_enabled": True,
                "runbook_url": "https://wiki.example.com/claude-incident-runbook"
            }
        },
        "links": [{"href": "https://status.claude.com/", "text": "Claude Status"}]
    }

    resp = requests.post(
        "https://events.pagerduty.com/v2/enqueue",
        headers=headers,
        json=payload
    )
    return resp.json()

# Status監視と統合
def monitor_and_alert():
    resp = requests.get("https://status.claude.com/api/v2/summary.json")
    data = resp.json()
    indicator = data["status"]["indicator"]

    severity_map = {
        "minor": "warning",
        "major": "error",
        "critical": "critical"
    }

    if indicator in severity_map:
        trigger_pagerduty_incident(
            severity=severity_map[indicator],
            summary=data["status"]["description"]
        )

Grafanaダッシュボードでの可視化

Grafanaを使うと、Claude APIの稼働状況を独自ダッシュボードで可視化できます。メトリクス収集にはPrometheusのHTTPエンドポイントを使う方法が一般的です。

from prometheus_client import Gauge, start_http_server
import requests
import time

# Prometheusメトリクス定義
claude_api_status = Gauge(
    'claude_api_status',
    'Claude API operational status (1=operational, 0=degraded/outage)',
    ['component']
)

def update_claude_metrics():
    """Claudeステータスをスクレイプしてメトリクスを更新"""
    resp = requests.get("https://status.claude.com/api/v2/summary.json", timeout=10)
    data = resp.json()

    for component in data["components"]:
        value = 1 if component["status"] == "operational" else 0
        claude_api_status.labels(component=component["name"]).set(value)

if __name__ == "__main__":
    start_http_server(8080)  # Prometheusがスクレイプするポート
    while True:
        update_claude_metrics()
        time.sleep(60)  # 1分ごとに更新

このエクスポーターをPrometheusに追加し、Grafanaダッシュボードで可視化することで、Claude APIの稼働状況を他のインフラメトリクスと同じ画面で確認できます。

AI活用、何から始めればいい？

100社以上の研修実績をもとに、30分の無料相談で貴社の課題を整理します。

無料相談はこちら →

インシデントレスポンス手順テンプレート

障害が発生したとき、「何をどの順番でやるか」が事前に決まっていることが重要です。パニックになると判断が遅くなり、被害が拡大します。

インシデントレベルの定義

レベル	Claude側の状態	ビジネス影響	初動対応時間
P1（緊急）	Major/Critical Outage	主要機能が完全停止	5分以内
P2（高）	Partial Outage	一部機能が停止・著しく遅延	15分以内
P3（中）	Degraded Performance	品質低下・遅延あり	1時間以内
P4（低）	Minor issues	軽微な影響	翌営業日

P1インシデント対応フロー（78分以内に完全対応するテンプレート）

## Claude API P1インシデント対応ランブック

### 検知フェーズ（T+0〜5分）
- [ ] status.claude.com で障害レベルを確認
- [ ] 自社APIの実エラーレートを確認（Datadog/Grafana）
- [ ] インシデント担当者をアサイン（PagerDuty自動発報）

### トリアージフェーズ（T+5〜15分）
- [ ] 影響ユーザー数・機能範囲を把握
- [ ] フォールバックの自動切替が動作しているか確認
- [ ] 経営層・CS向けの第一報を送信（Slack #incident チャンネル）

### 対応フェーズ（T+15〜60分）
- [ ] フォールバックが未動作なら手動切替を実施
- [ ] ユーザー向けメンテナンス告知ページを公開
- [ ] status.claude.com を5分おきに監視

### 回復確認フェーズ（T+60〜78分）
- [ ] Claude APIの正常性を確認（HTTPステータス・レスポンスタイム）
- [ ] フォールバックから元のClaudeに戻す
- [ ] 影響を受けたジョブ・リクエストの再処理
- [ ] インシデントレポート作成

ユーザー向けステータス通知テンプレート

インシデント発生時にユーザーに伝えるメッセージのテンプレートです。

【第一報】障害発生時（T+10分以内に送信）
---
【サービス障害のお知らせ】

現在、AI機能の一部においてサービスの利用に支障が生じています。
調査中であり、詳細が判明次第、随時更新いたします。

発生時刻: YYYY年MM月DD日 HH:MM（JST）
影響機能: [具体的な機能名]
---

【復旧報告】解決後（T+30分以内に送信）
---
【サービス復旧のお知らせ】

先ほどご案内していたAI機能の障害は、HH:MM（JST）に復旧いたしました。
ご不便をおかけしたことをお詫び申し上げます。

障害期間: HH:MM 〜 HH:MM（約XX分間）
原因: Claude APIプロバイダー側の障害
対応: [自動フォールバック/手動切替] により継続対応
---

完全版 Slack通知Bot｜RSS・JSON API・Webhookを組み合わせた実装

冒頭で紹介した最小構成Botを発展させた、本番運用に使える完全版です。5分ポーリング + Webhookトリガーのハイブリッド構成で、最速で障害を検知します。

#!/usr/bin/env python3
"""
Claude Status 監視 Bot（本番版）
- 5分ポーリングでJSON APIを監視
- 状態変化時のみSlack通知（重複通知なし）
- Webhookエンドポイントも並行稼働
"""
import json
import os
import time
import hashlib
import requests
from datetime import datetime
from http.server import HTTPServer, BaseHTTPRequestHandler
import threading

STATUS_API = "https://status.claude.com/api/v2/summary.json"
SLACK_WEBHOOK = os.environ["SLACK_WEBHOOK_URL"]
STATE_FILE = "/tmp/claude_status_state.json"
POLL_INTERVAL = 300  # 5分


def get_current_status():
    """Claude Status APIから現在の状態を取得"""
    resp = requests.get(STATUS_API, timeout=10)
    data = resp.json()

    # ステータスのハッシュ（変化検知用）
    status_snapshot = {
        "indicator": data["status"]["indicator"],
        "components": {
            c["name"]: c["status"]
            for c in data["components"]
            if c["group"] is False  # 子コンポーネントのみ
        }
    }
    return status_snapshot, data


def load_previous_state():
    """前回の状態を読み込む"""
    try:
        with open(STATE_FILE) as f:
            return json.load(f)
    except FileNotFoundError:
        return None


def save_state(state):
    """現在の状態を保存"""
    with open(STATE_FILE, "w") as f:
        json.dump(state, f)


def send_slack_notification(status_data, previous=None):
    """Slack通知を送信"""
    indicator = status_data["status"]["indicator"]

    color_map = {
        "none": "#36a64f",
        "minor": "#ffcc00",
        "major": "#ff8c00",
        "critical": "#ff0000"
    }

    color = color_map.get(indicator, "#cccccc")
    emoji_map = {
        "none": ":large_green_circle:",
        "minor": ":large_yellow_circle:",
        "major": ":large_orange_circle:",
        "critical": ":red_circle:"
    }

    # 変化したコンポーネントを検出
    changed_components = []
    if previous:
        for name, prev_status in previous.get("components", {}).items():
            current_status = next(
                (c["status"] for c in status_data["components"] if c["name"] == name),
                None
            )
            if current_status and current_status != prev_status:
                changed_components.append(f"{name}: {prev_status} → {current_status}")

    payload = {
        "attachments": [{
            "color": color,
            "title": f"{emoji_map.get(indicator, '')} Claude Status更新",
            "title_link": "https://status.claude.com/",
            "text": status_data["status"]["description"],
            "fields": [
                {
                    "title": "変化したコンポーネント" if changed_components else "状態",
                    "value": "n".join(changed_components) if changed_components
                             else status_data["status"]["description"],
                    "short": False
                },
                {
                    "title": "インシデント詳細",
                    "value": f"",
                    "short": True
                }
            ],
            "footer": f"Claude Status Monitor | {datetime.now().strftime('%Y-%m-%d %H:%M JST')}",
            "ts": int(time.time())
        }]
    }

    requests.post(SLACK_WEBHOOK, json=payload)


def polling_loop():
    """5分間隔でポーリング"""
    print("Claude Status監視Bot起動（ポーリングモード）")
    while True:
        try:
            current_snapshot, full_data = get_current_status()
            previous = load_previous_state()

            # 状態が変化した場合のみ通知
            if previous is None or previous != current_snapshot:
                print(f"状態変化検知: {current_snapshot['indicator']}")
                send_slack_notification(full_data, previous)
                save_state(current_snapshot)

        except Exception as e:
            print(f"監視エラー: {e}")

        time.sleep(POLL_INTERVAL)


class WebhookHandler(BaseHTTPRequestHandler):
    """StatusPage.ioからのWebhook受信ハンドラ"""

    def do_POST(self):
        content_length = int(self.headers["Content-Length"])
        body = self.rfile.read(content_length)

        data = json.loads(body)

        # StatusPage.ioのWebhookペイロードを処理
        if "incident" in data or "component_update" in data:
            incident = data.get("incident", {})
            impact = incident.get("impact", "unknown")

            if impact in ["major", "critical"]:
                requests.post(SLACK_WEBHOOK, json={
                    "text": f":red_circle: *Webhook: Claude {impact.upper()} インシデント*n{incident.get('name', '')}"
                })

        self.send_response(200)
        self.end_headers()

    def log_message(self, format, *args):
        pass  # ログ抑制


if __name__ == "__main__":
    # ポーリングをバックグラウンドスレッドで起動
    thread = threading.Thread(target=polling_loop, daemon=True)
    thread.start()

    # Webhookサーバーをメインスレッドで起動
    server = HTTPServer(("0.0.0.0", 8080), WebhookHandler)
    print("Webhookサーバー起動: port 8080")
    server.serve_forever()

このBotの特徴は、状態が変化したときのみ通知する（重複通知なし）設計になっていることです。5分ポーリングとWebhookのハイブリッドで、どちらかが失敗しても検知できます。

デプロイ先の選択肢: 軽量なため、AWS Lambdaのスケジュールイベント（5分間隔）+ API Gateway（Webhook受信）という構成が最もコスト効率が良いです。月間コストは数十円程度です。

2026年4月の主要障害事例から学ぶ運用設計

実際に起きた障害を振り返ることで、どんな運用設計が有効だったかを学べます。

事例1: 2026年4月15日の2時間障害

Claudeの全サービス（claude.ai、API、Claude Code）で「Elevated Errors」が発生し、約2時間にわたって影響が続きました。

影響規模: 約2,000ユーザーがDowndetectorで報告
障害時間: 午前10:53 ET〜午後1:42 ET（約2時間50分）
影響したコンポーネント: claude.ai、Claude API、Claude Code

この障害で「生き残った」システムの共通点は、フォールバックを事前に設定しており、エラー検知から自動切替まで5秒以内に完了できていたことでした。

事例2: 2026年4月28日の大規模障害（12,000件報告）

2026年4月28日17:34 UTCから18:52 UTCの78分間、Claude AIのすべてのサービスが大規模障害に見舞われました。

影響規模: 12,000件以上の障害報告（Downdetector）
障害時間: 78分間
影響したコンポーネント: Claude Chat、Claude Code、Claude API全般

この障害で注目すべきは、4月15日から13日後に発生した点です。短期間に複数の重大障害が続く場合、「しばらく大丈夫だろう」という油断が最も危険です。

教訓：障害パターンと対策の対応表

障害パターン	影響	対策
全体障害（APIとUIの同時停止）	ビジネス機能の完全停止	他プロバイダーへのフォールバック（必須）
特定モデルのみ障害	そのモデルへの依存度に応じた影響	同一プロバイダー内のモデル切替（Haiku等に縮退）
構造化出力のみ障害	JSON/Structured output依存機能が停止	プロンプトでのJSON指示へのフォールバック
MCP/ツール利用の障害	ツール呼び出し機能が停止	ツールなしの基本補完モードへのフォールバック

関連する障害確認フローと代替AI切替については、Claude障害確認フロー30秒ガイドもあわせてご参照ください。また、AI導入戦略の全体像では、特定のAIベンダー依存リスクを避けるためのマルチベンダー設計についても解説しています。

【要注意】よくある失敗パターン4選

失敗1: Status確認を「手動・目視」に頼る

❌ 「Statusページをブックマークして、問題が起きたら確認する」

⭕ 「5分ポーリングのBotを設定し、状態変化を自動でSlackに通知する」

なぜ重要か: 障害発生から人間が気づくまでの平均時間は15〜30分と言われています。自動監視があれば5分以内に検知できます。月1〜2回は障害が起きているClaude APIにおいて、手動監視は非現実的です。

失敗2: フォールバックを「設定するだけ」で定期テストしない

❌ 「LiteLLMのフォールバック設定は済んでいる（半年前に）」

⭕ 「月1回、意図的にClaude APIを503エラーにして、フォールバックが実際に動くか確認する」

なぜ重要か: APIキーの期限切れ、設定変更、プロバイダーの仕様変更など、様々な理由でフォールバックが動かなくなることがあります。実際の障害時に「フォールバックのはずが動かなかった」というのが最悪のシナリオです。月1回のゲームデー（カオスエンジニアリング）を推奨します。

失敗3: SLAを「ない」ままプロダクション投入する

❌ 「SLAがないAPIをそのままミッションクリティカルなシステムに組み込む」

⭕ 「SLAなし → マルチプロバイダーフォールバック必須、または Enterprise契約を検討する」

なぜ重要か: SLAなし = 補償なし = 障害時のビジネスリスクは全額自社負担、という意味です。99%のアップタイムでも月に約7時間のダウンタイムが許容されている状態です。ビジネスへの影響を試算したうえで、Enterprise契約を検討するかどうかを判断してください。

失敗4: 障害情報を「エンジニアだけ」が知っている

❌ 「エンジニアチームのSlackチャンネルだけに障害通知が来る」

⭕ 「CS・事業部・経営層まで適切な粒度で情報が流れるエスカレーションフローを設計する」

なぜ重要か: エンジニアが「対応中」で動いている間、CSが「原因不明のエラーです」とユーザーに返答し続けるのはブランドダメージにつながります。P1インシデントは10分以内に関係部署全員に通知されることが理想です。

まとめ：今日から始める3つのアクション

Claude Statusの監視とSLA設計について、基礎から実装まで解説してきました。

今日やること: status.claude.comを開き、「Subscribe to Updates」からSlack通知を設定する。5分でできます。まだ自動監視がない方はこれだけでも大きな前進です。
今週中: 本記事のSlack通知Bot（最小構成版）をローカルで動かしてみる。JSON APIのレスポンスを確認し、自社のアーキテクチャに合わせたフォールバック設計の検討を始める。
今月中: LiteLLMまたはAWS Bedrockフォールバックを実装・テスト環境でテスト。月1回のゲームデー（フォールバック動作確認）の日程を決める。プロダクション規模に応じてEnterprise SLAの必要性を判断する。

参考・出典

Claude Status — Anthropic公式ステータスページ（参照日: 2026-05-03）
Anthropic products are operational after brief outage, status page says — CNBC（参照日: 2026-05-03）
Anthropic’s Claude suffers alarming outage for thousands — Rolling Out（参照日: 2026-05-03）
Anthropic Announces Claude 5 Industry Security Certification & Enterprise Support SLAs — claude5.ai（参照日: 2026-05-03）
Monitor Claude usage and cost data with Datadog Cloud Cost Management — Datadog公式ブログ（参照日: 2026-05-03）
AWS Bedrock | LiteLLM Documentation — LiteLLM公式ドキュメント（参照日: 2026-05-03）
Claude by Anthropic – Models in Amazon Bedrock — AWS公式（参照日: 2026-05-03）

著者: 佐藤傑（さとう・すぐる）
株式会社Uravation代表取締役。早稲田大学法学部在学中に生成AIの可能性に魅了され、X（旧Twitter）で活用法を発信（@SuguruKun_ai、フォロワー約10万人）。100社以上の企業向けAI研修・導入支援を展開。著書『AIエージェント仕事術』（SBクリエイティブ）。SoftBank IT連載7回執筆（NewsPicks最大1,125ピックス）。

ご質問・ご相談はお問い合わせフォームからお気軽にどうぞ。

無料・初回相談

100社以上の支援実績｜30分の無料相談で導入設計を一緒に組みます

Claude Code / Codex の社内展開・チーム導入・セキュリティ設計まで、貴社の業務と組織に合わせて伴走支援します。

100社以上の企業支援実績
初回30分無料・即日返信
導入後3ヶ月の伴走付き

3分で無料相談する → メールで相談する

お問い合わせフォームから24時間以内にUravation担当者がご返信します。

この記事を書いた人

@SuguruKun_ai SoftBank IT連載詳しいプロフィール

media AI活用の最前線

Claude Status 監視完全ガイド【2026年最新】障害検知・SLA設計・自動フォールバック早見表

まず5分で試せる｜Slack障害通知Botの最小構成

status.claude.comの完全ガイド｜見方・購読・活用法

監視されている6コンポーネント（2026年5月時点）

ステータスインジケーターの読み方

通知を受け取る4つの方法

JSON APIでプログラマブルに監視する

Anthropic SLAの実態｜Enterprise契約で何が保証されるのか

プラン別のSLA比較（2026年5月時点）

Enterprise SLA（99.99%）の詳細

SLAなし環境での自衛手段

フォールバック設計の全パターン｜自動切替の実装方法

フォールバック設計の3パターン

LiteLLMを使ったパターンA実装（推奨）

AWS Bedrockを使ったパターンC実装

フォールバック設計の判断基準

監視ツール統合｜Datadog・PagerDutyとの連携

DatadogによるClaude API監視

PagerDutyとの統合（インシデント対応の自動化）

Grafanaダッシュボードでの可視化

インシデントレスポンス手順テンプレート

インシデントレベルの定義

P1インシデント対応フロー（78分以内に完全対応するテンプレート）

ユーザー向けステータス通知テンプレート

完全版 Slack通知Bot｜RSS・JSON API・Webhookを組み合わせた実装

2026年4月の主要障害事例から学ぶ運用設計

事例1: 2026年4月15日の2時間障害

事例2: 2026年4月28日の大規模障害（12,000件報告）

教訓：障害パターンと対策の対応表

【要注意】よくある失敗パターン4選

失敗1: Status確認を「手動・目視」に頼る

失敗2: フォールバックを「設定するだけ」で定期テストしない

失敗3: SLAを「ない」ままプロダクション投入する

失敗4: 障害情報を「エンジニアだけ」が知っている

まとめ：今日から始める3つのアクション

参考・出典

100社以上の支援実績｜30分の無料相談で導入設計を一緒に組みます

よく読まれている記事

Contact お問い合わせ

media AI活用の最前線

Claude Status 監視 完全ガイド【2026年最新】障害検知・SLA設計・自動フォールバック早見表

まず5分で試せる｜Slack障害通知Botの最小構成

status.claude.comの完全ガイド｜見方・購読・活用法

監視されている6コンポーネント（2026年5月時点）

ステータスインジケーターの読み方

通知を受け取る4つの方法

JSON APIでプログラマブルに監視する

Anthropic SLAの実態｜Enterprise契約で何が保証されるのか

プラン別のSLA比較（2026年5月時点）

Enterprise SLA（99.99%）の詳細

SLAなし環境での自衛手段

フォールバック設計の全パターン｜自動切替の実装方法

フォールバック設計の3パターン

LiteLLMを使ったパターンA実装（推奨）

AWS Bedrockを使ったパターンC実装

フォールバック設計の判断基準

監視ツール統合｜Datadog・PagerDutyとの連携

DatadogによるClaude API監視

PagerDutyとの統合（インシデント対応の自動化）

Grafanaダッシュボードでの可視化

インシデントレスポンス手順テンプレート

インシデントレベルの定義

P1インシデント対応フロー（78分以内に完全対応するテンプレート）

ユーザー向けステータス通知テンプレート

完全版 Slack通知Bot｜RSS・JSON API・Webhookを組み合わせた実装

2026年4月の主要障害事例から学ぶ運用設計

事例1: 2026年4月15日の2時間障害

事例2: 2026年4月28日の大規模障害（12,000件報告）

教訓：障害パターンと対策の対応表

【要注意】よくある失敗パターン4選

失敗1: Status確認を「手動・目視」に頼る

失敗2: フォールバックを「設定するだけ」で定期テストしない

失敗3: SLAを「ない」ままプロダクション投入する

失敗4: 障害情報を「エンジニアだけ」が知っている

まとめ：今日から始める3つのアクション

参考・出典

100社以上の支援実績｜30分の無料相談で導入設計を一緒に組みます

関連記事（自動）

関連サービス

生成AI研修

AI顧問

AI受託開発

AI×SNS運用支援

AIエージェント導入支援

Claude Code 個別指導

関連記事

Claude Code Hooks完全ガイド2026｜PreToolUse実装

【2026年最新】Claude Code新機能｜音声・定期実行・コスト制御活用法

Replit 完全ガイド｜AI Agent/料金/IDE比較【2026年】

他のカテゴリのおすすめ

【2026年最新】Claude法人契約ガイド｜Team/Enterprise・請求書払い・インボイス対応を完全解説

【2026年版】Microsoft 365 Copilot 法人契約・請求書払い・インボイス対応ガイド

【速報】ChatGPT Enterprise 利用分析・支出管理を刷新

よく読まれている記事

Contact お問い合わせ

Claude Status 監視完全ガイド【2026年最新】障害検知・SLA設計・自動フォールバック早見表