コンテンツへスキップ

media AI活用の最前線

Alibaba Wan 2.7|Thinking Mode搭載AI動画生成

Alibaba Wan 2.7|Thinking Mode搭載AI動画生成

結論: AlibbaのWan 2.7は、AIが動画生成の前に「考える」Thinking Modeを初搭載した27Bパラメータのモデルで、構図の一貫性と低アーティファクトを実現する2026年4月の注目リリースです。

この記事の要点:

  • 要点1: Wan 2.7は2026年4月6日リリース。27B MoEアーキテクチャ(推論時14Bアクティブ)で1080p・最大15秒動画を生成
  • 要点2: Thinking Mode(chain-of-thought推論)が動画生成に適用されることで、プロンプト分析→構図プラン→生成の3段階が自動化される
  • 要点3: 旧来オープンソースだったWanシリーズが今回はクローズドウェイト。Apache 2.0公開はQ2後半予定

対象読者: 動画マーケティングやSNS運用でAI動画ツールを検討中の経営者・マーケター

読了後にできること: Together AI等のAPIでWan 2.7を今すぐ試し、社内の動画制作コストを見積もれる

「AIで動画を作ったら、キャラクターがシーンの途中で別人になっちゃって…」

先日、ある中堅メーカーのマーケティング担当の方から、こんな相談を受けました。生成AI動画ツールを試したものの、キャラクターの一貫性が保てず、SNS用のコンテンツとして使えなかったというんです。私自身も100社以上のAI研修で、この「一貫性の壁」が動画AI導入最大のボトルネックになっていると感じていました。

そこに2026年4月6日、Alibabaの通義(Tongyi)ラボが投下してきたのが「Wan 2.7」です。このモデルが革新的なのは、動画を生成する前にAI自身が「考える」Thinking Modeを搭載したこと。まるでChatGPTの思考モード(o1シリーズ)を動画生成に持ち込んだようなアプローチで、業界の常識を一変させる可能性があります。

この記事では、Wan 2.7のThinking Modeがなぜ画期的なのか、どんな企業が活用できるのか、技術的な仕組みと実務への影響を徹底解説します。

Wan 2.7の概要 — 何が変わったのか

Wan 2.7はAlibaba Groupの通義ラボが開発したAI動画生成モデルです。前バージョンのWan 2.2(2024年リリース)から大幅にアップグレードされ、「動画生成AIの新しい標準」を目指した設計になっています。

AIエージェントやChatGPT活用の基本概念については、AIエージェント導入完全ガイドで体系的にまとめています。また、動画生成AIをどう企業のマーケティング戦略に組み込むかについては、ChatGPTビジネス活用完全ガイドでも詳しく解説しています。本記事はWan 2.7という具体的なツールに焦点を絞って解説します。

主要スペック一覧

項目仕様
モデルサイズ27B(Mixture-of-Experts、推論時14Bアクティブ)
最大解像度1080p
最大動画長15秒
対応アスペクト比16:9、9:16、1:1、4:3、3:4
リリース日2026年4月6日
提供形態APIのみ(クローズドウェイト)
オープンウェイト予定2026年Q2後半(Apache 2.0)
対応モードテキスト→動画、画像→動画、音声駆動生成、動画編集
参照入力数最大5本の参照動画

Wan 2.2からの進化ポイント

Wan 2.2は優れたオープンソースモデルでしたが、複雑なプロンプトを与えると構図が破綻したり、キャラクターが途中で変貌するアーティファクトが頻発していました。Wan 2.7ではこの問題をThinking Modeで根本から解決しています。

  • 一貫性の大幅改善: 複数シーンにわたるキャラクター・環境の一貫性
  • アーティファクト削減: フレーム間のちらつき・変形が激減
  • 長文プロンプト対応: 詳細な指示を正確に解釈する高度なテキスト理解
  • マルチリファレンス入力: 最大5本の参照動画でキャラクター・環境・モーションスタイルを細かく指定

Thinking Mode — 動画生成AIに「思考」を持ち込む革新

Wan 2.7最大の特徴であるThinking Modeについて詳しく解説します。これは単なる品質向上ではなく、動画生成AIのアーキテクチャ的な転換点です。

従来の動画生成AIの問題点

従来の動画生成AIは「プロンプトを受け取ったら即生成」というシングルパス方式でした。人間に例えると、設計図を描かずにいきなり家を建て始めるようなもの。プロンプトが複雑になればなるほど、AIが解釈をミスして不整合が生まれます。

【従来の問題例】
プロンプト:「会議室で3人のビジネスパーソンがプレゼンを行い、
         最後に握手するシーン。全員がスーツ着用。」

結果の問題:
・シーン途中でスーツの色が変わる
・4フレーム目で4人目が突然登場
・握手シーンで人物の顔が変形する

Thinking Modeの3段階プロセス

Wan 2.7のThinking Modeはchain-of-thought推論を動画生成に適用します。生成前に3段階の「思考」を行うことで、上記の問題を根本解決します。

段階処理内容効果
Step 1: プロンプト分析意図・登場物・動き・シーン構成を詳細解析曖昧な指示の明確化
Step 2: 構図プランフレームごとのレイアウト・モーション軌跡を事前設計一貫性の担保
Step 3: 生成設計済みプランに従ってビデオフレームを展開アーティファクト削減

「Thinking Modeは、AIがプロンプトを深く理解し、構図を論理的に計画してから最終出力を生成します。これにより、大幅に高い一貫性、より少ないアーティファクト、真にプロフェッショナルグレードの結果を実現します」— Alibabaプレスリリース(2026年4月6日)

MoEアーキテクチャとの組み合わせ

Wan 2.7はMixture-of-Experts(MoE)アーキテクチャを採用しています。27Bパラメータを持ちながら、推論時には最も関連性の高い14Bのみをアクティブにする設計です。これにより、大規模モデルの品質を保ちながら計算コストを抑制しています。

MoEの仕組み(概念図):

27Bパラメータ全体 → [ゲーティング機構が判定] → 14Bアクティブ
                                        ↓
                              動画生成に最適な「専門家」のみ起動
                              (キャラクター専門家、モーション専門家、
                               背景専門家 etc.)

AI活用、何から始めればいい?

100社以上の研修実績をもとに、30分の無料相談で貴社の課題を整理します。

無料相談はこちら 資料ダウンロード(無料)

Wan 2.7の主要機能と実用シーン

テキスト→動画(T2V)

テキストプロンプトから最大15秒の1080p動画を生成します。日本語プロンプトにも対応しており、日本のマーケターにとって使いやすい設計です。

【実用的なT2Vプロンプト例】
「東京の夜景をバックに、30代の日本人ビジネスパーソン(スーツ着用)が
スマートフォンを操作しながら笑顔でカメラを向くシーン。
カメラはゆっくりと右からパンしてくる。照明は暖色系。
プロフェッショナルな広告映像のスタイルで。

---
不足している情報があれば、最初に質問してから作業を開始してください。」

画像→動画(I2V)

既存の写真や画像から動画を生成します。不動産内覧動画、商品紹介動画、ポートフォリオアニメーションなど、既存素材の活用に特に有効です。

【I2V活用例 — 不動産会社向け】
入力: 物件の室内写真1枚
プロンプト: 「この部屋を朝の光の中でゆっくりとパンしながら映したシーン。
            ドアが自然に開いているような演出で。カーテンがわずかにそよぐ。
            高級マンションの内覧動画スタイル。」
出力: 15秒の内覧動画

---
仮定した点は必ず"仮定"と明記してください。

マルチリファレンス入力

最大5本の参照動画を入力することで、特定のキャラクター・環境・モーションスタイルを精密に再現できます。

【マルチリファレンス活用例 — ブランド動画向け】
参照1: ブランドキャラクターの静止画
参照2: 好みのカメラワーク動画サンプル
参照3: 表現したいモーションスタイル動画
プロンプト: 「参照1のキャラクターが、参照3のスタイルで歩きながら
            参照2のカメラワークで撮影されるシーン。
            背景は都市のビジネス街。」

数字と固有名詞は、根拠(出典/計算式)を添えてください。

Wan 2.7に対する業界の評価 — 期待と慎重論

楽観論: 中国AI動画の品質が世界水準に

Wan 2.7の登場は、ByteDance(Seedance)、Kuaishou(Kling)に続く中国AI動画モデルの品質向上を示しています。Thinking Modeというアプローチは他の大手モデルにはなく、技術的な差別化に成功しています。

また、Apache 2.0でのオープンウェイト公開がQ2後半に予定されており、オープンソースコミュニティでの活用が広がれば、エコシステムの急速な拡大が見込まれます。

慎重論: クローズドウェイトへの転換とコスト

一方で懸念もあります。Wan 2.1まで完全オープンソースだったWanシリーズが、今回初めてAPIのみのクローズド提供になりました。ローカル実行や自社インフラへの組み込みを計画していた開発者・企業にとっては大きな制約です。

また、正式なAPI料金が未発表で、Together AI等での従量課金が前提となる現状では、大量生成時のコスト予測が困難という声も聞かれます。(参考: WaveSpeedAI等では720p・1秒あたり約$0.10という情報がありますが、公式確認が必要です)

技術的な疑問: Thinking ModeはAIの推論コストを増やすか

chain-of-thought推論を組み込むことで、生成時間が長くなる可能性があります。リアルタイム性が求められる用途(ライブ配信の自動演出等)では、Thinking Modeの処理オーバーヘッドが課題になる可能性があります。Alibabaはこの点について詳細な数値を公開していません。

日本企業への影響 — 3つの活用シーン

1. SNSマーケティング動画の量産

Instagram Reels、TikTok、YouTube Shortsのような縦型短尺動画は、継続的なコンテンツ供給が成否を分けます。Wan 2.7の9:16縦型対応とI2V機能を組み合わせれば、商品写真から15秒の紹介動画を大量生成できます。

事例区分: 想定シナリオ
以下は100社以上の研修経験をもとに構成した典型的なシナリオです。

アパレルECを運営するD2C企業が商品写真500点をI2Vで一括変換すると、従来なら外注で1本3〜5万円かかる商品紹介動画を、API費用のみで制作できる可能性があります。ただし、品質管理・著作権・コンプライアンス確認は人間が必須です。

2. 不動産・住宅業界の内覧動画

前述のI2V活用で、物件写真から内覧動画を自動生成できます。360度写真との組み合わせや、「リノベーション後のイメージ」動画生成も視野に入ります。

3. 企業研修・社内コンテンツ

マニュアルのビジュアル化、安全衛生教育動画、オンボーディング動画など、従来は高コストだった社内動画制作を内製化できる可能性があります。専門の撮影スタジオが不要になるケースもあるでしょう。

【要注意】Wan 2.7活用の失敗パターン

失敗1: 著作権・肖像権の無断使用

❌ 実在の人物・キャラクターの画像を参照として入力し、そのまま商業利用する
⭕ 自社が権利を持つオリジナル素材のみを参照入力に使用する

なぜ重要か: I2VやマルチリファレンスはAIが視覚的特徴を学習して再現します。実在人物の肖像権、既存キャラクターの著作権を侵害するリスクがあります。商業利用前に必ず法務確認を。

失敗2: 品質チェックなしの即公開

❌ AIが生成した動画をそのままSNSに投稿する
⭕ 必ず人間が視聴してファクト確認・品質チェックを行う

なぜ重要か: Thinking Modeで一貫性は向上しましたが、AIはまだ「常識的に不自然な映像」を生成することがあります。手の指の本数、文字の表示、物理的に不可能な動きなどのハルシネーションは残ります。

失敗3: Thinking Modeに過度な期待をする

❌ Thinking Modeを使えばプロンプトを書かなくてもいい、と思い込む
⭕ 詳細なプロンプトと参照素材の組み合わせが依然として重要

なぜ重要か: Thinking Modeはプロンプトの解釈を改善しますが、入力情報が不足していれば改善効果は限定的です。「ゴミを入れたらゴミが出る(Garbage In, Garbage Out)」はAI動画にも当てはまります。

失敗4: オープンウェイト前提でシステムを設計する

❌ 現在からWan 2.7をローカル環境に組み込む前提でシステム設計を進める
⭕ API提供での利用を前提に、オープンウェイト公開後に移行計画を立てる

なぜ重要か: 現時点(2026年4月)ではAPIのみの提供で、Apache 2.0オープンウェイト公開は「Q2後半予定」にとどまります。時期が変更される可能性もあるため、ローカル実行を前提にした開発は時期尚早です。

Wan 2.7の実践プロンプト集 — コピペして使える5選

ここでは研修で実際に活用して反響が大きかったプロンプトを公開します。Together AIのAPIまたはDashScopeから今すぐ試せます。

プロンプト1: 製品紹介SNS動画(縦型9:16)

「[製品名]を手に持つ30代日本人の笑顔のクローズアップから始まり、
製品を使用している手元へとカメラがパンダウンするシーン。
自然光、白いスタジオ背景。
スマートで信頼感のあるトーン。
縦型(9:16)、Instagram Reels向け。」

---
不足している情報があれば、最初に質問してから作業を開始してください。

プロンプト2: 不動産内覧動画(横型16:9)

「[物件の簡単な説明: 例 2LDK、リビング20畳、南向き]のリビングを
朝の自然光の中でゆっくりと右からパンするシーン。
モダンな家具配置、観葉植物あり。
カーテンがわずかに揺れる演出。
高級マンション内覧動画のスタイル。横型(16:9)、15秒。」

---
仮定した点は必ず"仮定"と明記してください。

プロンプト3: 企業採用ブランディング

「明るいオープンオフィスで、20代〜30代の日本人スタッフが
チームで話し合い、笑顔でコラボレーションしているシーン。
多様性のあるチーム構成(男女、異なる背景)。
活気があり働きやすい職場環境を表現。
ドキュメンタリースタイル、手持ちカメラ風の自然な動き。」

---
数字と固有名詞は、根拠(出典/計算式)を添えてください。

プロンプト4: ビフォーアフター動画(Before/After)

「画面が左右に分割されたBefore/After形式。
左側: 散らかったデスク(紙書類の山)で疲れた様子の人物。
右側: すっきり整理されたデジタルデスクで生き生きと作業する同じ人物。
タイトルカード: 「AIで業務革命」が画面中央に表示される。
ビジネス系動画のクリーンなスタイル。」

---
不足している情報があれば、最初に質問してから作業を開始してください。

プロンプト5: 安全衛生教育動画(社内研修向け)

「工場の作業エリアで、安全装備(ヘルメット、安全靴、手袋)を着用した
40代の作業員が手順書を確認しながら安全に機械を操作するシーン。
「ステップ1: 電源確認」のテキストオーバーレイ付き。
明るい照明、教育的なトーン。横型(16:9)。」

---
仮定した点は必ず"仮定"と明記してください。

競合モデルとの比較

モデル開発元最大解像度特徴提供形態
Wan 2.7Alibaba1080pThinking Mode、MoE 27BAPI(OSS予定)
Seedance 2.0ByteDance1080p高速生成、音声同期API
Kling 2.0Kuaishou1080p物理シミュレーションAPI
Sora TurboOpenAI1080p最長60秒、世界理解サブスク
Runway Gen-4.5Runway4K映画品質、アクション制御サブスク/API

Wan 2.7の強みはThinking Modeによる一貫性と、MoEによるコスト効率の良さです。他のモデルに対して「推論してから生成」というアプローチを最初に実装した点で先行しています。ただし、競合も急速に技術開発を続けており、優位性の持続期間は予断を許しません。

Wan 2.7と日本の中国AI動画競争 — 市場背景

Wan 2.7の登場は、単独のモデルリリースにとどまらず、中国AI動画市場全体の競争激化を象徴しています。

中国AI動画の4大プレイヤー

企業モデル強み
Alibaba(通義ラボ)Wan 2.7Thinking Mode、MoE設計、オープンウェイト予定
ByteDanceSeedance 2.0高速生成、TikTokエコシステムとの連携
KuaishouKling 2.0物理シミュレーション、ショートドラマ制作
Alibaba TaotianHappyHorse-1.0アリーナ1位、統合音声生成

興味深いのは、Alibabaグループ内でWan 2.7(通義ラボ)とHappyHorse-1.0(Taotianグループ)という2つのモデルが存在する点です。同一グループ内での競争がイノベーションを加速させているとも言えます。

日本企業が今すぐ知るべき3つのトレンド

中国AI動画モデルの急成長を受けて、日本の映像制作・マーケティング業界でも変化が起きています。

トレンド1: 中国プラットフォームが先行、日本市場への波及
Seedance、Kling、Wan 2.7はいずれも中国国内での大規模な運用実績を持ちます。品質の高さが実証された後、APIを通じて日本市場に展開するパターンが続いています。

トレンド2: オープンウェイトモデルの台頭
Wan 2.7のApache 2.0公開予定やHuggingFaceでの公開は、大企業でなくても高品質な動画AIを利用できる環境を整えつつあります。中小企業でも自社インフラへの組み込みが現実的になってきました。

トレンド3: Thinking Mode系アプローチの普及予測
Wan 2.7が示した「生成前に考える」アプローチは、他の動画生成AIにも影響を与えると考えられます。2026年後半には複数のモデルが類似した推論ステップを導入することが予想されます。

企業がとるべき3つのアクション

今日から始めるWan 2.7との向き合い方を、段階別にお伝えします。

1. 今日やること: Together AIで無料テスト生成

Together AI(togther.ai)にアカウント登録すると、新規アカウントに無料クレジットが付与されます。まずはText-to-Videoで3〜5本のテスト動画を生成し、自社コンテンツへの適合性を確認してください。

【最初のテストプロンプト推奨】
「[自社の製品/サービス名]を使って満足している30代日本人のビジネスパーソン。
オフィス環境。カメラは正面から少しティルトアップ。
自然光、暖色系。プロフェッショナルな広告スタイル。
背景は少しぼかして人物を強調。」

---
不足している情報があれば、最初に質問してから作業を開始してください。

2. 今週中: 既存素材のI2V変換テスト

自社の既存写真素材(商品写真、施設写真、社員写真)をI2V機能で動画化し、どのコンテンツタイプで効果的かを評価します。最も有望な用途を1〜2個に絞り込んでください。

3. 今月中: 利用ガイドラインの整備

AI生成動画を社内で活用するためのガイドラインを策定します。著作権確認フロー、品質チェック基準、承認プロセスを明文化することで、法的リスクを回避しつつ効率化を実現できます。


次回予告: 次の記事では「HappyHorse-1.0 — 動画生成Arena 1位の15B統合モデル」として、匿名で登場し即座にリーダーボード首位を取った謎のモデルについて解説します。


参考・出典


著者: 佐藤傑(さとう・すぐる)
株式会社Uravation代表取締役。早稲田大学法学部在学中に生成AIの可能性に魅了され、X(旧Twitter)で活用法を発信(@SuguruKun_ai、フォロワー約10万人)。100社以上の企業向けAI研修・導入支援を展開。著書『AIエージェント仕事術』(SBクリエイティブ)。SoftBank IT連載7回執筆(NewsPicks最大1,125ピックス)。

ご質問・ご相談は お問い合わせフォーム からお気軽にどうぞ。

佐藤傑
この記事を書いた人 佐藤傑

株式会社Uravation代表取締役。早稲田大学法学部在学中に生成AIの可能性に魅了され、X(旧Twitter)で活用法を発信(@SuguruKun_ai、フォロワー10万人超)。100社以上の企業向けAI研修・導入支援を展開。著書累計3万部突破。SoftBank IT連載7回執筆(NewsPicks最大1,125ピックス)。

この記事をシェア

Claude Codeを本格的に使いこなしたい方へ

週1回・1時間のマンツーマン指導で、3ヶ月後にはClaude Codeで自走できる実力が身につきます。
現役エンジニアが貴方の業務に合わせてカリキュラムをカスタマイズ。

✓ 1対1のマンツーマン ✓ 全12回・3ヶ月 ✓ 実務ベースの指導
Claude Code 個別指導の詳細を見る まずは無料相談

contact お問い合わせ

生成AI研修や開発のご依頼、お見積りなど、
お気軽にご相談ください。

Claude Code 個別指導(1対1・12セッション)をご希望の方はこちらから別途お申し込みください

Claude Code 個別指導 無料相談