生成AI最新ニュース 2026.03.12 （更新: 2026.03.30）

【2026年速報】Qwen 3.5 Small｜9Bが120B超えの衝撃

AlibabaのQwenチームが2026年3月1日に公開したQwen 3.5 Smallシリーズが、AI業界に衝撃を与えています。わずか9Bパラメータのモデルが、OpenAIの120Bパラメータモデルをベンチマークで上回り、しかもスマートフォンやノートPCで完全にオフライン動作する——クラウド不要のAI時代が現実のものになりつつあります。

本記事では、Qwen 3.5の技術的革新、オンデバイスAIの業界動向、そして日本企業にとっての具体的な活用シナリオを詳しく解説します。

何が起きたのか — Qwen 3.5 Smallシリーズのファクト整理

Qwen 3.5 Smallとは、Alibaba Cloudが2026年3月にオープンソース公開した9Bパラメータの小型言語モデルであり、120B級の大型モデルを複数ベンチマークで上回る性能を達成しました。

2026年3月2日、Alibaba CloudのQwenチームはQwen 3.5 Small Model Seriesをオープンソースで公開しました。Hugging FaceとModelScopeで誰でもダウンロードできます。

4つのモデル構成

モデル	パラメータ数	想定デバイス	特徴
Qwen3.5-0.8B	8億	IoTデバイス、スマートウォッチ	超軽量・高スループット
Qwen3.5-2B	20億	スマートフォン	エッジ推論に最適化
Qwen3.5-4B	40億	タブレット、軽量PC	マルチモーダル対応（テキスト+画像+動画）
Qwen3.5-9B	90億	ノートPC、デスクトップ	推論特化・120Bモデル超えの性能

注目すべきは「More Intelligence, Less Compute（より少ない計算量で、より高い知性を）」という設計哲学です。巨大なモデルをクラウドで動かすのではなく、手元のデバイスで十分な性能を出すことに全力を振っています。

AIエージェントの基本概念や企業での活用方法については、AIエージェント導入完全ガイドで体系的にまとめていますので、あわせてご参照ください。

ベンチマーク — 数字で見る「小さいのに強い」

「9Bパラメータが120Bを超えた」と聞いて、正直最初は眉唾でした。でもベンチマークの数字を見ると、これは本物です。

ベンチマーク	Qwen3.5-9B	gpt-oss-120B（OpenAI）	Gemini 2.5 Flash-Lite
GPQA Diamond（大学院レベル推論）	81.7	80.1	—
MMMU-Pro（視覚推論）	70.1	—	59.7
Video-MME（動画理解・字幕付き）	84.5	—	74.6

特に驚いたのがGPQA Diamondスコア81.7。これは大学院レベルの科学的推論を問うベンチマークで、13.5倍のパラメータ数を持つOpenAIのgpt-oss-120B（スコア80.1）を上回っています。

さらに視覚推論（MMMU-Pro）では、GoogleのGemini 2.5 Flash-Liteに10ポイント以上の差をつけ、動画理解（Video-MME）でもほぼ10ポイントの差。テキストだけでなく、画像・動画もネイティブに処理できるマルチモーダル性能が、従来のオンデバイスモデルとは一線を画しています。

なぜ「小さいのに強い」が実現できたのか — 技術的ブレークスルー

Qwen 3.5 Smallの高性能の技術的背景は、(1)高品質学習データのキュレーション、(2)蒸留技術による大型モデルの知識圧縮、(3)推論時のスケーリング最適化の3つです。

ここからは少し技術的な話になりますが、企業のDX担当者にも理解しやすいように説明します。

Gated Delta Networks × Mixture-of-Experts ハイブリッドアーキテクチャ

Qwen 3.5 Smallが「小さいのに強い」を実現できた鍵は、2つの技術の組み合わせにあります。

1. Gated Delta Networks（ゲート付きデルタネットワーク）

従来のTransformerモデルは「自己注意機構（Self-Attention）」を使い、入力テキストの全ての単語同士の関係性を計算していました。これは高精度ですが、計算コストが膨大です。Gated Delta Networksは、この「全部見る」アプローチを「重要なところだけ見る」線形注意に置き換えることで、計算量を劇的に削減しています。

2. Mixture-of-Experts（混合エキスパート、MoE）

モデル内部に多数の「エキスパート（専門家）」ネットワークを配置し、入力に応じて最適なエキスパートだけを起動します。たとえば数学の質問なら数学エキスパートが、翻訳なら言語エキスパートが起動する仕組みです。全パラメータを同時に使わないので、実際の計算コストはパラメータ数の数分の1で済みます。

この2つの技術を組み合わせた「Efficient Hybrid Architecture」により、9Bパラメータという小さなモデルサイズでありながら、120Bクラスの推論能力を実現しているわけです。

イメージとしては、「100人の従業員がいる会社で、案件ごとに最適な5人のチームを自動編成する」ようなもの。全員を常に稼働させるのではなく、必要な人材だけを的確にアサインすることで、少人数でも大企業並みの成果を出せる——これがMoEの本質です。

256Kコンテキスト × 201言語対応

もう一つ見逃せないのが、256Kトークンのコンテキスト長です。これは日本語で約15万〜20万文字に相当し、400ページ超の書籍をまるごと処理できる計算になります。さらに201言語に対応しており、もちろん日本語も含まれます。

企業活用で考えると、「社内マニュアル200ページを丸ごと読み込ませて、現場の質問にリアルタイムで答えさせる」といった使い方が、クラウドなしで可能になるということです。

【AIモデルを業務で活用するスキルを身につけませんか？】

Qwen 3.5のようなAIモデルを実際の業務フローに組み込むには、適切な設定とプロンプト設計が重要です。週1回・1時間のマンツーマン指導で、3ヶ月後には自走できる状態に。

Claude Code個別指導の詳細を見る →

AI活用、何から始めればいい？

100社以上の研修実績をもとに、30分の無料相談で貴社の課題を整理します。

無料相談はこちら →資料ダウンロード（無料）

オンデバイスAIの潮流 — Apple、Google、そしてAlibaba

オンデバイスAIとは、クラウドを介さずスマートフォンやPC上で直接AI推論を実行する技術であり、Apple・Google・Alibabaが2026年に一斉に本格展開を開始しています。

Qwen 3.5 Smallの登場は、単独の製品リリースではなく、業界全体の大きなトレンドの一部です。2026年に入って、「AIの推論をクラウドからデバイスへ移す」動きが一気に加速しています。

主要プレイヤーの動向比較

プレイヤー	オンデバイスAI戦略	対応デバイス	特徴
Apple Intelligence	A17 Pro/M系チップのNeural Engine + Private Cloud Compute	iPhone 15 Pro以降、Mac	プライバシー最優先、重い処理はクラウドエスカレーション
Google Gemini Nano	Tensor Processing Unit最適化	Pixel 9以降、Chromebook	Android全機種にGemini標準搭載
Alibaba Qwen 3.5 Small	Gated Delta Networks × MoE	任意のデバイス（オープンソース）	オープンソース、マルチモーダル、256Kコンテキスト
Microsoft Phi-4	SLM（Small Language Model）戦略	Copilot+ PC	Windows統合、NPU活用

研修先でよくこんな質問を受けます。「AppleもGoogleもオンデバイスAIをやっているなら、Qwen 3.5 Smallの何が特別なんですか？」と。

答えは3つの違いにあります。

1. オープンソースである

Apple IntelligenceはAppleデバイス専用、Gemini NanoはGoogle製品に最適化されています。一方、Qwen 3.5 SmallはHugging FaceとModelScopeで完全にオープンソース公開されており、どの企業でも自社のハードウェアやアプリケーションに組み込めるのが最大の強みです。

2. マルチモーダルがネイティブ

テキスト・画像・動画を同一のモデルウェイトで処理できます。別々のモデルを組み合わせる必要がなく、デバイス上のリソース消費を最小限に抑えられます。

3. 推論性能がトップクラス

GPQA Diamondで13倍大きなモデルを超える性能は、オンデバイスモデルとしては異次元の水準です。

エッジAI市場の急成長

このトレンドは市場データにも如実に表れています。

エッジAI市場は2026年に約300億ドル（約4.5兆円）規模に到達見込み（Grand View Research）
2034年には3,859億ドル（約58兆円）に成長する予測。CAGR（年平均成長率）は33.3%（Fortune Business Insights）
エッジAIハードウェア市場は2030年に589億ドル規模へ（MarketsandMarkets）
2024年時点でAI推論の99.8%がエッジで実行されている（Grand View Research）

IDCのDave McCarthy氏（クラウド・エッジサービス担当リサーチVP）も「AIの焦点がトレーニングから推論にシフトする中、エッジコンピューティングはレイテンシ削減とプライバシー強化のために不可欠になる」と指摘しています。

企業にとっての3つのメリット — なぜオンデバイスAIに注目すべきか

ここからが本題です。Qwen 3.5 Smallのような高性能オンデバイスAIが登場したことで、企業は具体的にどんなメリットを得られるのか。研修先での実感も交えて解説します。

メリット1: データが社外に一切出ない — プライバシーとコンプライアンスの根本解決

これが最大のメリットです。

顧問先の製造業（従業員150名規模）で、こんなことがありました。経営者がChatGPTの業務活用に興味を持っていたのですが、情報システム部門から「設計データや顧客情報がクラウドに送信されるリスクがある限り、全社導入は承認できない」とストップがかかったんです。

オンデバイスAIなら、この問題が根本から解消されます。

データが端末から出ない: 推論処理がすべてローカルで完結するため、機密情報がインターネットを経由しない
個人情報保護法・GDPR対応: データの越境移転が発生しないため、法令遵守のハードルが大幅に下がる
契約上の制約をクリア: 取引先との秘密保持契約（NDA）で「第三者サービスへのデータ送信禁止」条項がある場合でも利用可能

事例区分: 想定シナリオ
以下は100社以上の研修経験をもとに構成した典型的なシナリオです。

たとえば医療クリニック（従業員30名）のケース。患者の問診票をAIで要約・分析したいが、患者の個人情報をクラウドに送信することは医療法上のリスクがある。Qwen3.5-4Bをタブレット端末に導入すれば、問診票の分析をオフラインで完結でき、患者データは一切外部に出ない。

メリット2: クラウドAPI費用ゼロ — ランニングコストの劇的削減

ChatGPT APIやClaude APIを業務で使うと、利用量に応じて月額コストが積み上がります。研修先の企業で実際に聞いた例では、「営業部門20名でChatGPT API月額15万円」「カスタマーサポート10名で月額8万円」といった費用が発生していました。

オンデバイスAIなら、初期のハードウェア費用だけで、ランニングコストはゼロです。

項目	クラウドAI（GPT-4oクラス）	オンデバイスAI（Qwen3.5-9B）
初期費用	ほぼゼロ	対応PC/デバイス（10〜30万円）
月額API費用	5〜20万円/部門	0円
年間コスト（3年）	180〜720万円	10〜30万円（初期のみ）
データ送信	クラウドに送信	ローカル完結
オフライン利用	不可	可能

3年間の総コストで見ると、最大で90%以上のコスト削減が見込めます。もちろん、クラウドAIの方が最新モデルへの即時アクセスやスケーラビリティで優れている面もあるので、用途に応じた使い分けが重要です。

メリット3: オフラインでも動く — ネットワーク障害に強い

先日、ある研修会場でWi-Fiが突然落ちたことがありました。クラウドAIのデモが全て止まり、参加者から苦笑いが漏れた瞬間、「これがオンデバイスAIなら止まらないんですよ」と伝えたら、一番リアリティのある説明になりました。

インターネット接続が不安定な環境——工場の現場、地方の建設現場、移動中の営業車内など——でも、オンデバイスAIなら安定して動作します。これは、ネットワークインフラが十分でない環境でこそ真価を発揮する技術です。

オンデバイスAIの限界と課題 — 導入前に知るべきリスク

正直にお伝えすると、オンデバイスAIには明確な限界もあります。楽観的な話ばかりではフェアではないので、慎重論もしっかり紹介します。

限界1: 最先端モデルとの性能差はまだある

Qwen3.5-9Bがgpt-oss-120Bを一部のベンチマークで上回ったのは事実ですが、GPT-5.4やClaude Opus 4.6といった最新のフラッグシップモデルとの総合性能の差は依然として大きいです。複雑なマルチステップ推論、高度なコーディング、長文の創造的執筆などでは、クラウドの最先端モデルに軍配が上がります。

限界2: ハードウェアの制約

9Bモデルをフルスペックで動かすには、最低8GBのVRAMが必要です。最新のノートPC（Apple M3/M4搭載Mac、NVIDIA RTX搭載PC）なら問題ありませんが、3〜4年前のPCでは厳しい場合があります。また、0.8Bや2Bモデルはスマートフォンで動きますが、処理速度は最新機種（iPhone 15 Pro以降）でないと実用的ではないケースもあります。

限界3: 最新情報へのアクセスができない

オンデバイスAIはインターネットに接続しないため、リアルタイムの情報検索ができません。「今日のニュースを要約して」「最新の株価を教えて」といったタスクには対応できません。社内の固定的な業務（文書作成、データ分析、翻訳など）に向いているという使い分けが必要です。

限界4: モデル更新の手間

クラウドAIは自動的に最新バージョンにアップデートされますが、オンデバイスモデルは自分でダウンロード・デプロイし直す必要があります。企業のIT管理者にとっては、モデルの管理・更新フローを新たに構築する必要が出てきます。

「ハイブリッドAI」が現実的な落としどころ

結論として、現時点では「オンデバイス vs クラウド」の二者択一ではなく、両方を使い分ける「ハイブリッドAI」が最も現実的です。

オンデバイス向き: 機密データの処理、定型業務の自動化、オフライン環境での利用
クラウド向き: 高度な推論が必要なタスク、最新情報のリサーチ、大規模データの分析

Apple Intelligenceも同じアプローチを採っていて、基本的な処理はデバイス上で行い、重いタスクだけPrivate Cloud Computeにエスカレーションする設計になっています。

日本企業への影響 — 今すぐ検討すべき3つの活用シナリオ

では具体的に、日本の中小企業がオンデバイスAIをどう活用できるのか。100社以上の導入支援から見えてきた、すぐに着手可能な3つのシナリオを紹介します。

シナリオ1: 製造業 — 品質検査AIのオフライン化

現場の課題：製品の外観検査にクラウドAIを使っているが、工場のネットワーク帯域が細く、レスポンスが遅い。また、製品画像が外部サーバーに送信されることへの懸念がある。

Qwen3.5-4Bは画像をネイティブに処理できるマルチモーダルモデルです。エッジデバイス（産業用タブレットやミニPC）に導入すれば、ネットワーク不要でリアルタイムの品質検査が可能になります。

参考数値として、LG Inotekではエッジ AI を品質検査に導入した結果、原材料欠陥解析時間を90%削減した実績があります（Pure Storage）。

シナリオ2: 士業・コンサル — 機密文書の自動要約

弁護士事務所、税理士事務所、コンサルティングファームなど、クライアントの機密情報を日常的に扱う業種では、クラウドAIの利用に厳しい制約があります。

Qwen3.5-9BをノートPCに導入すれば、契約書レビュー、判例調査の要約、提案書のドラフト作成を、データを一切外部に出さずに行えます。256Kトークン（約15万〜20万文字）のコンテキスト長があれば、100ページ超の契約書もまるごと処理可能です。

シナリオ3: 小売・サービス業 — 店舗スタッフのAIアシスタント

店舗スタッフが接客中に「この商品の仕様は？」「在庫は？」と聞かれた時、バックヤードのPCを確認しに行く手間を省くシナリオです。

Qwen3.5-2Bをスタッフ用のスマートフォンに導入し、商品カタログデータをローカルに持たせれば、オフラインでも即座に商品情報を検索・回答できます。Wi-Fi環境が不安定な店舗でも安定して動作するのがポイントです。

企業がとるべき3つのアクション

最後に、オンデバイスAIを企業戦略に組み込むための具体的なアクションステップを提言します。

アクション1: 自社の「データ感度マップ」を作成する

まず、社内の業務データを「クラウドに出せるデータ」と「絶対に出せないデータ」に分類しましょう。この分類が、オンデバイスAIとクラウドAIの使い分けの基礎になります。

クラウドOK: 一般的な文書作成、公開情報のリサーチ、社外向けメール文案
オンデバイス推奨: 顧客個人情報、設計図、財務データ、医療情報、契約書

アクション2: 小規模PoC（概念実証）から始める

いきなり全社導入ではなく、1部門・1業務に絞ったPoCを2〜4週間で実施するのがおすすめです。

具体的には：

OllamaなどのツールでQwen3.5-9Bをローカルにインストール
特定の業務（例: 議事録要約、メール文案作成）に2週間使ってもらう
クラウドAI利用時と比較して、品質・速度・コストを測定
結果をもとに全社展開の判断材料にする

アクション3: ハードウェア要件を確認する

現在の社用PCやモバイルデバイスが、オンデバイスAIに対応できるかを確認しましょう。

モデル	最低要件	推奨デバイス例
Qwen3.5-2B	4GB RAM	iPhone 15 Pro、Pixel 9
Qwen3.5-4B	8GB VRAM	MacBook Air M3、Surface Pro
Qwen3.5-9B	8GB+ VRAM	MacBook Pro M3/M4、RTX 4060搭載PC

次回のPC/スマートフォンリプレース時に、NPU（Neural Processing Unit）搭載デバイスを選定基準に加えることも検討してください。2026年以降に出荷されるPCの大半はNPUを標準搭載しており、オンデバイスAIの実行環境が急速に整いつつあります。

アクション4: オンデバイスAIのガバナンスルールを先行策定する

オンデバイスAIは「データが外に出ない」分、端末管理のガバナンスが新たな課題になります。

誰がどのモデルを使えるか（アクセス制御）
モデルのバージョン管理（いつ、どのバージョンに更新するか）
端末紛失時の対応（ローカルに保存されたモデルとデータの保護）
利用ログの管理（オフラインでも利用履歴を記録する仕組み）

社内AIガイドラインの策定方法については、AIガバナンス入門ガイドもご参照ください。

アクション5: パートナー企業との情報共有を始める

オンデバイスAIの導入は、単独で進めるよりも、同業他社や取引先との情報共有が有効です。業界団体の勉強会や、AI研修への参加を通じて、他社の取り組み状況を把握しましょう。

まとめ

Qwen 3.5 Smallシリーズの登場は、「高性能AI＝クラウド必須」という常識を覆すマイルストーンです。

要点を整理します。

技術的ブレークスルー: 9Bパラメータで120Bモデルを超える性能。Gated Delta Networks × MoEハイブリッドアーキテクチャが鍵
オープンソース: Apple IntelligenceやGemini Nanoと異なり、任意のデバイスに導入可能
企業メリット: データプライバシー、コスト削減、オフライン動作の3点で明確な優位性
現実的アプローチ: クラウドAIとの「ハイブリッド運用」が最適解。すべてをオンデバイスに置き換える必要はない
今すぐ着手可能: Ollamaで無料インストール → 特定業務でPoC → 効果測定 → 展開判断

2026年は、AIの推論がクラウドからエッジへ大きくシフトする転換点になると考えています。この波に乗り遅れないためにも、まずは小さなPoCから始めてみてください。

あわせて読みたい:

ChatGPT Enterprise導入ガイド — セキュリティと社内展開の実践ステップ
AI導入で失敗する企業の共通点5つ — 成功企業との決定的な違い

この記事の要点

要点1: Qwen 3.5 Small（9B）は120Bモデルを超える性能を達成し、スマートフォンやノートPCで直接実行可能
要点2: オンデバイスAIにより、クラウドAPI費用ゼロ・レイテンシ10分の1・データ外部送信なしの企業利用が実現
要点3: Apple・Google・Alibabaの3社が2026年にオンデバイスAIを本格展開し、エッジAI市場は2027年に700億ドル規模へ

参考・出典

Alibaba just released Qwen 3.5 Small models — MarkTechPost（参照日: 2026-03-12）
Alibaba’s small, open source Qwen3.5-9B beats OpenAI’s gpt-oss-120B — VentureBeat（参照日: 2026-03-12）
Qwen/Qwen3.5-9B — Hugging Face（参照日: 2026-03-12）
Edge AI Market Size, Share & Trends — Grand View Research（参照日: 2026-03-12）
Edge AI Market Size, Share, Growth — Fortune Business Insights（参照日: 2026-03-12）
On-Device LLMs in 2026 — Edge AI and Vision Alliance（参照日: 2026-03-12）
エッジAIがオンデバイスのインテリジェンスで産業を変革する方法 — Pure Storage（参照日: 2026-03-12）

media AI活用の最前線

【2026年速報】Qwen 3.5 Small｜9Bが120B超えの衝撃