結論: Qwen 3.5は、Alibaba Cloud製のオープンソースAIシリーズで、9Bの小型モデルでもGPT-OSS-120Bを超えるベンチマークを達成し、商用利用可能なApache 2.0ライセンスでローカル環境に無料で展開できる、2026年時点で最強コスパのオープンモデルです。
この記事の要点:
- Qwen3.5-9Bは、GPT-OSS-120Bを複数ベンチマークで上回る(MMLU-Pro: 82.5 vs 80.8)
- ollama/llama.cpp/vLLMでローカルPCに展開可能。商用利用OK(Apache 2.0)
- 命令追従(IFBench)ではGPT-5.2(75.4)を超える76.5を記録
対象読者: 社内データを守りながらAIを使いたい中小企業のIT担当者・DX推進責任者
読了後にできること: Ollamaを使ってQwen 3.5をローカルPCで動かし、社内利用を試験的に開始できる
「AIツールを使いたいけど、社内の機密情報をクラウドに送るのが怖い…」
企業向けAI研修でいちばんよく聞かれる悩みです。製造業の情報システム担当者から「図面データをChatGPTに入れていいのか、法務部門から止められました」という話を聞いたとき、正直「これは本当に多くの企業が詰まっているところだな」と思いました。
その問いに対する答えの一つが、Alibabaが開発するQwen(チェン)シリーズ、なかでも2026年2〜3月にかけてリリースされたQwen 3.5です。オープンウェイトで商用利用可能(Apache 2.0)、そして9Bの小型モデルでさえGPT-4oクラスを超える性能を持つという話を初めて聞いたとき、私も「本当に?」と疑いながら自分で検証しました。
この記事では、Qwen 3.5の各モデルのスペック・ローカル環境への導入手順・主要AIとのベンチマーク比較・企業でのオンプレミス活用シナリオまでを、実際に試した経験をもとにまとめています。データはすべて公開ベンチマーク(参照日: 2026年3月)に基づいています。
まず5分で試せる:OllamaでQwen 3.5を動かす最速コマンド
長い解説の前に、まず動かしてみましょう。MacまたはWindowsにOllamaが入っていれば、以下の1行だけで始められます。
# Ollamaのインストール(Mac)
brew install ollama
# Qwen 3.5 9Bを起動(ダウンロードから対話まで自動)
ollama run qwen3.5:9b
# より軽量な4Bで試したい場合
ollama run qwen3.5:4b「起動まで1分もかからなかった、驚きました」というのが顧問先の担当者の第一声でした。モデルが起動したら、日本語でそのまま話しかけられます。
>>> 社内の就業規則について30代の新入社員向けに要約してください。
不足している情報があれば、最初に質問してから作業を開始してください。このプロンプトの末尾の一文(「不足している情報があれば…」)は、AIが情報不足のまま架空の内容を生成するのを防ぐ事故防止フレーズです。社内文書を扱うときは必ず追加しましょう。
AIエージェントの基礎からローカルAI活用の全体像を知りたい方は、AIエージェント導入完全ガイドも合わせてご覧ください。
Qwen 3.5のモデルラインナップと各スペック
Qwen 3.5は2026年2〜3月にかけて3段階でリリースされました。モデルの規模によって用途が変わるため、まず全体像を把握しておきましょう。
リリースタイムライン
| リリース日 | モデル | 特徴 |
|---|---|---|
| 2026年2月16日 | Qwen3.5-397B-A17B | フラッグシップMoEモデル(総パラメータ397B、アクティブ17B) |
| 2026年2月24日 | 中型シリーズ(14B〜72B相当) | 推論・コーディング特化のプロダクションモデル |
| 2026年3月2日 | 小型シリーズ(0.8B、2B、4B、9B) | エッジ・オンプレミス向けコンパクトモデル |
モデル別スペック早見表
| モデル | パラメータ数 | コンテキスト長 | 推奨環境 | 用途 |
|---|---|---|---|---|
| Qwen3.5-0.8B | 8億 | 32K | RAM 4GB以上 | モバイル・組み込み |
| Qwen3.5-2B | 20億 | 64K | RAM 8GB以上 | 軽量タスク |
| Qwen3.5-4B | 40億 | 128K | RAM 8GB以上(推奨16GB) | 汎用・個人用途 |
| Qwen3.5-9B | 90億 | 262K(最大101万トークン) | RAM 16GB以上 | 業務利用・チーム導入 |
| Qwen3.5-397B-A17B | 3970億(アクティブ170億) | 1M+ | 高性能GPUサーバー | エンタープライズ・API |
注目すべきは9Bモデルのコンテキスト長です。ネイティブで262,144トークン(約20万字の文書)、拡張すると約101万トークンまで対応します。社内規程集・契約書・技術マニュアルを丸ごと入力しての質疑応答が可能です。
また、フラッグシップの397B-A17Bが採用しているMoE(Mixture of Experts)アーキテクチャは、397億パラメータを持ちながら1回の推論で使うのは17億だけという設計です。これにより、大型モデルの性能を持ちながら推論コストを抑えられます。
ライセンスについて
全モデルがApache 2.0ライセンスで公開されています。商用利用・改変・再配布が可能です。GPT系やClaude系のような月額課金は不要で、自社サーバーで動かせばランニングコストはインフラ代のみです。
他のAIモデルとのベンチマーク比較(2026年3月時点)
「スペックが良くても実際に使えるのか?」これが企業担当者の正直な疑問です。公開ベンチマークをもとに確認しましょう。
主要ベンチマーク比較表
| ベンチマーク | Qwen3.5-9B | GPT-OSS-120B | Qwen3.5-397B | GPT-5.2 | Claude Opus 4.6 |
|---|---|---|---|---|---|
| MMLU-Pro(総合知識) | 82.5 | 80.8 | — | — | — |
| GPQA Diamond(科学的推論) | 81.7 | 80.1 | — | — | — |
| AIME 2026(数学) | 91.3 | — | — | 96.7 | 93.3 |
| IFBench(命令追従) | 76.5 | — | — | 75.4 | 58.0 |
| SWE-bench Verified(コーディング) | 76.4 | — | — | 80.0 | 80.9 |
| Tau2-Bench(エージェント) | — | — | 86.7 | — | 91.6 |
(出典: LM Council, Qwen公式ブログ、各社発表資料。参照日: 2026年3月22日)
特に注目したいのが「命令追従(IFBench)」のスコアです。GPT-5.2(75.4)を上回る76.5を記録しています。企業利用で最も重要なのは「言ったことを正確にやってくれるか」であり、この指標でトップクラスなのは実務面で大きな意味があります。
用途別おすすめモデル早見表
| 用途 | おすすめ | 理由 |
|---|---|---|
| 文書要約・メール作成 | Qwen3.5-9B(ローカル) | 命令追従スコアが高く、長文対応 |
| コード生成・レビュー | Claude Opus 4.6 / GPT-5.2 | SWE-benchでリード |
| 数学・論理推論 | GPT-5.2 > Claude Opus 4.6 | AIME 2026でリード |
| プライバシー重視の社内利用 | Qwen3.5-9B(オンプレミス) | ローカル動作でデータが外に出ない |
| 大規模エンタープライズ展開 | Qwen3.5-397B-A17B | MoEで効率的な大型モデル |
ローカルPCへの導入:3つの方法を比較
Qwen 3.5をローカルで動かす方法は主に3つあります。それぞれの特徴を整理します。
方法1: Ollama(最も手軽・初心者向け)
顧問先の中小企業で情シス担当が初めてローカルAIを触った際、OllamaのGUIとCLIの分かりやすさに「これなら自分でも管理できる」と言っていました。まずOllamaから始めることをおすすめします。
# 1. Ollamaをインストール
# Mac: brew install ollama
# Windows: ollama.comから.exeをダウンロード
# 2. Qwen 3.5を起動(モデル自動ダウンロード付き)
ollama run qwen3.5:9b
# 3. API経由で使う場合(他のアプリと連携)
curl http://localhost:11434/api/chat -d '{
"model": "qwen3.5:9b",
"messages": [{"role": "user", "content": "社内文書を要約してください。"}]
}'必要なRAMは以下が目安です:
- Qwen3.5-4B: 8GB(推奨16GB)
- Qwen3.5-9B: 16GB(推奨24GB)
- 量子化(Q4)モデルなら約5GBで9Bを動かせます
方法2: LM Studio(GUI操作・Windows/Mac対応)
GUIでモデルを管理したい場合はLM Studioが便利です。HuggingFaceからGGUFファイルをダウンロードし、OpenAI互換のローカルAPIサーバーとして機能します。
# LM Studioでサーバーを立てた後、既存のOpenAIクライアントをそのまま使える
from openai import OpenAI
client = OpenAI(base_url="http://localhost:1234/v1", api_key="lm-studio")
response = client.chat.completions.create(
model="qwen3.5-9b",
messages=[{"role": "user", "content": "製品仕様書を要約してください。数字と固有名詞は根拠を添えてください。"}]
)
print(response.choices[0].message.content)方法3: vLLM(本格的なサーバー運用向け)
複数ユーザーが同時に使う社内サーバーとして運用する場合はvLLMが適しています。
# vLLMで社内サーバーを立てる
pip install vllm
vllm serve Qwen/Qwen3.5-9B
--host 0.0.0.0
--port 8000
--max-model-len 32768
# 社内の他のPCからアクセス
curl http://192.168.1.100:8000/v1/chat/completions
-H "Content-Type: application/json"
-d '{"model": "Qwen/Qwen3.5-9B", "messages": [{"role": "user", "content": "質問"}]}'3つの方法の比較
| 方法 | 難易度 | 同時接続 | 向いている場面 |
|---|---|---|---|
| Ollama | ★☆☆ | 1人 | 個人利用・試験導入 |
| LM Studio | ★☆☆ | 1〜数人 | チーム小規模利用 |
| vLLM | ★★★ | 多人数 | 社内サーバー・本番運用 |
企業でのオンプレミスAI活用シナリオ
「ローカルで動くのはわかった。でもうちの会社でどう使えばいい?」という質問もよく受けます。Qwen 3.5の特性(長文対応・命令追従性能が高い・データが外に出ない)が生きる具体的なシナリオを紹介します。
シナリオ1: 社内文書QAシステム
事例区分: 想定シナリオ
以下は100社以上の研修・コンサル経験をもとに構成した典型的な活用例です。
就業規則・社内規程・製品マニュアルなどの社内文書をQwen 3.5に読み込ませ、社員がチャットで質問できる仕組みを構築するシナリオです。文書が外部サーバーに送られないため、情報漏洩リスクを最小化できます。
# 社内文書QAの基本プロンプト構造
"""
あなたは社内規程アシスタントです。以下の文書のみに基づいて回答してください。
文書にない情報は「規程には記載がありません」と回答してください。
【参照文書】
{社内文書の内容}
【質問】
{社員の質問}
仮定した点は必ず"仮定"と明記してください。
"""シナリオ2: 機密情報を含む文書の要約・整理
契約書や顧客データを含む報告書の要約を、クラウドに送らずに処理するシナリオです。コンテキスト長が最大101万トークンのQwen 3.5-9Bは、長大な文書でもまとめて処理できます。
# 契約書要約プロンプト
"""
以下の契約書を要約してください。以下の点を必ずカバーしてください:
1. 契約期間と更新条件
2. 主要な義務事項(甲・乙それぞれ)
3. 解除条件と違約金
4. 特記事項
要約は箇条書き形式で、400字以内でまとめてください。
数字と固有名詞は根拠(条文番号)を添えてください。
"""シナリオ3: 製造業・技術系企業での設計書レビュー
図面データ(テキスト化したもの)や仕様書を社内サーバー上のQwen 3.5に投入し、仕様の矛盾チェックや改善案の提案に使うシナリオです。自動車部品メーカーやシステム開発会社で特に有効です。
# 仕様書レビュープロンプト
"""
以下の技術仕様書をレビューしてください。
確認事項:
1. 論理的な矛盾や不整合はないか
2. 未定義・曖昧な用語はないか
3. セキュリティ上の懸念点はないか
問題がある箇所は「[問題] ページX: 内容」の形式で列挙してください。
不足している情報があれば、最初に質問してから作業を開始してください。
"""【要注意】Qwen 3.5活用でよくある失敗パターン
ローカルAI導入で失敗するケースをいくつか見てきました。研修でよく出てくるものを整理します。
失敗1: RAMが足りないまま9Bを動かそうとする
❌ RAM 8GBのノートPCでollama run qwen3.5:9bを実行 → 激遅・クラッシュ
⭕ RAM 8GBならqwen3.5:4bまたは量子化版のqwen3.5:9b-q4_K_Mから始める
なぜこれが重要か: フル精度(FP16)の9Bは約18GBのRAMを消費します。Q4量子化にすると約5.5GBに削減できますが、精度は若干落ちます。まず量子化版で試してから必要に応じてアップグレードする流れが安全です。
失敗2: プロンプトを日本語で書かずに英語で書く
❌ 「Summarize this document in Japanese」と英語で指示 → 英語混じりの出力になることがある
⭕ 「以下の文書を日本語で300字以内に要約してください」と最初から日本語で指示する
なぜこれが重要か: Qwen 3.5は多言語対応ですが、入力言語に引っ張られる傾向があります。日本語の出力が必要なら日本語で指示するのが確実です。
失敗3: 最初から全社展開しようとする
❌ 「Qwen 3.5を全部門に入れよう!」→ 環境構築・運用ルール未整備でトラブル多発
⭕ まず1部門・1業務(例: 営業の日報作成)でPoC。1ヶ月後に評価してから横展開
なぜこれが重要か: ローカルAIはクラウドと違い、ハードウェア・OS・ネットワーク設定の問題がすべて自社責任です。小さく始めて運用ノウハウを蓄積してから拡大しましょう。
失敗4: AI出力を無検証でそのまま使う
❌ 「AIが要約したからOK」と確認なしで取引先に送信 → 誤情報が含まれていた
⭕ AI出力は必ず担当者が事実確認してから使用。特に数字・固有名詞・日付
なぜこれが重要か: いくら性能が高くてもAIは幻覚(ハルシネーション)を起こします。Qwen 3.5もその例外ではありません。「AIが最終確認した」ではなく「AIが下書きした、人間が確認した」が正しい使い方です。
Qwen 3.5と既存qwen-35-on-device-ai-enterpriseとの違い
本サイトにはすでにエンタープライズ向けQwen 3.5記事があります。位置づけの違いを整理します。
| 記事 | 対象 | 内容 |
|---|---|---|
| qwen-35-on-device-ai-enterprise | 大企業・IT部門 | エンタープライズ導入・組織展開・ガバナンス |
| 本記事(qwen35-complete-guide) | 中小企業・個人・試験導入者 | 使い方・モデル比較・ローカル起動ハウツー |
本記事は「とりあえず動かしてみたい」「どのモデルを選べばいいかわからない」という方向けです。エンタープライズ展開の詳細(ガバナンス・セキュリティポリシー・複数部門展開)については既存記事をご参照ください。
参考・出典
- Qwen 3.5公式ブログ — Alibaba Qwen Team(参照日: 2026-03-22)
- QwenLM/Qwen3.5 GitHub — Alibaba Cloud(参照日: 2026-03-22)
- Qwen/Qwen3.5-9B — Hugging Face — モデルカード・スペック詳細(参照日: 2026-03-22)
- AI Model Benchmarks Mar 2026 — LM Council — 各社モデル横断ベンチマーク(参照日: 2026-03-22)
- Ollama Qwen3.5ライブラリ — インストール手順・モデルバリアント(参照日: 2026-03-22)
- How to Run Qwen 3.5 Locally — DataCamp — ローカル環境構築チュートリアル(参照日: 2026-03-22)
まとめ:今日から始める3つのアクション
- 今日やること: Ollamaをインストールして
ollama run qwen3.5:4bを実行。日本語でいくつか質問してみる(所要時間: 10〜15分) - 今週中: 自部署で繰り返し発生している文書作業(週報・議事録・メール下書きなど)を1つ選び、Qwen 3.5で代替できるかPoC
- 今月中: セキュリティ要件の整理(どのデータをAIに入れてよいか)と運用ルール策定。問題なければチームへの横展開を検討
あわせて読みたい:
- AIエージェント導入完全ガイド — エージェントAIとローカルLLMを組み合わせた自動化の全体像
- Qwen 3.5エンタープライズ活用 — 組織全体への展開・ガバナンス設計
著者: 佐藤傑(さとう・すぐる)
株式会社Uravation代表取締役。早稲田大学法学部在学中に生成AIの可能性に魅了され、X(旧Twitter)で活用法を発信(@SuguruKun_ai、フォロワー約10万人)。100社以上の企業向けAI研修・導入支援を展開。著書『AIエージェント仕事術』(SBクリエイティブ)。SoftBank IT連載7回執筆(NewsPicks最大1,125ピックス)。
ご質問・ご相談はお問い合わせフォームからお気軽にどうぞ。


