コンテンツへスキップ

media AI活用の最前線

【2026年最新】Qwen 3.5完全ガイド|ローカルAI性能・比較

【2026年最新】Qwen 3.5完全ガイド|ローカルAI性能・比較

結論: Qwen 3.5は、Alibaba Cloud製のオープンソースAIシリーズで、9Bの小型モデルでもGPT-OSS-120Bを超えるベンチマークを達成し、商用利用可能なApache 2.0ライセンスでローカル環境に無料で展開できる、2026年時点で最強コスパのオープンモデルです。

この記事の要点:

  • Qwen3.5-9Bは、GPT-OSS-120Bを複数ベンチマークで上回る(MMLU-Pro: 82.5 vs 80.8)
  • ollama/llama.cpp/vLLMでローカルPCに展開可能。商用利用OK(Apache 2.0)
  • 命令追従(IFBench)ではGPT-5.2(75.4)を超える76.5を記録

対象読者: 社内データを守りながらAIを使いたい中小企業のIT担当者・DX推進責任者

読了後にできること: Ollamaを使ってQwen 3.5をローカルPCで動かし、社内利用を試験的に開始できる


「AIツールを使いたいけど、社内の機密情報をクラウドに送るのが怖い…」

企業向けAI研修でいちばんよく聞かれる悩みです。製造業の情報システム担当者から「図面データをChatGPTに入れていいのか、法務部門から止められました」という話を聞いたとき、正直「これは本当に多くの企業が詰まっているところだな」と思いました。

その問いに対する答えの一つが、Alibabaが開発するQwen(チェン)シリーズ、なかでも2026年2〜3月にかけてリリースされたQwen 3.5です。オープンウェイトで商用利用可能(Apache 2.0)、そして9Bの小型モデルでさえGPT-4oクラスを超える性能を持つという話を初めて聞いたとき、私も「本当に?」と疑いながら自分で検証しました。

この記事では、Qwen 3.5の各モデルのスペック・ローカル環境への導入手順・主要AIとのベンチマーク比較・企業でのオンプレミス活用シナリオまでを、実際に試した経験をもとにまとめています。データはすべて公開ベンチマーク(参照日: 2026年3月)に基づいています。

まず5分で試せる:OllamaでQwen 3.5を動かす最速コマンド

長い解説の前に、まず動かしてみましょう。MacまたはWindowsにOllamaが入っていれば、以下の1行だけで始められます。

# Ollamaのインストール(Mac)
brew install ollama

# Qwen 3.5 9Bを起動(ダウンロードから対話まで自動)
ollama run qwen3.5:9b

# より軽量な4Bで試したい場合
ollama run qwen3.5:4b

「起動まで1分もかからなかった、驚きました」というのが顧問先の担当者の第一声でした。モデルが起動したら、日本語でそのまま話しかけられます。

>>> 社内の就業規則について30代の新入社員向けに要約してください。
不足している情報があれば、最初に質問してから作業を開始してください。

このプロンプトの末尾の一文(「不足している情報があれば…」)は、AIが情報不足のまま架空の内容を生成するのを防ぐ事故防止フレーズです。社内文書を扱うときは必ず追加しましょう。

AIエージェントの基礎からローカルAI活用の全体像を知りたい方は、AIエージェント導入完全ガイドも合わせてご覧ください。

Qwen 3.5のモデルラインナップと各スペック

Qwen 3.5は2026年2〜3月にかけて3段階でリリースされました。モデルの規模によって用途が変わるため、まず全体像を把握しておきましょう。

リリースタイムライン

リリース日モデル特徴
2026年2月16日Qwen3.5-397B-A17BフラッグシップMoEモデル(総パラメータ397B、アクティブ17B)
2026年2月24日中型シリーズ(14B〜72B相当)推論・コーディング特化のプロダクションモデル
2026年3月2日小型シリーズ(0.8B、2B、4B、9B)エッジ・オンプレミス向けコンパクトモデル

モデル別スペック早見表

モデルパラメータ数コンテキスト長推奨環境用途
Qwen3.5-0.8B8億32KRAM 4GB以上モバイル・組み込み
Qwen3.5-2B20億64KRAM 8GB以上軽量タスク
Qwen3.5-4B40億128KRAM 8GB以上(推奨16GB)汎用・個人用途
Qwen3.5-9B90億262K(最大101万トークン)RAM 16GB以上業務利用・チーム導入
Qwen3.5-397B-A17B3970億(アクティブ170億)1M+高性能GPUサーバーエンタープライズ・API

注目すべきは9Bモデルのコンテキスト長です。ネイティブで262,144トークン(約20万字の文書)、拡張すると約101万トークンまで対応します。社内規程集・契約書・技術マニュアルを丸ごと入力しての質疑応答が可能です。

また、フラッグシップの397B-A17Bが採用しているMoE(Mixture of Experts)アーキテクチャは、397億パラメータを持ちながら1回の推論で使うのは17億だけという設計です。これにより、大型モデルの性能を持ちながら推論コストを抑えられます。

ライセンスについて

全モデルがApache 2.0ライセンスで公開されています。商用利用・改変・再配布が可能です。GPT系やClaude系のような月額課金は不要で、自社サーバーで動かせばランニングコストはインフラ代のみです。

AI活用、何から始めればいい?

100社以上の研修実績をもとに、30分の無料相談で貴社の課題を整理します。

無料相談はこちら 資料ダウンロード(無料)

他のAIモデルとのベンチマーク比較(2026年3月時点)

「スペックが良くても実際に使えるのか?」これが企業担当者の正直な疑問です。公開ベンチマークをもとに確認しましょう。

主要ベンチマーク比較表

ベンチマークQwen3.5-9BGPT-OSS-120BQwen3.5-397BGPT-5.2Claude Opus 4.6
MMLU-Pro(総合知識)82.580.8
GPQA Diamond(科学的推論)81.780.1
AIME 2026(数学)91.396.793.3
IFBench(命令追従)76.575.458.0
SWE-bench Verified(コーディング)76.480.080.9
Tau2-Bench(エージェント)86.791.6

(出典: LM Council, Qwen公式ブログ、各社発表資料。参照日: 2026年3月22日)

特に注目したいのが「命令追従(IFBench)」のスコアです。GPT-5.2(75.4)を上回る76.5を記録しています。企業利用で最も重要なのは「言ったことを正確にやってくれるか」であり、この指標でトップクラスなのは実務面で大きな意味があります。

用途別おすすめモデル早見表

用途おすすめ理由
文書要約・メール作成Qwen3.5-9B(ローカル)命令追従スコアが高く、長文対応
コード生成・レビューClaude Opus 4.6 / GPT-5.2SWE-benchでリード
数学・論理推論GPT-5.2 > Claude Opus 4.6AIME 2026でリード
プライバシー重視の社内利用Qwen3.5-9B(オンプレミス)ローカル動作でデータが外に出ない
大規模エンタープライズ展開Qwen3.5-397B-A17BMoEで効率的な大型モデル

ローカルPCへの導入:3つの方法を比較

Qwen 3.5をローカルで動かす方法は主に3つあります。それぞれの特徴を整理します。

方法1: Ollama(最も手軽・初心者向け)

顧問先の中小企業で情シス担当が初めてローカルAIを触った際、OllamaのGUIとCLIの分かりやすさに「これなら自分でも管理できる」と言っていました。まずOllamaから始めることをおすすめします。

# 1. Ollamaをインストール
# Mac: brew install ollama
# Windows: ollama.comから.exeをダウンロード

# 2. Qwen 3.5を起動(モデル自動ダウンロード付き)
ollama run qwen3.5:9b

# 3. API経由で使う場合(他のアプリと連携)
curl http://localhost:11434/api/chat -d '{
  "model": "qwen3.5:9b",
  "messages": [{"role": "user", "content": "社内文書を要約してください。"}]
}'

必要なRAMは以下が目安です:

  • Qwen3.5-4B: 8GB(推奨16GB)
  • Qwen3.5-9B: 16GB(推奨24GB)
  • 量子化(Q4)モデルなら約5GBで9Bを動かせます

方法2: LM Studio(GUI操作・Windows/Mac対応)

GUIでモデルを管理したい場合はLM Studioが便利です。HuggingFaceからGGUFファイルをダウンロードし、OpenAI互換のローカルAPIサーバーとして機能します。

# LM Studioでサーバーを立てた後、既存のOpenAIクライアントをそのまま使える
from openai import OpenAI

client = OpenAI(base_url="http://localhost:1234/v1", api_key="lm-studio")

response = client.chat.completions.create(
    model="qwen3.5-9b",
    messages=[{"role": "user", "content": "製品仕様書を要約してください。数字と固有名詞は根拠を添えてください。"}]
)
print(response.choices[0].message.content)

方法3: vLLM(本格的なサーバー運用向け)

複数ユーザーが同時に使う社内サーバーとして運用する場合はvLLMが適しています。

# vLLMで社内サーバーを立てる
pip install vllm

vllm serve Qwen/Qwen3.5-9B 
  --host 0.0.0.0 
  --port 8000 
  --max-model-len 32768

# 社内の他のPCからアクセス
curl http://192.168.1.100:8000/v1/chat/completions 
  -H "Content-Type: application/json" 
  -d '{"model": "Qwen/Qwen3.5-9B", "messages": [{"role": "user", "content": "質問"}]}'

3つの方法の比較

方法難易度同時接続向いている場面
Ollama★☆☆1人個人利用・試験導入
LM Studio★☆☆1〜数人チーム小規模利用
vLLM★★★多人数社内サーバー・本番運用

企業でのオンプレミスAI活用シナリオ

「ローカルで動くのはわかった。でもうちの会社でどう使えばいい?」という質問もよく受けます。Qwen 3.5の特性(長文対応・命令追従性能が高い・データが外に出ない)が生きる具体的なシナリオを紹介します。

シナリオ1: 社内文書QAシステム

事例区分: 想定シナリオ
以下は100社以上の研修・コンサル経験をもとに構成した典型的な活用例です。

就業規則・社内規程・製品マニュアルなどの社内文書をQwen 3.5に読み込ませ、社員がチャットで質問できる仕組みを構築するシナリオです。文書が外部サーバーに送られないため、情報漏洩リスクを最小化できます。

# 社内文書QAの基本プロンプト構造
"""
あなたは社内規程アシスタントです。以下の文書のみに基づいて回答してください。
文書にない情報は「規程には記載がありません」と回答してください。

【参照文書】
{社内文書の内容}

【質問】
{社員の質問}

仮定した点は必ず"仮定"と明記してください。
"""

シナリオ2: 機密情報を含む文書の要約・整理

契約書や顧客データを含む報告書の要約を、クラウドに送らずに処理するシナリオです。コンテキスト長が最大101万トークンのQwen 3.5-9Bは、長大な文書でもまとめて処理できます。

# 契約書要約プロンプト
"""
以下の契約書を要約してください。以下の点を必ずカバーしてください:
1. 契約期間と更新条件
2. 主要な義務事項(甲・乙それぞれ)
3. 解除条件と違約金
4. 特記事項

要約は箇条書き形式で、400字以内でまとめてください。
数字と固有名詞は根拠(条文番号)を添えてください。
"""

シナリオ3: 製造業・技術系企業での設計書レビュー

図面データ(テキスト化したもの)や仕様書を社内サーバー上のQwen 3.5に投入し、仕様の矛盾チェックや改善案の提案に使うシナリオです。自動車部品メーカーやシステム開発会社で特に有効です。

# 仕様書レビュープロンプト
"""
以下の技術仕様書をレビューしてください。
確認事項:
1. 論理的な矛盾や不整合はないか
2. 未定義・曖昧な用語はないか
3. セキュリティ上の懸念点はないか

問題がある箇所は「[問題] ページX: 内容」の形式で列挙してください。
不足している情報があれば、最初に質問してから作業を開始してください。
"""

【要注意】Qwen 3.5活用でよくある失敗パターン

ローカルAI導入で失敗するケースをいくつか見てきました。研修でよく出てくるものを整理します。

失敗1: RAMが足りないまま9Bを動かそうとする

❌ RAM 8GBのノートPCでollama run qwen3.5:9bを実行 → 激遅・クラッシュ
⭕ RAM 8GBならqwen3.5:4bまたは量子化版のqwen3.5:9b-q4_K_Mから始める

なぜこれが重要か: フル精度(FP16)の9Bは約18GBのRAMを消費します。Q4量子化にすると約5.5GBに削減できますが、精度は若干落ちます。まず量子化版で試してから必要に応じてアップグレードする流れが安全です。

失敗2: プロンプトを日本語で書かずに英語で書く

❌ 「Summarize this document in Japanese」と英語で指示 → 英語混じりの出力になることがある
⭕ 「以下の文書を日本語で300字以内に要約してください」と最初から日本語で指示する

なぜこれが重要か: Qwen 3.5は多言語対応ですが、入力言語に引っ張られる傾向があります。日本語の出力が必要なら日本語で指示するのが確実です。

失敗3: 最初から全社展開しようとする

❌ 「Qwen 3.5を全部門に入れよう!」→ 環境構築・運用ルール未整備でトラブル多発
⭕ まず1部門・1業務(例: 営業の日報作成)でPoC。1ヶ月後に評価してから横展開

なぜこれが重要か: ローカルAIはクラウドと違い、ハードウェア・OS・ネットワーク設定の問題がすべて自社責任です。小さく始めて運用ノウハウを蓄積してから拡大しましょう。

失敗4: AI出力を無検証でそのまま使う

❌ 「AIが要約したからOK」と確認なしで取引先に送信 → 誤情報が含まれていた
⭕ AI出力は必ず担当者が事実確認してから使用。特に数字・固有名詞・日付

なぜこれが重要か: いくら性能が高くてもAIは幻覚(ハルシネーション)を起こします。Qwen 3.5もその例外ではありません。「AIが最終確認した」ではなく「AIが下書きした、人間が確認した」が正しい使い方です。

Qwen 3.5と既存qwen-35-on-device-ai-enterpriseとの違い

本サイトにはすでにエンタープライズ向けQwen 3.5記事があります。位置づけの違いを整理します。

記事対象内容
qwen-35-on-device-ai-enterprise大企業・IT部門エンタープライズ導入・組織展開・ガバナンス
本記事(qwen35-complete-guide)中小企業・個人・試験導入者使い方・モデル比較・ローカル起動ハウツー

本記事は「とりあえず動かしてみたい」「どのモデルを選べばいいかわからない」という方向けです。エンタープライズ展開の詳細(ガバナンス・セキュリティポリシー・複数部門展開)については既存記事をご参照ください。

参考・出典

まとめ:今日から始める3つのアクション

  1. 今日やること: Ollamaをインストールしてollama run qwen3.5:4bを実行。日本語でいくつか質問してみる(所要時間: 10〜15分)
  2. 今週中: 自部署で繰り返し発生している文書作業(週報・議事録・メール下書きなど)を1つ選び、Qwen 3.5で代替できるかPoC
  3. 今月中: セキュリティ要件の整理(どのデータをAIに入れてよいか)と運用ルール策定。問題なければチームへの横展開を検討

あわせて読みたい:


著者: 佐藤傑(さとう・すぐる)
株式会社Uravation代表取締役。早稲田大学法学部在学中に生成AIの可能性に魅了され、X(旧Twitter)で活用法を発信(@SuguruKun_ai、フォロワー約10万人)。100社以上の企業向けAI研修・導入支援を展開。著書『AIエージェント仕事術』(SBクリエイティブ)。SoftBank IT連載7回執筆(NewsPicks最大1,125ピックス)。

ご質問・ご相談はお問い合わせフォームからお気軽にどうぞ。

佐藤傑
この記事を書いた人 佐藤傑

株式会社Uravation代表取締役。早稲田大学法学部在学中に生成AIの可能性に魅了され、X(旧Twitter)で活用法を発信(@SuguruKun_ai、フォロワー10万人超)。100社以上の企業向けAI研修・導入支援を展開。著書累計3万部突破。SoftBank IT連載7回執筆(NewsPicks最大1,125ピックス)。

この記事をシェア

Claude Codeを本格的に使いこなしたい方へ

週1回・1時間のマンツーマン指導で、3ヶ月後にはClaude Codeで自走できる実力が身につきます。
現役エンジニアが貴方の業務に合わせてカリキュラムをカスタマイズ。

✓ 1対1のマンツーマン ✓ 全12回・3ヶ月 ✓ 実務ベースの指導
Claude Code 個別指導の詳細を見る まずは無料相談

contact お問い合わせ

生成AI研修や開発のご依頼、お見積りなど、
お気軽にご相談ください。

Claude Code 個別指導(1対1・12セッション)をご希望の方はこちらから別途お申し込みください

Claude Code 個別指導 無料相談