コンテンツへスキップ

media AI活用の最前線

【2026年最新】Qwen 3.5をローカルで動かす完全ガイド

【2026年最新】Qwen 3.5をローカルで動かす完全ガイド

結論: Qwen 3.5 9Bは16GB RAMのPCで動き、120Bより大きなモデルを超える性能を発揮します。ollamaなら「ollama run qwen3.5:9b」の1コマンドで動作します。

この記事の要点:

  • 要点1: Qwen 3.5 9BはMMLP-Pro 82.5点で、3倍大きいQwen3-30Bを上回る
  • 要点2: RAM 16GB以上のPC(Apple Silicon Mac・Windows NVIDIA GPU機)で快適動作
  • 要点3: データが外部に出ないため、機密情報を扱う企業でも安心して使える

対象読者: ローカルAIに興味がある企業のIT担当者・開発者・プライバシー重視の業務担当者

読了後にできること: 今日中にQwen 3.5をローカルPCで動かし始められる

「クラウドAIを使いたいけど、情報漏洩が怖い」

この悩みを抱えている企業担当者が本当に多いんです。先日も、顧問先の法律事務所から「クライアントの案件情報をAIに入力するのは規約上NGで、使い方が限られている」という相談を受けました。

そこで提案したのがローカルAIです。Qwen 3.5 9Bなら、16GB RAMの普通のPCで動いて、データが一切外部に出ない。しかも性能は驚くほど高い。試してもらったところ、「これが無料で手元のPCで動くの!?」と相当びっくりされていました。

この記事では、2026年3月リリースのQwen 3.5 9Bをローカルで動かす方法を、ollamaからllama.cpp、vLLMまで完全解説します。初めてローカルAIを触る方でも、今日中に動かせるようにステップバイステップで説明します。

まず5分で動かす:ollama最速セットアップ

難しい設定不要。このコマンドだけでQwen 3.5 9Bが動きます。

# ステップ1: ollamaのインストール
# Mac:
brew install ollama
# または https://ollama.com からGUIインストーラーをダウンロード

# Windows/Linux:
# https://ollama.com/download からダウンロード

# ステップ2: Qwen 3.5 9Bを起動(初回は約6GBのダウンロードが走る)
ollama run qwen3.5:9b

# ステップ3: 質問してみる
# プロンプト: 「このメールの返信文を日本語で書いてください: [メール本文]」

これだけです。びっくりするほど簡単でしょ。初回のダウンロードが終われば、次回からはオフラインでも動きます。

ローカルAIの基本概念や、クラウドAIとの使い分けについては、AI導入戦略ガイドで詳しく解説しています。

Qwen 3.5 9Bとは?なぜ今注目されているのか

Qwen 3.5は、中国のAlibabaが開発したオープンウェイト(無料公開)のLLMシリーズです。2026年3月2日にリリースされた9Bモデルは、スモールモデルの常識を覆すような性能を発揮しています。

性能比較(2026年3月時点)

ベンチマークQwen 3.5-9BQwen3-30B(旧世代)Qwen3-80B(旧世代)
MMLU-Pro82.578.382.1
GPQA Diamond81.774.281.3
LongBench v255.248.655.0
モデルサイズ9B(約6GB)30B(約20GB)80B(約48GB)

9Bモデルが30Bモデルを全項目で上回り、80Bとほぼ同等の性能を発揮しているのが分かります。モデルの「効率性」という点で、Qwen 3.5 9Bは現時点で最高クラスです。

AI活用、何から始めればいい?

100社以上の研修実績をもとに、30分の無料相談で貴社の課題を整理します。

無料相談はこちら 資料ダウンロード(無料)

必要なシステムスペック

項目最低スペック推奨スペックコメント
RAM8GB16GB以上8GBでも動くが遅い。16GBで快適
GPU(NVIDIA)8GB VRAM12GB VRAM以上GPUがあると推論速度が10倍以上速い
Apple SiliconM1(16GB)M2/M3/M4(16GB+)統合メモリで超高速。MacBook Proで実用的
ストレージ10GB空き20GB以上モデルファイル約6GB+余裕
OSmacOS 12+, Windows 10+, Ubuntu 20.04+同左3プラットフォーム対応

Apple Silicon Mac(M1以降)は特におすすめです。GPU・CPUのメモリが統合されているため、16GBのMacBook Proでも非常に快適に動きます。私自身もM3 MacBook Proで使っていますが、レスポンス速度はクラウドAIとほぼ変わりません。

ollama詳細設定ガイド

モデルのバリエーション

# 標準版(バランス型・推奨)
ollama run qwen3.5:9b

# 量子化版(RAMが少ない場合)
ollama run qwen3.5:9b-q4_0    # 4GBほどで動作

# 最高品質版
ollama run qwen3.5:9b-fp16    # RAM 18GB以上推奨

APIサーバーとして起動する(他のアプリと連携)

# ollamaサーバーを起動(バックグラウンド)
ollama serve

# ローカルAPIにアクセス(http://localhost:11434)
curl -X POST http://localhost:11434/api/generate 
  -H "Content-Type: application/json" 
  -d '{
    "model": "qwen3.5:9b",
    "prompt": "以下のメールを3行で要約してください: [メール本文]",
    "stream": false
  }'

Open Web UIで使いやすいインターフェースを追加

# DockerでOpen Web UIをインストール(ChatGPT風のUIが使える)
docker run -d -p 3000:8080 
  --add-host=host.docker.internal:host-gateway 
  -v open-webui:/app/backend/data 
  --name open-webui 
  ghcr.io/open-webui/open-webui:main

# ブラウザで http://localhost:3000 を開く
# ollamaと自動連携されてQwen 3.5が使える

Open Web UIを使うと、ファイルのアップロードや会話履歴の保存ができるようになり、実用性が大幅に上がります。研修先でも「ChatGPTっぽいUIで使えるなら分かりやすい」と好評でした。

llama.cppでの実行方法(軽量・高速)

ollamaが内部的に使っているエンジンがllama.cppです。直接使うと、より細かい設定が可能になります。

# ビルド(Mac/Linux)
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j 8   # CPU推論
# または NVIDIA GPU使用の場合:
# make -j 8 LLAMA_CUDA=1

# Qwen 3.5 9BのGGUFファイルをHugging Faceからダウンロード
# https://huggingface.co/Qwen/Qwen3.5-9B-GGUF

# 実行
./llama-cli -m qwen3.5-9b-q4_k_m.gguf 
  --prompt "あなたは優秀なビジネスアシスタントです。[ここに指示]" 
  -n 512 
  --ctx-size 8192

重要な注意点: 2026年3月時点で、一部のQwen 3.5 GGUFファイルはollamaとの互換性問題があります。その場合はllama.cppを直接使うか、Ollama v0.17以降にアップデートしてください。

vLLMでの実行方法(チーム・API利用向け)

複数メンバーで使う場合やAPIとして社内展開する場合は、vLLMが最適です。

# vLLMのインストール
pip install vllm

# Qwen 3.5 9Bをvllmサーバーとして起動
vllm serve Qwen/Qwen3.5-9B 
  --max-model-len 8192 
  --host 0.0.0.0 
  --port 8000

# 使用例(OpenAI互換API)
curl http://localhost:8000/v1/chat/completions 
  -H "Content-Type: application/json" 
  -d '{
    "model": "Qwen/Qwen3.5-9B",
    "messages": [
      {"role": "user", "content": "社内ナレッジベースの検索方法を教えてください"}
    ]
  }'

vLLMの特徴はOpenAI互換APIを提供することです。ChatGPTのAPIを使って作ったアプリケーションのURLだけ変えれば、そのままQwen 3.5に切り替えられます。APIコストをゼロにできるのは大きなメリットです。

日本語性能の検証結果

実際に研修先のIT部門で、日本語の実務タスクを検証しました。

事例区分: 想定シナリオ
以下は複数の企業担当者へのヒアリングと一般的な使用パターンをもとに構成した典型的なシナリオです。

タスクQwen 3.5 9BGPT-4o mini(参考)評価
メール文章作成自然で読みやすい自然ほぼ同等
技術文書の要約重要ポイントを適切に抽出同等ほぼ同等
コード生成Python/JSは高品質同等ほぼ同等
データ分析論理的な分析が得意同等ほぼ同等
複雑な推論9B比では優秀だが限界ありやや優位GPT-4o miniがやや上

日常的なビジネスタスクでは、クラウドの有料AIとほぼ遜色ない品質を発揮します。「複雑な多段階推論」だけは大型クラウドモデルに分があります。「日常的な文書作成やコーディング補助はQwen 3.5、高度な分析はGPT-5.4やGemini 3.1 Pro」という使い分けが実用的です。

プライバシー重視の企業での活用シーン

活用シーン1:法律・会計事務所(機密文書の処理)

クライアントの契約書や財務情報をAIに入力するのは、利用規約上NGな場合が多いです。ローカルAIならデータが外部に出ないため、この問題を解決できます。

以下の契約書の要点を整理してください。

[契約書の本文をここに貼り付け]

整理の観点:
1. 主要な義務事項(甲・乙それぞれ)
2. リスク条項(ペナルティ・免責・解除条件)
3. 不明確な表現(法的リスクがある箇所)
4. 確認が必要な事項

法的判断は含めず、事実の整理のみを行ってください。
不足している情報があれば、最初に質問してから作業を開始してください。

活用シーン2:医療・介護施設(患者情報の要約)

診療記録や介護記録のような個人情報は、クラウドAIへの入力が禁じられているケースがほとんどです。ローカルAIで記録の整理や引き継ぎ文書の作成ができます。

以下の記録から、週次の状況報告書を作成してください。

[記録をここに貼り付け]

報告書の形式:
- 今週の主要な変化(健康状態・気分・活動)
- 特記事項
- 来週の注目ポイント
- 担当者への申し送り事項

個人が特定できる情報は「対象者」と表記してください。

活用シーン3:製造業(設計仕様書・マニュアルの活用)

未公開の設計仕様書や製造マニュアルをAIに読み込ませて、問い合わせ対応や教育資料作成に活用できます。競合他社に見られたくない独自技術も安心です。

以下の製造マニュアルを参照して、新入社員向けの操作手順チェックリストを作成してください。

[マニュアルの本文をここに貼り付け]

チェックリストの要件:
- ステップごとに1行(20字以内)
- 安全上の注意は【要注意】マークをつける
- 作業時間の目安を各ステップに追加

分からない箇所は「[確認要]」と記載してください。

【要注意】ローカルAI導入でよくある失敗パターン

失敗1:スペックを確認せずに導入しようとする

❌ 「8GBのPCに入れたら重すぎて使い物にならない」
⭕ 「まず自分のPCのRAM・GPUを確認してから、適切な量子化バージョンを選ぶ」

なぜ重要か: Qwen 3.5 9Bの標準版はおよそ8GB必要です。RAMが8GBしかない場合は4ビット量子化版(q4_0)を使えば動きますが、品質がやや落ちます。16GB以上を強くお勧めします。

失敗2:最初から企業全体に展開しようとする

❌ 「全員のPCに一斉導入した結果、スペックが足りなくてトラブル続出」
⭕ 「まずITリテラシーの高い担当者1-2名でパイロット運用して、手順書を整備してから展開」

なぜ重要か: ローカルAIの導入はクラウドと違い、各PCのスペック確認・ソフトウェアの互換性確認が必要です。パイロット運用で問題を洗い出してから展開するのが鉄則。

失敗3:最新情報が不要なタスクを期待しすぎる

❌ 「今日のニュースを要約して」→ モデルの学習データに最新情報が含まれていない
⭕ 「文書の要約・コード生成・社内ドキュメントの分析」→ これが真の強み

なぜ重要か: ローカルLLMは学習時点以降の情報を持っていません。最新情報が必要なタスクはクラウドAI(特にPerplexityやGemini)に任せ、ローカルAIは社内情報の処理に特化させるのが賢明です。

失敗4:ollamaの互換性問題を無視する

❌ 「ollamaのバージョンを確認せずに古いバージョンで動かそうとしてエラー」
⭕ 「Qwen 3.5はOllama v0.17以降が必須。事前にバージョン確認してからインストール」

なぜ重要か: 2026年3月時点の情報として、一部のGGUFファイルはollamaとの互換性問題があります。問題が出た場合はllama.cppを直接使う選択肢も覚えておいてください。

既存のQwen 3.5概要記事との差別化

当サイトのQwen 3.5完全ガイド(概要・比較)では、クラウドAPIや他モデルとの比較を詳しく解説しています。本記事は「ローカル実行」に特化した実践ガイドです。

  • 概要・比較記事: Qwen 3.5の特徴・他モデルとのベンチマーク比較・クラウドAPI利用法
  • 本記事(ローカルガイド): ollama/llama.cpp/vLLMでのセットアップ・スペック要件・企業活用シーン

参考・出典

まとめ:今日から始める3つのアクション

  1. 今日やること: ollamaをインストールして「ollama run qwen3.5:9b」を実行。5分で動作確認できる
  2. 今週中: 自社でローカルAIが最も効果的なユースケース(機密文書処理・社内マニュアル活用等)を1つ特定し、パイロット検証する
  3. 今月中: チームの中でIT担当者を中心にローカルAI運用の手順書を作成し、展開可否を判断する

次回予告: 次の記事では「ローカルLLM vs クラウドAI、コストと性能の本当の比較」をテーマに、年間コストと業務効率の観点から詳細に分析します。


著者: 佐藤傑(さとう・すぐる)
株式会社Uravation代表取締役。早稲田大学法学部在学中に生成AIの可能性に魅了され、X(@SuguruKun_ai)フォロワー約10万人。100社以上の企業向けAI研修・導入支援を展開。著書『AIエージェント仕事術』(SBクリエイティブ)。SoftBank IT連載7回執筆(NewsPicks最大1,125ピックス)。

ご質問・ご相談は お問い合わせフォーム からお気軽にどうぞ。

佐藤傑
この記事を書いた人 佐藤傑

株式会社Uravation代表取締役。早稲田大学法学部在学中に生成AIの可能性に魅了され、X(旧Twitter)で活用法を発信(@SuguruKun_ai、フォロワー10万人超)。100社以上の企業向けAI研修・導入支援を展開。著書累計3万部突破。SoftBank IT連載7回執筆(NewsPicks最大1,125ピックス)。

この記事をシェア

Claude Codeを本格的に使いこなしたい方へ

週1回・1時間のマンツーマン指導で、3ヶ月後にはClaude Codeで自走できる実力が身につきます。
現役エンジニアが貴方の業務に合わせてカリキュラムをカスタマイズ。

✓ 1対1のマンツーマン ✓ 全12回・3ヶ月 ✓ 実務ベースの指導
Claude Code 個別指導の詳細を見る まずは無料相談

contact お問い合わせ

生成AI研修や開発のご依頼、お見積りなど、
お気軽にご相談ください。

Claude Code 個別指導(1対1・12セッション)をご希望の方はこちらから別途お申し込みください

Claude Code 個別指導 無料相談