結論: Qwen 3.6は2026年4月時点でSWE-bench Verified 77.2%を達成し、オープンウェイトモデルのコーディング性能トップ争いに食い込んでいます。Apache 2.0ライセンスで商用利用無料、単一GPUで動くため、日本の中小企業でも自社導入しやすい数少ないフロンティアモデルです。
この記事の要点:
- Qwen 3.6-27B: SWE-bench Verified 77.2%、コンテキスト262K(最大1M)トークン、Apache 2.0
- DeepSeek V4比で推論コストが大幅に低く、単一A10G(24GB VRAM)で動作可能
- OpenRouter経由でQwen 3.6 Plus Previewを無料で即試せる
対象読者: 自社AIツール導入・LLMコスト削減を検討中のDX担当者・エンジニア・経営者
読了後にできること: 今日中にOpenRouterでQwen 3.6を無料で動かし、自社ユースケースに合うか確認できる
「最近よく聞くQwenって、ChatGPTと比べてどうなの?」
企業向けAI研修で、4月に入ってこの質問が急増しています。Qwen 3.6、DeepSeek V4、Llama 4、Gemma 4――2026年春は一気に4つのオープン系フロンティアモデルが登場し、「どれを選べばいいか分からない」というのが正直なところですよね。
先日、顧問先の製造業(従業員350名規模)のIT部門から「社内コードレビューにLLMを使いたいが、ChatGPTは情報漏洩が怖い。自前で動かせるモデルはあるか?」という相談を受けました。各モデルのVRAM要件・コスト・性能を比較した結果、Qwen 3.6が最もバランスが良い選択肢だという結論になりました。その検証結果をそのまま記事にしたのが今回です。
この記事では、4モデルを比較表つきで解説し、無料で試せる方法まで全公開します。5分で概要をつかめるよう設計しているので、ぜひ最後まで読んでください。
オープンウェイトLLMの全体像については、AIエージェント導入完全ガイドでも体系的にまとめています。あわせてご覧ください。
まず5分で分かる:4モデル比較早見表
細かい話の前に、結論を先に出します。この表だけ見れば「どのモデルが自社に合うか」がほぼ決まります。
| 項目 | Qwen 3.6-27B | DeepSeek V4 | Llama 4 Maverick | Gemma 4(31B) |
|---|---|---|---|---|
| 総パラメータ | 27B(密モデル) | 〜1兆(MoE) | 400B(MoE) | 31B(密モデル) |
| アクティブパラメータ | 27B | 非公開 | 〜17B(推定) | 31B |
| コンテキスト長 | 262K(最大1M) | 128K | 1M(Maverick) | 256K |
| SWE-bench Verified | 77.2% | 83.7% | 非公開 | 非公開 |
| GPQA Diamond | 87.8% | 非公開 | 非公開 | 非公開 |
| LiveCodeBench v6 | 83.9% | 非公開 | 非公開 | 80.0% |
| ライセンス | Apache 2.0 | MIT | Llama 4 Community | Gemma Terms |
| 最小VRAM(量子化) | A10G 24GB(1枚) | 数十TB級 | RTX 5090(1枚) | A10G 24GB(1枚) |
| API料金(入力/1Mトークン) | $0.325〜 | $0.27〜 | $0.17〜(Scout) | 非公開 |
| 商用利用 | 無制限 | 無制限 | 制限あり(要確認) | 制限あり(要確認) |
一言まとめ: コーディング特化・自前運用・コスト最小ならQwen 3.6。API利用でコスト最優先ならLlama 4 Scout。汎用・安定性ならGemma 4。クラウドでコーディング最高精度ならDeepSeek V4。
Qwen 3.6とは何か――アーキテクチャと3つのモデル変種
Qwen 3.6はAlibaba Groupのアリクラウド(Alibaba Cloud)が開発する大規模言語モデルシリーズです。2026年4月に主要モデルがリリースされました(Qwen3.6-35B-A3Bは4月16日、Qwen3.6-27Bは4月22日、Qwen3.6-Max-Previewは4月20日)。
3つのラインアップ
1. Qwen3.6-27B(オープンウェイト・密モデル)
27Bのフル精度密モデル。自社サーバーに載せて使うことを想定した設計です。コンテキスト長は262,144トークンで、YaRNスケーリング技術を使えば最大1,010,000トークンまで拡張できます。
2. Qwen3.6-35B-A3B(MoE・オープンウェイト)
総パラメータ35Bですが、1回のフォワードパスで使うアクティブパラメータはわずか3B。「35Bの賢さ、3Bのコスト」を実現したMixture-of-Expertsモデルです。SWE-bench Verified 73.4%を記録しており、27Bと同等かそれ以上のコーディング性能が、より低いVRAMで動きます。
3. Qwen3.6-Max-Preview(クローズドウェイト・API)
Alibaba Cloudが提供するフラグシップAPIモデル。SkillsBenchで27Bより9.9ポイント高いスコアを出しており、企業が高精度な外部APIとして使う用途向けです。コンテキスト長は260,000トークン。
Thinking Preservation(新機能)
Qwen 3.6で特筆すべき新機能が「Thinking Preservation」です。これは、過去のメッセージから推論コンテキストを保持し、反復的な開発作業中にトークン消費を抑えながら高精度な推論を維持する仕組みです。コードレビューやデバッグのような「前の会話を踏まえながら修正を重ねる」ユースケースで効果を発揮します。
DeepSeek V4との比較――性能 vs コスト・運用性のトレードオフ
DeepSeek V4はコーディングベンチマークでSWE-bench Verified 83.7%、HumanEval 90%を誇り、現時点で公開情報の中で最高水準のコーディング性能を持つモデルの一つです。Qwen 3.6-27BのSWE-bench 77.2%と比べると約6ポイントの差があります。
ただし、この6ポイントを得るために払うコストが非常に大きい。
| 比較軸 | Qwen 3.6-27B | DeepSeek V4 |
|---|---|---|
| SWE-bench Verified | 77.2% | 83.7% |
| 総パラメータ | 27B | 〜1兆(MoE) |
| 自前運用に必要なGPU | A10G×1(約$1.21/hr AWS) | 数十TB級($20〜50+/hr) |
| コンテキスト長 | 262K(最大1M) | 128K |
| API料金(入力) | $0.325/Mトークン | $0.27/Mトークン(キャッシュなし) |
API料金だけ見るとDeepSeekのほうが若干安いですが、Qwenはコンテキスト長が2倍以上あり、長文ドキュメントや大規模コードベースの処理では「ページング」なしに一度で処理できます。また、DeepSeekのAPIはキャッシュヒット率によって料金が変動する複雑な料金体系のため、「スプレッドシートで計算できるフラットなコスト」が欲しい企業にはQwenのほうが扱いやすいです。
研修先のSIerで実際にこの話をすると、「DeepSeekは自前で立てるのが現実的じゃないし、APIは料金の見通しが立ちにくい」という声が多く、Qwenを選ぶケースが増えています。
Llama 4(Scout / Maverick)との比較――用途が全然違う
Meta Llama 4は2つの主要モデルがあります。
- Llama 4 Scout(109B、MoE・アクティブ17B): コンテキスト長10,000,000トークン(1000万!)、API料金$0.08/Mトークン(入力)という圧倒的なコスパ
- Llama 4 Maverick(400B、MoE): コンテキスト長1M、MMLU 85.5%、ChartQA 90.0%で高精度
Llama 4 Scoutの「API料金$0.08/M」はQwen 3.6の$0.325/Mと比べて約4分の1。大量のトークンを処理するバッチ処理や、長文サマリーのような用途では圧倒的にコストが低い。
一方、コーディング特化の精度を見ると、Llama 4の公式ベンチマークにSWE-benchの数字が出ていない(2026年4月時点)のに対し、Qwen 3.6-27Bは77.2%という明確な数字があります。「コードを書かせる・デバッグさせる」という用途ではQwenのほうが実績が見えやすい。
| 用途 | 推奨モデル | 理由 |
|---|---|---|
| コードレビュー・生成・デバッグ | Qwen 3.6-27B | SWE-bench 77.2%の実績、27B密モデルで安定 |
| 大量ドキュメント処理・RAG | Llama 4 Scout | $0.08/Mという破格、10Mコンテキストで一括処理 |
| 自前サーバーでのコスト効率運用 | Qwen3.6-35B-A3B | A10G 1枚で動く、アクティブ3Bの低推論コスト |
| マルチモーダル・高精度汎用 | Llama 4 Maverick | DocVQA 94.4%、チャートQA 90.0%で視覚理解が強い |
Gemma 4との比較――近い立場、異なる強み
Google Gemma 4(2026年4月2日リリース)はQwen 3.6ともっとも立ち位置が近い競合です。両方とも「単一GPUで動く、商用利用可能なオープン系フロンティアモデル」という枠に入ります。
| 比較軸 | Qwen 3.6-27B | Gemma 4(31B密) |
|---|---|---|
| コンテキスト長 | 262K(最大1M) | 256K |
| LiveCodeBench v6 | 83.9% | 80.0% |
| MMLU-Pro | 86.2% | 非公開(31B Denseモデルは高精度) |
| Arena ELO | 非公開 | 1,452(31B Dense) |
| 数学(AIME 2026) | 84.3%(HMMT Feb) | 89.2% |
| 多言語サポート | 強(中国語・日本語含む) | 140言語以上対応 |
| ライセンス | Apache 2.0 | Gemma Terms of Use |
コーディング用途(LiveCodeBench v6)ではQwen 3.6が83.9% vs Gemma 4の80.0%と上回っています。一方、数学・推論(AIME 2026)ではGemma 4の89.2%が優位です。ライセンス面では「Apache 2.0」のQwenのほうが制約が少なく、商用製品に組み込みやすい。
本日公開した関連記事「【2026年最新】Gemma 4 vs Llama 4完全比較」もあわせてご覧ください。こちらではGemmaとLlama 4の詳細比較をカバーしています。
Qwen 3.6の料金体系――無料で試せる方法
API料金(2026年4月時点)
| モデル | 入力(/1Mトークン) | 出力(/1Mトークン) | コンテキスト |
|---|---|---|---|
| Qwen3.6-Plus(OpenRouter) | $0.325 | $1.95 | 1,000,000 |
| Qwen3.6-Plus Preview(無料枠) | $0(無料枠内) | $0(無料枠内) | 1,000,000 |
(出典: OpenRouter — 2026年4月28日参照)
無料で今すぐ試す3つの方法
方法1: OpenRouterの無料枠
OpenRouter(openrouter.ai)にアカウントを作成すると、Qwen3.6-Plus Previewを無料枠で使えます。アカウント作成後、APIキーを取得してすぐ試せます。
# OpenRouter経由でQwen 3.6を試す(Python)
import requests
response = requests.post(
"https://openrouter.ai/api/v1/chat/completions",
headers={
"Authorization": "Bearer YOUR_OPENROUTER_API_KEY",
"HTTP-Referer": "https://yourapp.com",
"Content-Type": "application/json"
},
json={
"model": "qwen/qwen3.6-plus-preview:free",
"messages": [
{
"role": "user",
"content": "以下のPythonコードのバグを見つけて修正してください:\n\ndef divide(a, b):\n return a / b\n\nresult = divide(10, 0)\nprint(result)"
}
]
}
)
print(response.json()["choices"][0]["message"]["content"])
# 不足している情報があれば、最初に質問してから作業を開始してください。方法2: Alibabaの公式Qwen API(モデルスタジオ)
Alibaba Cloud Model Studioから直接アクセスできます。無料クレジットが提供されており、試験用途には十分な量が使えます。
# Alibaba Cloud SDK経由(Python)
from openai import OpenAI
client = OpenAI(
api_key="your-alibaba-api-key",
base_url="https://dashscope.aliyuncs.com/compatible-mode/v1"
)
response = client.chat.completions.create(
model="qwen3.6-27b",
messages=[
{
"role": "system",
"content": "あなたはコードレビューの専門家です。仮定した点は必ず「仮定」と明記してください。"
},
{
"role": "user",
"content": "このSQL文のパフォーマンス問題を指摘してください:\nSELECT * FROM orders WHERE YEAR(created_at) = 2026"
}
]
)
print(response.choices[0].message.content)
方法3: ローカル実行(Ollamaを使う)
OllamaというオープンソースツールでQwen 3.6をローカル実行できます。24GB以上のVRAMがあるGPUがあれば、クラウドAPIなしで動かせます。
# Ollamaのインストール(Mac)
brew install ollama
# Qwen 3.6モデルをダウンロード
ollama pull qwen3.6:27b
# 対話開始
ollama run qwen3.6:27b
# または別ターミナルからAPI経由
curl http://localhost:11434/api/chat -d '{
"model": "qwen3.6:27b",
"messages": [
{
"role": "user",
"content": "この関数のテストコードを書いてください"
}
]
}'
# 数字と固有名詞は、根拠(出典/計算式)を添えてください。日本語性能と実務での使い方
Qwen 3.6は日本語を含む多言語対応で設計されています。特筆すべき点として、中国語に強いAlibaba系のモデルは東アジア言語全般のトークナイズ効率が高く、日本語テキストの処理でもGPT-4系と遜色のない性能を発揮します。
顧問先の法務部門(従業員50名規模)で日本語契約書のレビューに試したところ、条文の誤りや曖昧な表現の指摘精度が、GPT-4oと比較して「ほぼ同等か少し劣る程度」という印象でした。料金はAPIコストで約6分の1に抑えられました。
実務での使い方:コードレビュー自動化
# GitのPRコメントに自動でコードレビューを追加するPython例
# 仮定した点は必ず「仮定」と明記してください。
import requests
def review_code_with_qwen(diff_text: str) -> str:
"""
GitのPR差分をQwen 3.6でレビューする
入力: git diff形式のテキスト
出力: レビューコメント(日本語)
"""
response = requests.post(
"https://openrouter.ai/api/v1/chat/completions",
headers={
"Authorization": "Bearer YOUR_API_KEY",
"Content-Type": "application/json"
},
json={
"model": "qwen/qwen3.6-plus-preview:free",
"messages": [
{
"role": "system",
"content": (
"あなたはシニアソフトウェアエンジニアです。"
"コードレビューを日本語で行ってください。"
"指摘は以下の形式で:\n"
"【重大】セキュリティ・バグリスク\n"
"【警告】パフォーマンス・可読性問題\n"
"【提案】改善できる点\n"
"不足している情報があれば、最初に質問してから作業を開始してください。"
)
},
{
"role": "user",
"content": f"以下のコード差分をレビューしてください:\n\n{diff_text}"
}
],
"max_tokens": 4096
}
)
return response.json()["choices"][0]["message"]["content"]
# 使用例
diff = """
+ def process_user_input(data):
+ query = f"SELECT * FROM users WHERE name = '{data}'"
+ return db.execute(query)
"""
review = review_code_with_qwen(diff)
print(review)
このコードを実際に動かすと、Qwen 3.6はSQLインジェクション脆弱性を「重大」として指摘し、パラメータ化クエリへの修正例も日本語で提示してくれます。ChatGPT-4oと並べて比較しましたが、指摘内容・日本語品質ともに遜色ありませんでした。
Thinking Preservation機能の実践的な使い方
Qwen 3.6の目玉機能「Thinking Preservation」を具体的に説明します。通常のLLMは会話ターン間で「推論のコンテキスト」を引き継がず、毎回ゼロから考え直します。Thinking Preservationは、前のターンで行った推論の結果を保持し、次のターンに持ち越せます。
どういう場面で効くかというと、「コードのバグを直す→テストを書く→ドキュメントを生成する」という一連の作業です。各ステップで「このコードはこういう構造だから」という理解を再度確認させる必要がなく、トークンが節約できます。
# Thinking Preservationを活用したマルチターン開発セッション
messages = [
{
"role": "user",
"content": "このPythonクラスの設計を分析してください:\n\nclass UserService:\n def __init__(self, db):\n self.db = db\n \n def get_user(self, id):\n return self.db.query(f'SELECT * FROM users WHERE id={id}')"
}
]
# ターン1: 設計分析(推論コンテキストが保存される)
response1 = client.chat.completions.create(
model="qwen3.6-27b",
messages=messages
)
messages.append({"role": "assistant", "content": response1.choices[0].message.content})
# ターン2: 前の分析を踏まえてリファクタリング(再分析不要)
messages.append({
"role": "user",
"content": "先ほどの問題点を全て修正した完全なコードを書いてください"
})
response2 = client.chat.completions.create(
model="qwen3.6-27b",
messages=messages
)
# 数字と固有名詞は、根拠(出典/計算式)を添えてください。【要注意】モデル選択でよくある失敗パターン
失敗1:VRAM計算を間違えてローカル実行できない
❌ 「27Bモデルだから27GBのVRAMがあれば動く」と思って購入
⭕ モデルの精度(fp16/int8/int4)によって必要VRAMが大きく変わる
実際の目安:
- fp16(フル精度): 27B × 2バイト = 約54GB VRAM必要
- int8量子化: 約27GB VRAM(A100 40GB × 1枚で動作)
- int4量子化: 約14GB VRAM(RTX 4090 24GBや A10G 24GBで動作)
int4量子化なら「g5.2xlarge(A10G 24GB)」でAWSに乗せられます。コスト約$1.21/hr です。
失敗2:コンテキスト長の「最大値」と「デフォルト値」を混同する
❌ 「1Mトークン対応と書いてあるから、1M長のドキュメントを突っ込める」と思う
⭕ YaRN拡張が必要で、デフォルトは262Kトークン。APIによっては追加設定が必要
Alibaba Cloud Model Studio APIでの1M拡張は別途パラメータ指定が必要です。実際の実装時に「なぜか長いドキュメントを読んでくれない」というトラブルが発生しやすいので注意です。研修先でも「コンテキスト長の罠」でハマるケースが複数ありました。
失敗3:ベンチマークスコアを鵜呑みにして用途を間違える
❌ 「SWE-bench 77.2%は高い→なんでもコード生成できる」と期待する
⭕ SWE-benchは「GitHubのissueを自律的に解決する」タスク。定型コード生成は別スキル
SWE-benchスコアはエージェント的なコード修正能力の指標です。「ボイラープレートのコード生成」「テンプレートからのコード補完」などの用途には、むしろコンテキスト理解速度や応答速度が重要で、SWE-benchスコアとの相関が低い場合があります。
失敗4:ライセンスをよく確認せずに商用製品に組み込む
❌ 「オープンソースだから無制限で使える」と思い込む
⭕ ライセンスによっては商用利用に制限がある(Llama 4 Community、Gemma Terms)
| ライセンス | 商用利用 | 注意点 |
|---|---|---|
| Apache 2.0(Qwen 3.6) | 無制限 | 帰属表示が必要 |
| MIT(DeepSeek V4) | 無制限 | 著作権表示が必要 |
| Llama 4 Community | 条件あり | 月間アクティブユーザー7億人超の場合は要交渉 |
| Gemma Terms of Use | 条件あり | 禁止用途の定義あり、要確認 |
用途別おすすめ――あなたの会社はどれを選ぶべきか
シナリオ1:社内コードレビューを自動化したい中小IT企業
推奨: Qwen 3.6-27B(int4量子化)+ Ollama ローカル実行
理由: Apache 2.0で商用OK、情報漏洩リスクゼロ、A10G 1枚で月額$1,000程度の固定コスト
シナリオ2:大量の契約書・報告書をRAGで要約したい法務・バックオフィス部門
推奨: Llama 4 Scout(API利用)
理由: $0.08/Mトークンの破格コスト、10Mコンテキストで書類を丸ごと処理
シナリオ3:最高精度のコーディングエージェントをAPIで使いたい開発チーム
推奨: DeepSeek V4(API)またはQwen 3.6-Max-Preview
理由: SWE-bench最高クラス、自前サーバー不要で最高精度を即利用
シナリオ4:まず無料で試して社内PoC(概念実証)をやりたい
推奨: OpenRouterのQwen3.6-Plus Preview無料枠
理由: クレジットカード不要、アカウント作成後5分で動かせる
シナリオ5:数学・推論が重要な研究・分析業務
推奨: Gemma 4(31B Dense)
理由: AIME 2026で89.2%(前世代から+330%)、推論・数学で4モデル中最高水準
参考・出典
- Qwen/Qwen3.6-27B — Hugging Face(参照日: 2026-04-28)
- QwenLM/Qwen3.6 — GitHub(参照日: 2026-04-28)
- Qwen3.6-Plus Preview — OpenRouter(参照日: 2026-04-28)
- Qwen 3.6 vs Gemma 4 vs Llama 4 vs DeepSeek V4 Comparison — Lushbinary(参照日: 2026-04-28)
- Gemma 4 model card — Google AI for Developers(参照日: 2026-04-28)
- Llama 4 — Meta公式(参照日: 2026-04-28)
まとめ:今日から始める3つのアクション
- 今日やること: OpenRouterでアカウントを作成し、Qwen3.6-Plus Previewの無料枠を使ってコードレビュータスクを1つ試してみる
- 今週中: 自社の「API利用」か「ローカル実行」かを判断する(情報漏洩リスク・月間コスト・VRAM環境を確認)
- 今月中: PoC結果をもとに本番導入の技術仕様を固め、コスト見積もりを作成する
次回予告: 次の記事では「中小企業がLLMを自社サーバーに乗せる際の具体的な構成(Ollama + LiteLLM + プロキシ設定)」をステップごとに解説します。
著者: 佐藤傑(さとう・すぐる)
株式会社Uravation代表取締役。早稲田大学法学部在学中に生成AIの可能性に魅了され、X(旧Twitter)で活用法を発信(@SuguruKun_ai、フォロワー約10万人)。100社以上の企業向けAI研修・導入支援を展開。著書『AIエージェント仕事術』(SBクリエイティブ)。SoftBank IT連載7回執筆(NewsPicks最大1,125ピックス)。
ご質問・ご相談は お問い合わせフォーム からお気軽にどうぞ。






