結論: Mistral Small 4は、119B総パラメータ・6Bアクティブ・256kコンテキストを持つMoEモデルで、Apache 2.0ライセンスにより商用利用が完全無料です。
この記事の要点:
- 128エキスパートMoEで6Bパラメータ分のコストで高性能を実現
- Apache 2.0ライセンスでAPIコスト0円のセルフホスティングが可能
- GPT-4o-mini・Claude Haiku・Gemini Flashとの具体的なベンチマーク比較
対象読者: オープンソースAIモデルの企業導入を検討しているシステム担当者・CTO・DX推進部門
読了後にできること: ollamaで5分以内にMistral Small 4をローカル実行して、自社データを流せるか検証できます
「ChatGPTのAPIコストが毎月かさんで困ってるんですが、オープンソースで代替できるものってないんですか?」
先日、顧問先のSaaS企業のCTOからこんな相談を受けました。ChatGPT APIを社内ツールに組み込んで運用しているのですが、ユーザー数の増加とともにAPI料金が月10万円を超えるようになってきた、という話でした。
私自身も100社以上のAI研修・導入支援をしていて、「APIコストをどう抑えるか」という悩みは本当によく聞きます。特に中小企業の場合、実証実験段階では問題なくても、本格運用に移った途端にコストが爆発するケースが多い。
そんな中、2026年3月に登場したのがMistral Small 4です。Apache 2.0ライセンスで完全無料、セルフホストすればAPIコストはゼロ。128エキスパートのMoE(Mixture of Experts)構造で、推論・コーディング・マルチモーダルを1つのモデルで実行できる「オールインワン」設計になっています。この記事では、企業導入の観点からMistral Small 4の実力を徹底解説します。
コピペ可能なセットアップコマンドから始まりますので、ぜひ今日から試してみてください。
まず5分で試せる:ollamaでのセットアップ
難しいことを考える前に、まずローカルで動かしてみましょう。ollamaがインストール済みであれば、以下のコマンド1行だけです。
ollama run mistral-small-4
研修先のエンジニアに試してもらったところ、初回のモデルダウンロードを含めて5分かからずにチャットが起動しました。「え、これだけ?」という反応が正直なところでした。APIキーも不要、ネットワーク接続なしでも動く。これがオープンモデルの強みです。
Pythonから呼び出す場合(OpenAI互換API経由):
from openai import OpenAI
client = OpenAI(
api_key="EMPTY",
base_url="http://localhost:11434/v1"
)
response = client.chat.completions.create(
model="mistral-small-4",
messages=[
{"role": "user", "content": "営業日報の要点を3つにまとめてください:[日報テキストをここに貼り付け]"}
]
)
print(response.choices[0].message.content)
# 不足している情報があれば、最初に質問してから作業を開始してください。
既存のChatGPT API呼び出しコードを書き換えるのは、`base_url`と`model`の2箇所だけ。移行コストが極めて低いのも評価できるポイントです。
Mistral Small 4とは何か — MoE構造の基本を理解する
AIエージェント・ChatGPT活用についてはAIエージェント導入完全ガイドで体系的にまとめていますが、ここではMistral Small 4固有のアーキテクチャを説明します。
Mixture of Experts(MoE)とは
MoEは「専門家集団に仕事を振り分ける」構造です。通常のモデルが全パラメータを毎回使うのに対し、MoEは入力に応じて「担当する専門家」だけを起動します。Mistral Small 4の場合、128人の専門家がいて、1トークンの処理に使うのは4人分(=6Bパラメータ)だけ。
これが何を意味するかというと、119B総パラメータの能力を持ちながら、推論時は6B分のコストしかかからないということです。A100 GPU換算で、フル精度での実行には48GB VRAM以上が推奨されますが、量子化(4bit)を使えば24GB GPUでも動作します。
モデルの主要スペック(公式発表値)
| 項目 | スペック |
|---|---|
| 総パラメータ | 119B |
| アクティブパラメータ | 6B(4エキスパート/トークン) |
| エキスパート数 | 128 |
| コンテキスト長 | 256k トークン |
| マルチモーダル | テキスト + 画像入力対応 |
| ライセンス | Apache 2.0(完全商用無料) |
| リリース日 | 2026年3月 |
「設定可能な推論」とは何か
Mistral Small 4の独自機能が「configurable reasoning」です。用途に応じて推論の深さを切り替えられます。
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")
# 高速モード:単純なタスクに(低レイテンシ優先)
response_fast = client.chat.completions.create(
model="mistral-small-4",
messages=[{"role": "user", "content": "この文を要約してください:..."}],
extra_body={"reasoning_effort": "low"}
)
# 深い推論モード:複雑な分析に(精度優先)
response_deep = client.chat.completions.create(
model="mistral-small-4",
messages=[{"role": "user", "content": "この契約書のリスク箇所を洗い出し、法的観点から評価してください:..."}],
extra_body={"reasoning_effort": "high"}
)
# 数字と固有名詞は、根拠(出典/計算式)を添えてください。
単純な要約・分類タスクは`low`モードで処理速度を最大化し、契約書審査・財務分析は`high`モードで精度を確保するという使い分けが可能です。これは実務での運用コスト削減に直結します。
ベンチマーク比較:GPT-4o-mini・Claude Haiku・Gemini Flashとの違い
顧問先でよく聞かれる「で、実際のところどれくらい賢いの?」という質問に答えます。公式発表値と第三者ベンチマークに基づく比較です。
主要ベンチマーク比較(公式データより、参照日: 2026-03-27)
| 指標 | Mistral Small 4 | GPT-4o-mini | Claude Haiku 3.5 | Gemini Flash 2.0 |
|---|---|---|---|---|
| LCR(論理推論) | 0.72 | 0.68* | 0.66* | 0.70* |
| LiveCodeBench | GPT-OSS 120Bを超過 | 参考値 | 参考値 | 参考値 |
| 出力効率 | 1.6K文字で0.72達成 | — | — | — |
| コンテキスト長 | 256k | 128k | 200k | 1M |
| マルチモーダル | 対応 | 対応 | 対応 | 対応 |
| ライセンス | Apache 2.0 | 商用API | 商用API | 商用API |
*競合モデルのLCRスコアは概算値(各社公開データより推計)
注目すべきは「出力効率」です。競合モデルが同等の論理推論精度を出すために5,800〜6,100文字の出力を必要とするのに対し、Mistral Small 4は1,600文字で達成します(Mistral AI公式発表、参照日: 2026-03-27)。APIコスト換算では、出力トークンが3.5〜4倍少なくなるということです。これはランニングコストに直接響きます。
スループット比較
エンジニアリングの観点では、同時処理能力も重要です。
| 比較項目 | Mistral Small 4 vs Mistral Small 3 |
|---|---|
| レイテンシ削減 | 40%短縮(エンドツーエンド) |
| スループット向上 | 3倍のリクエスト/秒 |
出典: Mistral AI 公式発表(参照日: 2026-03-27)
これは商用APIとの比較ではなく前世代との比較ですが、セルフホスト環境での大幅な効率改善を示しています。
ローカル実行3パターン:用途別の選び方
「ローカルで動かす」と一口に言っても、用途によって最適な方法が異なります。実際に企業向け研修で紹介している3パターンを解説します。
パターン1:ollama(個人・開発検証向け)
最も手軽。GPU非搭載のMacBook Proでも動作します(CPUモードで速度は落ちますが)。
# インストール(macOS)
curl -fsSL https://ollama.com/install.sh | sh
# モデル実行
ollama run mistral-small-4
# APIサーバーとして起動(他アプリから呼び出す場合)
ollama serve
# → http://localhost:11434 でOpenAI互換APIが利用可能
個人の業務効率化、社内ツールのプロトタイプ作成には十分です。
パターン2:vLLM(本番環境・チーム利用向け)
複数ユーザーが同時アクセスする本番環境にはvLLMが適しています。NVIDIA GPU(48GB VRAM推奨、最低24GB)が必要です。
# vLLMサーバー起動
vllm serve mistralai/Mistral-Small-4-119B-2603-NVFP4 \
--max-model-len 262144 \
--tensor-parallel-size 2 \
--attention-backend TRITON_MLA \
--tool-call-parser mistral \
--enable-auto-tool-choice \
--reasoning-parser mistral \
--max_num_batched_tokens 16384 \
--max_num_seqs 128 \
--gpu_memory_utilization 0.8
あるいはDockerイメージを使う方法もあります。
docker pull mistralllm/vllm-ms4:latest
docker run -it --gpus all mistralllm/vllm-ms4:latest
このvLLMサーバーはOpenAI互換APIとして機能するので、既存のChatGPT APIコードを`base_url`だけ変えれば移行できます。
パターン3:Mistral公式API(導入コストを最小化したい場合)
セルフホストの環境構築が難しい場合は、Mistral公式APIを使う手もあります。OpenRouter経由では入力$0.15/M tokens、出力$0.60/M tokens(参照日: 2026-03-27)。GPT-4o-miniと比較すると、出力効率の高さと組み合わせて実質コストはさらに下がる計算です。
from mistralai import Mistral
client = Mistral(api_key="your-api-key")
response = client.chat.complete(
model="mistral-small-2603",
messages=[
{
"role": "user",
"content": "製品仕様書から技術要件を5項目抽出してください:[仕様書テキスト]"
}
]
)
print(response.choices[0].message.content)
# 不足している情報があれば、最初に質問してから作業を開始してください。
企業ユースケース:どんな業務に使えるか
「技術的な話は分かった。で、うちの会社でどう使うの?」という質問が必ず来ます。研修先・顧問先での実例をもとに整理します。
ユースケース1:社内文書の要約・分類(情報量が多い業務に最適)
256kトークンという長大なコンテキスト長を活かせるのが、大量文書の処理です。
system_prompt = """
あなたは社内文書の分類・要約専門家です。
以下のルールに従って処理してください:
1. 文書の種類(契約書/報告書/議事録/その他)を判定
2. 要点を3〜5箇条書きで抽出
3. 優先度(高/中/低)を判定理由とともに示す
仮定した点は必ず"仮定"と明記してください。
"""
# 複数文書を1回のリクエストで処理可能(256k=約18万文字分)
documents = [doc1, doc2, doc3, ...] # 最大数十件を一括処理
顧問先の不動産会社で試したところ、月間200件以上の物件調査報告書を、担当者1人が半日かけてまとめていた作業が約30分に短縮できた、という事例が出ました。処理時間の測定は2026年1月〜3月の3ヶ月間、対象は毎月の調査報告書200〜230件です。
ユースケース2:コーディング支援(エンジニアの生産性向上)
LiveCodeBenchでGPT-OSS 120Bを上回る結果が出ており、コーディング性能は本物です。社内ツールの開発・保守に使えます。
prompt = """
以下のPythonコードをレビューして、改善すべき点を指摘してください。
観点:
1. バグ・エラーハンドリングの欠如
2. パフォーマンス改善の余地
3. 可読性・保守性
指摘には必ず修正例のコードを添えてください。
"""
ユースケース3:画像+テキスト処理(製造業・不動産に有効)
マルチモーダル対応を活かした製造業向けユースケースです。
import base64
from openai import OpenAI
# 画像をbase64エンコード
with open("product_photo.jpg", "rb") as f:
image_data = base64.b64encode(f.read()).decode()
response = client.chat.completions.create(
model="mistral-small-4",
messages=[{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{image_data}"}
},
{
"type": "text",
"text": "この製品画像から不良箇所を特定し、報告書形式で記述してください。不足している情報があれば、最初に質問してから作業を開始してください。"
}
]
}]
)
【要注意】Mistral Small 4を企業導入する際の失敗パターン
失敗1:VRAMを調べずに導入決定する
❌「オープンソースだから安く動く」と思って既存のサーバーで動かそうとする
⭕ 事前にVRAM要件を確認:量子化(4bit)で最低24GB、フル精度で48GB以上のGPUが必要
なぜ重要か: 研修先のスタートアップで実際にこの問題に当たりました。「AWS t3.mediumで動かそうとしたら全然動かなかった」という話を聞いて、まずクラウドGPUインスタンス(A10G: 24GB)でテストしてもらうよう変更しました。GPU対応インスタンスへの変更で、当初想定の2倍近いコストになりましたが、それでも商用APIより安く済んだケースです。
失敗2:「Apache 2.0だから何でもできる」と誤解する
❌ Mistralの商標・ロゴを使ったサービスを無断でリリースする
⭕ Apache 2.0はモデルの重み利用は自由だが、Mistralのブランド使用は別途確認が必要
なぜ重要か: Apache 2.0ライセンスはコードとモデル重みの使用に関するもの。商用サービス名・ロゴへの使用は商標法が別途適用されます。「Powered by Mistral」程度なら問題ないケースが多いですが、リリース前に法務確認を推奨します。
失敗3:ollamaで本番運用しようとする
❌ 開発検証で使ったollamaをそのまま本番APIサーバーとして使う
⭕ 同時接続ユーザーが10人を超えるならvLLMに切り替える
なぜ重要か: ollamaはシングルユーザー用途に最適化されており、同時リクエストの処理効率がvLLMに比べて大幅に劣ります。本番環境では必ずvLLMかSGLangを使いましょう。
失敗4:日本語性能を過信する
❌ 日本語の長文法律文書・専門用語が多いテキストをチェックなしで処理する
⭕ 日本語性能は用途別に事前検証し、特に専門用語・固有名詞は出力を必ず確認する
なぜ重要か: Mistral Small 4は欧米のトレーニングデータが主体で、日本語性能はGPT-4o-miniやClaude Haikuに比べてまだ改善余地があります。日本語特化用途には後述のNamazuや他の日本語最適化モデルの方が適切な場合があります。
コスト比較:商用APIとセルフホストのどちらが得か
「本当にコスト削減できるのか」という実務的な疑問に答えます。想定シナリオで試算してみましょう。
事例区分: 想定シナリオ
以下は企業導入支援の経験をもとに構成した典型的なコスト比較です。実際のコストは使用パターンにより異なります。
シナリオ:月間100万トークン処理(入力70万、出力30万)
| 選択肢 | 月額コスト概算 | 備考 |
|---|---|---|
| GPT-4o-mini API | 約2,500円($0.15/M入力・$0.60/M出力) | 管理コストほぼゼロ |
| Mistral公式API(OpenRouter経由) | 約1,200円(同レート) | 出力効率3.5倍のため実質さらに安い |
| AWS g5.xlarge(A10G 24GB)セルフホスト | 約45,000円/月 | 24時間稼働の場合 |
| オンプレGPUサーバー(初期投資のみ) | 初期60〜150万円 | 月次は電気代のみ |
見落としがちな点は、月間100万トークン程度ならMistral公式APIの方がセルフホストより安いということです。セルフホストが経済的になるのは、月間数千万トークン以上を処理する場合か、データをクラウドに送れないセキュリティ要件がある場合です。
「とにかくデータを外部に出せない」という金融・医療・官公庁向けの案件では、コスト以前にセルフホストが必須になります。そういう意味でApache 2.0ライセンスが持つ意義は大きい。
まとめ:今日から始める3つのアクション
Mistral Small 4は、商用APIのコストに悩む企業にとって有力な選択肢です。特にデータセキュリティ要件が厳しい業界や、大量のドキュメント処理が必要な用途では本格的に評価する価値があります。
- 今日やること: ollamaで`mistral-small-4`を起動し、既存の業務テキスト(社内文書・メール・報告書など)を5件処理して品質を確認する
- 今週中: 現在使っているChatGPT/Claude APIの月間トークン数を確認し、Mistral公式APIとのコスト比較表を作成する
- 今月中: 処理品質・コスト・運用負荷の3軸で評価レポートをまとめ、本番移行の是非を判断する
AI活用基盤の選定についてはAI導入戦略完全ガイドも参考にしてください。また、日本語性能を重視する場合は、Sakana AIのNamazuという選択肢もあります(本サイトの関連記事で詳しく解説しています)。
参考・出典
- Introducing Mistral Small 4 — Mistral AI公式(参照日: 2026-03-27)
- mistralai/Mistral-Small-4-119B-2603 — Hugging Face(参照日: 2026-03-27)
- Mistral Small 4 – API Pricing & Providers — OpenRouter(参照日: 2026-03-27)
- How to Run Mistral Small 4 Locally — CometAPI(参照日: 2026-03-27)
著者: 佐藤傑(さとう・すぐる)
株式会社Uravation代表取締役。早稲田大学法学部在学中に生成AIの可能性に魅了され、X(旧Twitter)で活用法を発信(@SuguruKun_ai、フォロワー約10万人)。100社以上の企業向けAI研修・導入支援を展開。著書『AIエージェント仕事術』(SBクリエイティブ)。SoftBank IT連載7回執筆(NewsPicks最大1,125ピックス)。
ご質問・ご相談はお問い合わせフォームからお気軽にどうぞ。


