2026年3月3日、AppleがMacBook Pro向けの M5 Pro / M5 Max チップを正式発表した。18コアCPU、40コアGPU(Neural Accelerator内蔵)、最大128GBの統合メモリ、メモリ帯域幅 614 GB/s。
気になるのは一点だけ。「で、ローカルLLMはどれくらいの速度で回るの?」
AI試算・理論値 この記事は、M5 Max 128GB構成で主要モデルがどの程度のトークン生成速度を出せるか、Claude Opus 4.6にメモリ帯域幅から理論試算してもらったもの。あくまで理論値であり、実機ベンチマークはまだ出ていない。
M5 Max のスペック
| 項目 | M5 Max | M4 Max(参考) | 差分 |
|---|---|---|---|
| CPU | 18コア(6 super + 12 perf) | 16コア | +2コア |
| GPU | 40コア + Neural Accelerator | 40コア | アーキ刷新 |
| 統合メモリ | 最大 128GB | 最大 128GB | 同容量 |
| メモリ帯域幅 | 614 GB/s | 546 GB/s | +12.5% |
| AI演算性能 | M4 Max比 4倍以上(ピーク) | ― | ― |
GPUコアごとにNeural Acceleratorが内蔵されたのがM5世代の目玉で、Apple公式は「前世代比4倍以上のピークGPU AI演算」と言っている。
ただ、LLMのトークン生成速度はメモリ帯域幅で頭打ちになる。この4倍がそのままtok/sに乗るわけではない。恩恵があるのは主にプロンプト処理(Prefill)のほうだ。
参考: Apple 公式プレスリリース
主要モデルの推論速度試算
試算条件
- ハードウェア: M5 Max / 128GB統合メモリ / 614 GB/s
- 推論エンジン: MLX想定
- コンテキスト長: 4K〜8Kトークン(KVキャッシュの影響が軽微な範囲)
- バッチサイズ: 1(インタラクティブ利用)
結果一覧
| モデル | アーキ | 総パラメータ | Active | 量子化 | メモリ使用量 | 搭載可否 | 理論値 | 推定 tok/s |
|---|---|---|---|---|---|---|---|---|
| GPT-OSS-120B | MoE | 117B | 5.1B | MXFP4 (4.25bit) | ~62 GB | ✅ | 226 | 60〜90 |
| GPT-OSS-20B | Dense | 20B | 20B | MXFP4 (4.25bit) | ~11 GB | ✅ | 58 | 28〜36 |
| Qwen3.5-397B-A17B | MoE | 397B | 17B | Q4_0 (4bit) | ~199 GB | ❌ | ― | 搭載不可 |
| Qwen3.5-122B-A10B | MoE | 122B | 10B | Q4_0 (4bit) | ~61 GB | ✅ | 123 | 35〜50 |
| Qwen3.5-35B-A3B | MoE | 35B | 3B | Q4_0 (4bit) | ~18 GB | ✅ | 409 | 120〜170 |
| Qwen3.5-27B | Dense | 27B | 27B | Q4_K_M (~4.8bit) | ~16 GB | ✅ | 38 | 17〜22 |
| Qwen3.5-9B | Dense | 9B | 9B | Q4_K_M (~4.8bit) | ~5.4 GB | ✅ | 114 | 50〜65 |
| MiniMax-M2.5 | MoE | 230B | 10B | Q3_K_M (~3.4bit) | ~98 GB | ⚠️ | 144 | 35〜50 |
| Ministral 14B | Dense | 14B | 14B | Q4_K_M (~4.8bit) | ~8.4 GB | ✅ | 73 | 33〜42 |
| Mistral Large 3 | MoE | 675B | 41B | Q4_0 (4bit) | ~338 GB | ❌ | ― | 搭載不可 |
| DeepSeek V3.2 | MoE | 685B | 37B | ― | ~342 GB | ❌ | ― | 搭載不可 |
注目モデルの詳細
GPT-OSS-120B
OpenAIが公開したオープンウェイトMoEモデル。117B総パラメータのうち、1トークンあたり5.1B(4.4%)しか使わない。o4-miniに迫る推論性能がApache 2.0で手に入る。
■ 計算内訳
モデル全体: 117B × 4.25bit / 8 = 62.2 GB(128GBに余裕で搭載)
Active読込: 5.1B × 4.25bit / 8 = 2.71 GB/トークン
理論最大: 614 ÷ 2.71 = 226 tok/s
実効30%: 226 × 0.30 = 68 tok/s
実効40%: 226 × 0.40 = 90 tok/s
→ 推定レンジ: 60〜90 tok/s
60〜90 tok/sがどういう体験かというと、人間の読解速度(5〜8 tok/s程度)を軽く超えている。ストリーミング表示にすると文字が追えないくらいの速度だ。
参考データとして、コンシューマPC(i5-12600K + RTX 4070 12GB + DDR5-6000 64GB)での報告値は30 tok/s。62GBのモデルが12GBのVRAMに当然収まらず、大部分がシステムRAM(約96 GB/s)経由で処理される。M5 Maxなら全体が614 GB/sの統合メモリ上にあるので、PCIeの転送待ちが発生しない。この差が効く。
参考: OpenAI - Introducing GPT-OSS / GPT-OSS-120B on Hugging Face
MiniMax-M2.5
MiniMax社が2026年2月にリリース。230B/10BアクティブのMoEで、Lightning Attention搭載。SWE-bench Verified 80.2%、BrowseComp 76.3%。MITライセンス。
■ 計算内訳
モデル全体: 230B × 3.4bit / 8 = 97.8 GB(搭載可能だがタイト)
Active読込: 10B × 3.4bit / 8 = 4.25 GB/トークン
理論最大: 614 ÷ 4.25 = 144.5 tok/s
実効30%: 144.5 × 0.30 = 43.3 tok/s
実効35%: 144.5 × 0.35 = 50.6 tok/s
→ 推定レンジ: 35〜50 tok/s
スペックだけ見るとQwen3.5-122B-A10Bとよく似ている。どちらも10Bアクティブで推定35〜50 tok/s。ただし問題がある。モデル全体が98GBと、128GBのうち30GBしか余らない。KVキャッシュが大きくなるとメモリが逼迫する。長いコンテキストを入れるならQwen3.5-122B-A10B(61GB、67GB余る)のほうが安心だ。
逆に短〜中程度のコンテキストで使うなら、SWE-benchやBrowseCompでの高スコアは魅力的だし、200Kトークンのコンテキスト窓も実用上は十分すぎる。用途次第で選び分けることになる。
Qwen 3.5 シリーズ
Alibaba Cloud開発。Gated DeltaNet + MoEのハイブリッドアテンション機構で、線形アテンションとフルアテンションを3:1の比率で交互に配置している。コンテキスト長はネイティブ262K、拡張で最大1Mトークン。
このシリーズがM5 Maxと相性が良いのは、0.8Bから397Bまでラインナップが揃っていて、用途に合わせてモデルを選べるからだ。ざっくり分けるとこうなる。
Qwen3.5-122B-A10B
■ 計算内訳
モデル全体: 122B × 4bit / 8 = 61 GB(128GBに余裕で搭載)
Active読込: 10B × 4bit / 8 = 5.0 GB/トークン
理論最大: 614 ÷ 5.0 = 122.8 tok/s
実効30%: 122.8 × 0.30 = 36.8 tok/s
実効40%: 122.8 × 0.40 = 49.1 tok/s
→ 推定レンジ: 35〜50 tok/s
個人的にはM5 Maxで一番バランスが良いモデルだと思う。61GBでKVキャッシュに60GB以上の余裕があり、メモリフットプリントはGPT-OSS-120B(62GB)とほぼ同じ。アクティブパラメータは約2倍(10B vs 5.1B)なので推論品質では上を行く。その分生成速度は35〜50 tok/sと控えめになるが、会話用途なら十分すぎる。
Qwen3.5-35B-A3B
■ 計算内訳
モデル全体: 35B × 4bit / 8 = 17.5 GB(128GBに大幅な余裕)
Active読込: 3B × 4bit / 8 = 1.5 GB/トークン
理論最大: 614 ÷ 1.5 = 409 tok/s
実効30%: 409 × 0.30 = 123 tok/s
実効40%: 409 × 0.40 = 164 tok/s
→ 推定レンジ: 120〜170 tok/s
3Bアクティブで前世代のQwen 3 235Bフラッグシップを上回る性能。120〜170 tok/sは人間が読むには速すぎるので、コーディングアシスタントとして常駐させたり、バッチ処理で大量の文書を回したりする用途向き。18GBしか食わないので他のモデルとの同時ロードも余裕がある。
Qwen3.5-397B-A17B
Q4_0で約199GB。128GBには入らない。M5 Ultra待ち。
Qwen3.5-27B
■ 計算内訳
モデル全体: 27B × 4.8bit / 8 = 16.2 GB
理論最大: 614 ÷ 16.2 = 37.9 tok/s
実効50%: 37.9 × 0.50 = 19.0 tok/s
→ 推定レンジ: 17〜22 tok/s
シリーズ唯一のDense中型モデル。SWE-bench VerifiedでGPT-5 miniに匹敵するスコアを出している。全パラメータが常に動くのでMoEモデルより「密度の高い」推論になる。ただし17〜22 tok/sはMoE勢に比べると明らかに遅い。コード生成のように品質優先の場面で使い分けることになるだろう。
Mistral シリーズ
Ministral 14B
Mistral AIが2025年12月にリリースしたMistral 3ファミリーの14Bモデル。Dense、Apache 2.0。カスケード蒸留で大型モデルから知識を圧縮している。画像理解にも対応していて、Reasoningバリアントは AIME ‘25 で 85% を記録。
■ 計算内訳
モデル全体: 14B × 4.8bit / 8 = 8.4 GB(128GBに大幅な余裕)
理論最大: 614 ÷ 8.4 = 73.1 tok/s
実効50%: 73.1 × 0.50 = 36.6 tok/s
→ 推定レンジ: 33〜42 tok/s
8.4GBしか使わない。Qwen3.5-35B-A3Bと同時にロードしても合計26GB、128GBの2割程度だ。速度ではQwen3.5-9B(50〜65 tok/s)に負けるが、マルチモーダル対応やReasoning能力は別の価値がある。
Mistral Large 3
675B/41BアクティブのGranular MoE、Apache 2.0。ベンチマークではGPT-4oやClaude 3.5 Sonnetと張り合うレベルだが、Q4_0で338GB。128GBには入らない。
128GBに収まらないモデルたち
Qwen3.5-397B-A17B(199GB)、Mistral Large 3(338GB)、DeepSeek V3.2(342GB)。いずれもQ4量子化でも128GBを超える。帯域幅・メモリともに2倍が見込まれるM5 Ultra(512GB+想定)を待つしかない。
実用性の評価
| モデル | 体感 | 向いている用途 |
|---|---|---|
| Qwen3.5-35B-A3B (120-170 tok/s) | 速すぎて読めない | コーディングアシスタント常駐、バッチ処理 |
| GPT-OSS-120B (60-90 tok/s) | 即座に流れてくる | チャット、コード生成、文書作成 |
| Qwen3.5-9B (50-65 tok/s) | 快適 | 軽量エージェント、オンデバイス |
| Qwen3.5-122B-A10B (35-50 tok/s) | 快適 | 品質と速度の両立。汎用の第一候補 |
| MiniMax-M2.5 (35-50 tok/s) | 快適 | SWE-bench/BrowseComp系の実タスク |
| Ministral 14B (33-42 tok/s) | 快適 | マルチモーダル、画像理解が必要な場面 |
| GPT-OSS-20B (28-36 tok/s) | 十分 | 軽量な汎用チャット |
| Qwen3.5-27B (17-22 tok/s) | やや待つ | Dense推論が必要な場面、コード生成 |
本記事の推論速度はメモリ帯域幅律速モデルに基づく理論推定値。M5 Maxは発表直後で実機ベンチマークは未公開。Neural Acceleratorの実際の寄与度やMLXの最適化進展で上振れする可能性がある。
参考リンク