2026年3月3日、AppleがMacBook Pro向けの M5 Pro / M5 Max チップを正式発表した。18コアCPU、40コアGPU(Neural Accelerator内蔵)、最大128GBの統合メモリ、メモリ帯域幅 614 GB/s。

気になるのは一点だけ。「で、ローカルLLMはどれくらいの速度で回るの?」

AI試算・理論値 この記事は、M5 Max 128GB構成で主要モデルがどの程度のトークン生成速度を出せるか、Claude Opus 4.6にメモリ帯域幅から理論試算してもらったもの。あくまで理論値であり、実機ベンチマークはまだ出ていない。


M5 Max のスペック

項目 M5 Max M4 Max(参考) 差分
CPU 18コア(6 super + 12 perf) 16コア +2コア
GPU 40コア + Neural Accelerator 40コア アーキ刷新
統合メモリ 最大 128GB 最大 128GB 同容量
メモリ帯域幅 614 GB/s 546 GB/s +12.5%
AI演算性能 M4 Max比 4倍以上(ピーク)

GPUコアごとにNeural Acceleratorが内蔵されたのがM5世代の目玉で、Apple公式は「前世代比4倍以上のピークGPU AI演算」と言っている。

ただ、LLMのトークン生成速度はメモリ帯域幅で頭打ちになる。この4倍がそのままtok/sに乗るわけではない。恩恵があるのは主にプロンプト処理(Prefill)のほうだ。

参考: Apple 公式プレスリリース


主要モデルの推論速度試算

試算条件

  • ハードウェア: M5 Max / 128GB統合メモリ / 614 GB/s
  • 推論エンジン: MLX想定
  • コンテキスト長: 4K〜8Kトークン(KVキャッシュの影響が軽微な範囲)
  • バッチサイズ: 1(インタラクティブ利用)

結果一覧

モデル アーキ 総パラメータ Active 量子化 メモリ使用量 搭載可否 理論値 推定 tok/s
GPT-OSS-120B MoE 117B 5.1B MXFP4 (4.25bit) ~62 GB 226 60〜90
GPT-OSS-20B Dense 20B 20B MXFP4 (4.25bit) ~11 GB 58 28〜36
Qwen3.5-397B-A17B MoE 397B 17B Q4_0 (4bit) ~199 GB 搭載不可
Qwen3.5-122B-A10B MoE 122B 10B Q4_0 (4bit) ~61 GB 123 35〜50
Qwen3.5-35B-A3B MoE 35B 3B Q4_0 (4bit) ~18 GB 409 120〜170
Qwen3.5-27B Dense 27B 27B Q4_K_M (~4.8bit) ~16 GB 38 17〜22
Qwen3.5-9B Dense 9B 9B Q4_K_M (~4.8bit) ~5.4 GB 114 50〜65
MiniMax-M2.5 MoE 230B 10B Q3_K_M (~3.4bit) ~98 GB ⚠️ 144 35〜50
Ministral 14B Dense 14B 14B Q4_K_M (~4.8bit) ~8.4 GB 73 33〜42
Mistral Large 3 MoE 675B 41B Q4_0 (4bit) ~338 GB 搭載不可
DeepSeek V3.2 MoE 685B 37B ~342 GB 搭載不可

注目モデルの詳細

GPT-OSS-120B

OpenAIが公開したオープンウェイトMoEモデル。117B総パラメータのうち、1トークンあたり5.1B(4.4%)しか使わない。o4-miniに迫る推論性能がApache 2.0で手に入る。

■ 計算内訳
  モデル全体: 117B × 4.25bit / 8 = 62.2 GB(128GBに余裕で搭載)
  Active読込: 5.1B × 4.25bit / 8 = 2.71 GB/トークン
  理論最大:   614 ÷ 2.71 = 226 tok/s
  実効30%:    226 × 0.30 = 68 tok/s
  実効40%:    226 × 0.40 = 90 tok/s
  → 推定レンジ: 60〜90 tok/s

60〜90 tok/sがどういう体験かというと、人間の読解速度(5〜8 tok/s程度)を軽く超えている。ストリーミング表示にすると文字が追えないくらいの速度だ。

参考データとして、コンシューマPC(i5-12600K + RTX 4070 12GB + DDR5-6000 64GB)での報告値は30 tok/s。62GBのモデルが12GBのVRAMに当然収まらず、大部分がシステムRAM(約96 GB/s)経由で処理される。M5 Maxなら全体が614 GB/sの統合メモリ上にあるので、PCIeの転送待ちが発生しない。この差が効く。

参考: OpenAI - Introducing GPT-OSS / GPT-OSS-120B on Hugging Face

MiniMax-M2.5

MiniMax社が2026年2月にリリース。230B/10BアクティブのMoEで、Lightning Attention搭載。SWE-bench Verified 80.2%、BrowseComp 76.3%。MITライセンス。

■ 計算内訳
  モデル全体: 230B × 3.4bit / 8 = 97.8 GB(搭載可能だがタイト)
  Active読込: 10B × 3.4bit / 8 = 4.25 GB/トークン
  理論最大:   614 ÷ 4.25 = 144.5 tok/s
  実効30%:    144.5 × 0.30 = 43.3 tok/s
  実効35%:    144.5 × 0.35 = 50.6 tok/s
  → 推定レンジ: 35〜50 tok/s

スペックだけ見るとQwen3.5-122B-A10Bとよく似ている。どちらも10Bアクティブで推定35〜50 tok/s。ただし問題がある。モデル全体が98GBと、128GBのうち30GBしか余らない。KVキャッシュが大きくなるとメモリが逼迫する。長いコンテキストを入れるならQwen3.5-122B-A10B(61GB、67GB余る)のほうが安心だ。

逆に短〜中程度のコンテキストで使うなら、SWE-benchやBrowseCompでの高スコアは魅力的だし、200Kトークンのコンテキスト窓も実用上は十分すぎる。用途次第で選び分けることになる。

参考: MiniMax-M2.5 on Hugging Face / MiniMax 公式発表

Qwen 3.5 シリーズ

Alibaba Cloud開発。Gated DeltaNet + MoEのハイブリッドアテンション機構で、線形アテンションとフルアテンションを3:1の比率で交互に配置している。コンテキスト長はネイティブ262K、拡張で最大1Mトークン。

このシリーズがM5 Maxと相性が良いのは、0.8Bから397Bまでラインナップが揃っていて、用途に合わせてモデルを選べるからだ。ざっくり分けるとこうなる。

Qwen3.5-122B-A10B

■ 計算内訳
  モデル全体: 122B × 4bit / 8 = 61 GB(128GBに余裕で搭載)
  Active読込: 10B × 4bit / 8 = 5.0 GB/トークン
  理論最大:   614 ÷ 5.0 = 122.8 tok/s
  実効30%:    122.8 × 0.30 = 36.8 tok/s
  実効40%:    122.8 × 0.40 = 49.1 tok/s
  → 推定レンジ: 35〜50 tok/s

個人的にはM5 Maxで一番バランスが良いモデルだと思う。61GBでKVキャッシュに60GB以上の余裕があり、メモリフットプリントはGPT-OSS-120B(62GB)とほぼ同じ。アクティブパラメータは約2倍(10B vs 5.1B)なので推論品質では上を行く。その分生成速度は35〜50 tok/sと控えめになるが、会話用途なら十分すぎる。

Qwen3.5-35B-A3B

■ 計算内訳
  モデル全体: 35B × 4bit / 8 = 17.5 GB(128GBに大幅な余裕)
  Active読込: 3B × 4bit / 8 = 1.5 GB/トークン
  理論最大:   614 ÷ 1.5 = 409 tok/s
  実効30%:    409 × 0.30 = 123 tok/s
  実効40%:    409 × 0.40 = 164 tok/s
  → 推定レンジ: 120〜170 tok/s

3Bアクティブで前世代のQwen 3 235Bフラッグシップを上回る性能。120〜170 tok/sは人間が読むには速すぎるので、コーディングアシスタントとして常駐させたり、バッチ処理で大量の文書を回したりする用途向き。18GBしか食わないので他のモデルとの同時ロードも余裕がある。

Qwen3.5-397B-A17B

Q4_0で約199GB。128GBには入らない。M5 Ultra待ち。

Qwen3.5-27B

■ 計算内訳
  モデル全体: 27B × 4.8bit / 8 = 16.2 GB
  理論最大:   614 ÷ 16.2 = 37.9 tok/s
  実効50%:    37.9 × 0.50 = 19.0 tok/s
  → 推定レンジ: 17〜22 tok/s

シリーズ唯一のDense中型モデル。SWE-bench VerifiedでGPT-5 miniに匹敵するスコアを出している。全パラメータが常に動くのでMoEモデルより「密度の高い」推論になる。ただし17〜22 tok/sはMoE勢に比べると明らかに遅い。コード生成のように品質優先の場面で使い分けることになるだろう。

参考: Qwen 3.5 GitHub / Qwen3.5-397B-A17B on Hugging Face

Mistral シリーズ

Ministral 14B

Mistral AIが2025年12月にリリースしたMistral 3ファミリーの14Bモデル。Dense、Apache 2.0。カスケード蒸留で大型モデルから知識を圧縮している。画像理解にも対応していて、Reasoningバリアントは AIME ‘25 で 85% を記録。

■ 計算内訳
  モデル全体: 14B × 4.8bit / 8 = 8.4 GB(128GBに大幅な余裕)
  理論最大:   614 ÷ 8.4 = 73.1 tok/s
  実効50%:    73.1 × 0.50 = 36.6 tok/s
  → 推定レンジ: 33〜42 tok/s

8.4GBしか使わない。Qwen3.5-35B-A3Bと同時にロードしても合計26GB、128GBの2割程度だ。速度ではQwen3.5-9B(50〜65 tok/s)に負けるが、マルチモーダル対応やReasoning能力は別の価値がある。

Mistral Large 3

675B/41BアクティブのGranular MoE、Apache 2.0。ベンチマークではGPT-4oやClaude 3.5 Sonnetと張り合うレベルだが、Q4_0で338GB。128GBには入らない。

参考: Mistral 3 公式発表 / Mistral Large 3 on Hugging Face

128GBに収まらないモデルたち

Qwen3.5-397B-A17B(199GB)、Mistral Large 3(338GB)、DeepSeek V3.2(342GB)。いずれもQ4量子化でも128GBを超える。帯域幅・メモリともに2倍が見込まれるM5 Ultra(512GB+想定)を待つしかない。


実用性の評価

モデル 体感 向いている用途
Qwen3.5-35B-A3B (120-170 tok/s) 速すぎて読めない コーディングアシスタント常駐、バッチ処理
GPT-OSS-120B (60-90 tok/s) 即座に流れてくる チャット、コード生成、文書作成
Qwen3.5-9B (50-65 tok/s) 快適 軽量エージェント、オンデバイス
Qwen3.5-122B-A10B (35-50 tok/s) 快適 品質と速度の両立。汎用の第一候補
MiniMax-M2.5 (35-50 tok/s) 快適 SWE-bench/BrowseComp系の実タスク
Ministral 14B (33-42 tok/s) 快適 マルチモーダル、画像理解が必要な場面
GPT-OSS-20B (28-36 tok/s) 十分 軽量な汎用チャット
Qwen3.5-27B (17-22 tok/s) やや待つ Dense推論が必要な場面、コード生成

本記事の推論速度はメモリ帯域幅律速モデルに基づく理論推定値。M5 Maxは発表直後で実機ベンチマークは未公開。Neural Acceleratorの実際の寄与度やMLXの最適化進展で上振れする可能性がある。


参考リンク