Apple M5 Max はローカルLLMの夢を見るか？ ― GPT-OSS-120Bほか主要モデルの推論速度試算

2026年3月3日、AppleがMacBook Pro向けの M5 Pro / M5 Max チップを正式発表した。18コアCPU、40コアGPU（Neural Accelerator内蔵）、最大128GBの統合メモリ、メモリ帯域幅 614 GB/s。

気になるのは一点だけ。「で、ローカルLLMはどれくらいの速度で回るの？」

AI試算・理論値 この記事は、M5 Max 128GB構成で主要モデルがどの程度のトークン生成速度を出せるか、Claude Opus 4.6にメモリ帯域幅から理論試算してもらったもの。あくまで理論値であり、実機ベンチマークはまだ出ていない。

M5 Max のスペック

項目	M5 Max	M4 Max（参考）	差分
CPU	18コア（6 super + 12 perf）	16コア	+2コア
GPU	40コア + Neural Accelerator	40コア	アーキ刷新
統合メモリ	最大 128GB	最大 128GB	同容量
メモリ帯域幅	614 GB/s	546 GB/s	+12.5%
AI演算性能	M4 Max比 4倍以上（ピーク）	―	―

GPUコアごとにNeural Acceleratorが内蔵されたのがM5世代の目玉で、Apple公式は「前世代比4倍以上のピークGPU AI演算」と言っている。

ただ、LLMのトークン生成速度はメモリ帯域幅で頭打ちになる。この4倍がそのままtok/sに乗るわけではない。恩恵があるのは主にプロンプト処理（Prefill）のほうだ。

参考: Apple 公式プレスリリース

主要モデルの推論速度試算

試算条件

ハードウェア: M5 Max / 128GB統合メモリ / 614 GB/s
推論エンジン: MLX想定
コンテキスト長: 4K〜8Kトークン（KVキャッシュの影響が軽微な範囲）
バッチサイズ: 1（インタラクティブ利用）

結果一覧

モデル	アーキ	総パラメータ	Active	量子化	メモリ使用量	搭載可否	理論値	推定 tok/s
GPT-OSS-120B	MoE	117B	5.1B	MXFP4 (4.25bit)	~62 GB	✅	226	60〜90
GPT-OSS-20B	Dense	20B	20B	MXFP4 (4.25bit)	~11 GB	✅	58	28〜36
Qwen3.5-397B-A17B	MoE	397B	17B	Q4_0 (4bit)	~199 GB	❌	―	搭載不可
Qwen3.5-122B-A10B	MoE	122B	10B	Q4_0 (4bit)	~61 GB	✅	123	35〜50
Qwen3.5-35B-A3B	MoE	35B	3B	Q4_0 (4bit)	~18 GB	✅	409	120〜170
Qwen3.5-27B	Dense	27B	27B	Q4_K_M (~4.8bit)	~16 GB	✅	38	17〜22
Qwen3.5-9B	Dense	9B	9B	Q4_K_M (~4.8bit)	~5.4 GB	✅	114	50〜65
MiniMax-M2.5	MoE	230B	10B	Q3_K_M (~3.4bit)	~98 GB	⚠️	144	35〜50
Ministral 14B	Dense	14B	14B	Q4_K_M (~4.8bit)	~8.4 GB	✅	73	33〜42
Mistral Large 3	MoE	675B	41B	Q4_0 (4bit)	~338 GB	❌	―	搭載不可
DeepSeek V3.2	MoE	685B	37B	―	~342 GB	❌	―	搭載不可

注目モデルの詳細

GPT-OSS-120B

OpenAIが公開したオープンウェイトMoEモデル。117B総パラメータのうち、1トークンあたり5.1B（4.4%）しか使わない。o4-miniに迫る推論性能がApache 2.0で手に入る。

■ 計算内訳
  モデル全体: 117B × 4.25bit / 8 = 62.2 GB（128GBに余裕で搭載）
  Active読込: 5.1B × 4.25bit / 8 = 2.71 GB/トークン
  理論最大:   614 ÷ 2.71 = 226 tok/s
  実効30%:    226 × 0.30 = 68 tok/s
  実効40%:    226 × 0.40 = 90 tok/s
  → 推定レンジ: 60〜90 tok/s

60〜90 tok/sがどういう体験かというと、人間の読解速度（5〜8 tok/s程度）を軽く超えている。ストリーミング表示にすると文字が追えないくらいの速度だ。

参考データとして、コンシューマPC（i5-12600K + RTX 4070 12GB + DDR5-6000 64GB）での報告値は30 tok/s。62GBのモデルが12GBのVRAMに当然収まらず、大部分がシステムRAM（約96 GB/s）経由で処理される。M5 Maxなら全体が614 GB/sの統合メモリ上にあるので、PCIeの転送待ちが発生しない。この差が効く。

参考: OpenAI - Introducing GPT-OSS / GPT-OSS-120B on Hugging Face

MiniMax-M2.5

MiniMax社が2026年2月にリリース。230B/10BアクティブのMoEで、Lightning Attention搭載。SWE-bench Verified 80.2%、BrowseComp 76.3%。MITライセンス。

■ 計算内訳
  モデル全体: 230B × 3.4bit / 8 = 97.8 GB（搭載可能だがタイト）
  Active読込: 10B × 3.4bit / 8 = 4.25 GB/トークン
  理論最大:   614 ÷ 4.25 = 144.5 tok/s
  実効30%:    144.5 × 0.30 = 43.3 tok/s
  実効35%:    144.5 × 0.35 = 50.6 tok/s
  → 推定レンジ: 35〜50 tok/s

スペックだけ見るとQwen3.5-122B-A10Bとよく似ている。どちらも10Bアクティブで推定35〜50 tok/s。ただし問題がある。モデル全体が98GBと、128GBのうち30GBしか余らない。KVキャッシュが大きくなるとメモリが逼迫する。長いコンテキストを入れるならQwen3.5-122B-A10B（61GB、67GB余る）のほうが安心だ。

逆に短〜中程度のコンテキストで使うなら、SWE-benchやBrowseCompでの高スコアは魅力的だし、200Kトークンのコンテキスト窓も実用上は十分すぎる。用途次第で選び分けることになる。

参考: MiniMax-M2.5 on Hugging Face / MiniMax 公式発表

Qwen 3.5 シリーズ

Alibaba Cloud開発。Gated DeltaNet + MoEのハイブリッドアテンション機構で、線形アテンションとフルアテンションを3:1の比率で交互に配置している。コンテキスト長はネイティブ262K、拡張で最大1Mトークン。

このシリーズがM5 Maxと相性が良いのは、0.8Bから397Bまでラインナップが揃っていて、用途に合わせてモデルを選べるからだ。ざっくり分けるとこうなる。

Qwen3.5-122B-A10B

■ 計算内訳
  モデル全体: 122B × 4bit / 8 = 61 GB（128GBに余裕で搭載）
  Active読込: 10B × 4bit / 8 = 5.0 GB/トークン
  理論最大:   614 ÷ 5.0 = 122.8 tok/s
  実効30%:    122.8 × 0.30 = 36.8 tok/s
  実効40%:    122.8 × 0.40 = 49.1 tok/s
  → 推定レンジ: 35〜50 tok/s

個人的にはM5 Maxで一番バランスが良いモデルだと思う。61GBでKVキャッシュに60GB以上の余裕があり、メモリフットプリントはGPT-OSS-120B（62GB）とほぼ同じ。アクティブパラメータは約2倍（10B vs 5.1B）なので推論品質では上を行く。その分生成速度は35〜50 tok/sと控えめになるが、会話用途なら十分すぎる。

Qwen3.5-35B-A3B

■ 計算内訳
  モデル全体: 35B × 4bit / 8 = 17.5 GB（128GBに大幅な余裕）
  Active読込: 3B × 4bit / 8 = 1.5 GB/トークン
  理論最大:   614 ÷ 1.5 = 409 tok/s
  実効30%:    409 × 0.30 = 123 tok/s
  実効40%:    409 × 0.40 = 164 tok/s
  → 推定レンジ: 120〜170 tok/s

3Bアクティブで前世代のQwen 3 235Bフラッグシップを上回る性能。120〜170 tok/sは人間が読むには速すぎるので、コーディングアシスタントとして常駐させたり、バッチ処理で大量の文書を回したりする用途向き。18GBしか食わないので他のモデルとの同時ロードも余裕がある。

Qwen3.5-397B-A17B

Q4_0で約199GB。128GBには入らない。M5 Ultra待ち。

Qwen3.5-27B

■ 計算内訳
  モデル全体: 27B × 4.8bit / 8 = 16.2 GB
  理論最大:   614 ÷ 16.2 = 37.9 tok/s
  実効50%:    37.9 × 0.50 = 19.0 tok/s
  → 推定レンジ: 17〜22 tok/s

シリーズ唯一のDense中型モデル。SWE-bench VerifiedでGPT-5 miniに匹敵するスコアを出している。全パラメータが常に動くのでMoEモデルより「密度の高い」推論になる。ただし17〜22 tok/sはMoE勢に比べると明らかに遅い。コード生成のように品質優先の場面で使い分けることになるだろう。

参考: Qwen 3.5 GitHub / Qwen3.5-397B-A17B on Hugging Face

Mistral シリーズ

Ministral 14B

Mistral AIが2025年12月にリリースしたMistral 3ファミリーの14Bモデル。Dense、Apache 2.0。カスケード蒸留で大型モデルから知識を圧縮している。画像理解にも対応していて、Reasoningバリアントは AIME ‘25 で 85% を記録。

■ 計算内訳
  モデル全体: 14B × 4.8bit / 8 = 8.4 GB（128GBに大幅な余裕）
  理論最大:   614 ÷ 8.4 = 73.1 tok/s
  実効50%:    73.1 × 0.50 = 36.6 tok/s
  → 推定レンジ: 33〜42 tok/s

8.4GBしか使わない。Qwen3.5-35B-A3Bと同時にロードしても合計26GB、128GBの2割程度だ。速度ではQwen3.5-9B（50〜65 tok/s）に負けるが、マルチモーダル対応やReasoning能力は別の価値がある。

Mistral Large 3

675B/41BアクティブのGranular MoE、Apache 2.0。ベンチマークではGPT-4oやClaude 3.5 Sonnetと張り合うレベルだが、Q4_0で338GB。128GBには入らない。

参考: Mistral 3 公式発表 / Mistral Large 3 on Hugging Face

128GBに収まらないモデルたち

Qwen3.5-397B-A17B（199GB）、Mistral Large 3（338GB）、DeepSeek V3.2（342GB）。いずれもQ4量子化でも128GBを超える。帯域幅・メモリともに2倍が見込まれるM5 Ultra（512GB+想定）を待つしかない。

実用性の評価

モデル	体感	向いている用途
Qwen3.5-35B-A3B (120-170 tok/s)	速すぎて読めない	コーディングアシスタント常駐、バッチ処理
GPT-OSS-120B (60-90 tok/s)	即座に流れてくる	チャット、コード生成、文書作成
Qwen3.5-9B (50-65 tok/s)	快適	軽量エージェント、オンデバイス
Qwen3.5-122B-A10B (35-50 tok/s)	快適	品質と速度の両立。汎用の第一候補
MiniMax-M2.5 (35-50 tok/s)	快適	SWE-bench/BrowseComp系の実タスク
Ministral 14B (33-42 tok/s)	快適	マルチモーダル、画像理解が必要な場面
GPT-OSS-20B (28-36 tok/s)	十分	軽量な汎用チャット
Qwen3.5-27B (17-22 tok/s)	やや待つ	Dense推論が必要な場面、コード生成

本記事の推論速度はメモリ帯域幅律速モデルに基づく理論推定値。M5 Maxは発表直後で実機ベンチマークは未公開。Neural Acceleratorの実際の寄与度やMLXの最適化進展で上振れする可能性がある。

参考リンク

M5 Max のスペック#

主要モデルの推論速度試算#

試算条件#

結果一覧#

注目モデルの詳細#

GPT-OSS-120B#

MiniMax-M2.5#

Qwen 3.5 シリーズ#

Qwen3.5-122B-A10B#

Qwen3.5-35B-A3B#

Qwen3.5-397B-A17B#

Qwen3.5-27B#

Mistral シリーズ#

Ministral 14B#

Mistral Large 3#

128GBに収まらないモデルたち#

実用性の評価#