Apple Mac Studio M3 Ultra 96GB
Apple · Apple M3 Ultra · 2025
Die Apple Mac Studio M3 Ultra 96GB ist eine aktuelle Consumer-GPU aus der Apple M3 Ultra-Generation von 2025. Apples Unified Memory ist ein Sonderfall: CPU und GPU teilen sich denselben Pool, was große Modelle ohne dezidiertes VRAM möglich macht. Metal-Backend in llama.cpp ist hervorragend.
Mit 96 GB Unified LPDDR5 und einer Bandbreite von 819 GB/s positioniert sich die Karte im Pro-/Workstation-Segment — 70B-Modelle in Q4 oder Q8 sind kein Problem. Die Bandbreite (819 GB/s) ist der eigentliche Bottleneck bei Inferenz — Token-Generierung skaliert nahezu linear mit GB/s.
Mit 270 W TDP liegt der Verbrauch im typischen High-End-Bereich. Beim Dauerbetrieb auf Inferenz-Last kalkuliere ca. 49 €/Monat Strom (bei 25 ct/kWh).
Auf dieser Seite siehst du unten konkrete Benchmark-Daten: welches Modell in welcher Quantisierung passt, geschätzter VRAM-Verbrauch inklusive KV-Cache (8k Kontext), Confidence-Badge je Datenpunkt und Quelle. Für aktuelle Preise nutze den Affiliate-Link.
Apple Mac Studio M3 Ultra 96GB Benchmark-Matrix: Welche Modelle laufen?
Berechnung mit GQA-korrigiertem KV-Cache bei 8k Kontext. ✓ heißt: passt in VRAM mit ~0,5 GB Reserve. Tokens/Sek-Messungen werden iterativ aus Community-Benchmarks ergänzt — Confidence-Badge zeigt den Datenstand.
| Modell | Quant | passt | VRAM | Runtime | Confidence |
|---|---|---|---|---|---|
| Llama 3.2 3B | Q4_K_M | ✓ | 3.4 GB | llama.cpp | gemessen |
| Llama 3.2 3B | Q8_0 | ✓ | 4.6 GB | llama.cpp | gemessen |
| Qwen 2.5 7B | Q4_K_M | ✓ | 5.2 GB | llama.cpp | gemessen |
| Qwen 2.5 7B | Q8_0 | ✓ | 8.2 GB | llama.cpp | gemessen |
| Llama 3.1 8B | Q4_K_M | ✓ | 6.3 GB | llama.cpp | gemessen |
| Llama 3.1 8B | Q8_0 | ✓ | 9.7 GB | llama.cpp | gemessen |
| Mistral Nemo 12B | Q4_K_M | ✓ | 8.8 GB | llama.cpp | gemessen |
| Mistral Nemo 12B | Q8_0 | ✓ | 13.9 GB | llama.cpp | gemessen |
| Phi-4 14B | Q4_K_M | ✓ | 9.9 GB | llama.cpp | gemessen |
| Phi-4 14B | Q8_0 | ✓ | 15.9 GB | llama.cpp | gemessen |
| Mistral Small 3 24B | Q4_K_M | ✓ | 15.9 GB | llama.cpp | gemessen |
| Mistral Small 3 24B | Q8_0 | ✓ | 26.1 GB | llama.cpp | gemessen |
| Qwen 2.5 32B | Q4_K_M | ✓ | 20.9 GB | llama.cpp | gemessen |
| DeepSeek R1 Distill Qwen 32B | Q4_K_M | ✓ | 20.9 GB | llama.cpp | gemessen |
| Qwen 2.5 Coder 32B | Q4_K_M | ✓ | 20.9 GB | llama.cpp | gemessen |
| Qwen 2.5 32B | Q8_0 | ✓ | 34.5 GB | llama.cpp | gemessen |
| DeepSeek R1 Distill Qwen 32B | Q8_0 | ✓ | 34.5 GB | llama.cpp | gemessen |
| Qwen 2.5 Coder 32B | Q8_0 | ✓ | 34.5 GB | llama.cpp | gemessen |
| Llama 3.3 70B | Q4_K_M | ✓ | 42.8 GB | llama.cpp | gemessen |
| Llama 3.3 70B | Q8_0 | ✓ | 72.6 GB | llama.cpp | gemessen |
Stand: 2026-05-28
