Hardware für lokale KI — der Kaufberater
Eine RTX 4090 ist kein Tech-Spielzeug. Sie ist 2026 die produktivste Investition für jeden, der KI ernsthaft lokal nutzen will — und amortisiert sich oft in weniger als einem Jahr gegen Cloud-Kosten.
Hardware für lokale KI ist der Bereich, in dem Affiliate-Provisionen und ehrliche Beratung am stärksten kollidieren. Wir testen mit echten Modellen, in echten Anwendungsfällen, und empfehlen nicht das Teuerste — sondern das Sinnvollste.
Budget-Strecken — was du wirklich brauchst
€500
Einstieg
Mac Mini M4 16 GB oder GMKtec-NUC mit Ryzen AI. Reicht für 7B-Modelle in Q4 und einfache Workflows. Lautlos, klein, energieeffizient.
€1.500
Selbstständige
Mac Mini M4 Pro 32 GB oder Workstation mit RTX 4060 Ti 16 GB. Schafft 14B–32B-Modelle und kleinere RAG-Setups. Ideal für Einzelpersonen.
€3.500
KMU
RTX 4090 24 GB plus passende Workstation. Schafft 32B-Modelle komfortabel. Sweet Spot für ernsthafte Single-User-Setups.
€8.000+
Profi
Zwei RTX 3090/4090 oder eine RTX 5090. Für 70B-Modelle und Multi-User-Zugriff. Mit Server-Mainboard und 128 GB RAM.
VRAM-Rechner: Welche GPU brauche ich für mein lokales KI-Modell?
Modell wählen, Quantisierung wählen → konkreter VRAM-Bedarf + GPU-Empfehlung. Basiert auf Faustformel Parameter × 0,6 GB (Q4) bzw. × 1,1 GB (Q8) bzw. × 2 GB (FP16) inkl. ~15 % Overhead für KV-Cache.
Dein VRAM-Bedarf
~ 22 GB
19,2 GB Modell · 1,5 GB Kontext · 1,3 GB Overhead
Empfohlene GPUs
Hinweis: Berechnung ist eine Schätzung. Realer Verbrauch hängt von Inferenz-Engine (Ollama/vLLM/llama.cpp), Batch-Size und konkreten Hyperparametern ab. Für Mixture-of-Experts-Modelle (z. B. Qwen MoE) kann der aktive VRAM-Bedarf niedriger sein als die Gesamtgröße. Für Vollqualität immer 15-20 % Reserve einplanen.
GPUs für lokale LLMs — der Vergleich
| GPU | VRAM | Preis ca. | Max-Modell (Q4) | Empfehlung |
|---|---|---|---|---|
| RTX 5090 | 32 GB | €2.500 | 70B | Bester Single-GPU 2026 |
| RTX 4090 | 24 GB | €1.800 | 32B | Sweet Spot |
| RTX 4070 Ti Super | 16 GB | €800 | 14B | Preis-Leistung-Sieger |
| RTX 3090 (gebraucht) | 24 GB | €700–900 | 32B | Geheim-Tipp Used-Market |
| RTX 4060 Ti 16GB | 16 GB | €500 | 14B | Budget-Einstieg |
| RTX A6000 (gebraucht) | 48 GB | €2.500 | 70B+ | Workstation-Profi |
NVIDIA-Karten sind 2026 weiterhin Standard. AMD und Intel haben aufgeholt, aber CUDA-Ökosystem ist überwältigend. Bei Apple-Silicon: Mac Mini M4 Pro 64 GB Unified Memory ist eine ernstzunehmende Alternative.
Mini-PCs — wenn die Werkstatt nicht groß genug ist
Mini-PCs mit AMD Ryzen AI oder Intel Core Ultra haben 2026 eine eigene Klasse erreicht. Sie sind klein, leise, energieeffizient — und mit den richtigen Specs schaffen sie ordentlich KI-Workloads.
| Modell | CPU/NPU | RAM | Preis | Stärken |
|---|---|---|---|---|
| Mac Mini M4 | Apple M4 | 16 GB | ~700 € | Stillste Option, gute Unified Memory |
| Mac Mini M4 Pro | Apple M4 Pro | 32 GB | ~1.600 € | 32B-Modelle laufen, sehr energieeffizient |
| GMKtec NucBox | Ryzen AI 9 HX 370 | 32 GB | ~1.100 € | NPU + iGPU, sehr leise |
| Minisforum AI X1 | Ryzen AI 9 365 | 32 GB | ~1.300 € | Robustes Setup, ordentlich Ports |
GMKtec direkt → Minisforum direkt →
Cloud-GPU als Alternative
Wer keine Lust auf Hardware-Anschaffung hat, mietet GPU stundenweise. Für sporadische Workloads (Fine-Tuning, Batch-Verarbeitung) ist das oft günstiger als eine eigene Karte.
| Anbieter | H100/h | RTX 4090/h | Stärken | |
|---|---|---|---|---|
| RunPod | ~2,80 € | ~0,50 € | Faires Preismodell, gute UX | RunPod → |
| Vast.ai | ~2,20 € | ~0,35 € | Marketplace, günstigste Preise | Vast → |
| Lambda | ~3,20 € | n/a | Solid Enterprise-Variante | Lambda → |
Häufige Fragen
Lohnt sich eine eigene GPU gegen Cloud-GPU?
Faustformel: Wenn du täglich 2+ Stunden GPU-Workload hast, lohnt sich eigene Hardware in 6–12 Monaten. Bei sporadischer Nutzung: Cloud bleibt günstiger.
NVIDIA oder Apple Silicon für lokale KI?
2026 ist Apple Silicon eine ernsthafte Alternative — Unified Memory bis 192 GB schlägt jede NVIDIA-Karte im VRAM. ABER: CUDA-Ökosystem (PyTorch, TensorFlow, viele Tools) ist auf NVIDIA optimiert. Für reine Inferenz: Apple geht auch. Für alles andere: NVIDIA.
Wie viel Strom braucht so ein Setup?
Mac Mini im Betrieb: ~30 W. RTX 4090 unter Last: 350–450 W. Eine Workstation mit 4090 zieht bei aktiver KI-Nutzung 500–600 W. Bei 10h/Tag und 0,30 €/kWh sind das ~50 € Stromkosten pro Monat.
Brauche ich für KI-Hardware Server-Wartungs-Know-how?
Workstation unter dem Schreibtisch: nein. Server in eigenem Rack: ja, oder externer IT-Dienstleister. Für KMU oft sinnvoll: Mac Mini oder Mini-PC im Büro, kein eigener Server-Raum nötig.
Newsletter
1× pro Woche das KI-Lagebild
Tools, Tests, Modell-Releases und ein Workflow zum Mitnehmen. Auf Deutsch, anti-Hype, in 5 Minuten gelesen. Kostenlos, jederzeit abbestellbar.
Kein Spam, keine Daten weitergegeben. Server in Deutschland (Brevo EU).
Transparenz: Einige Links sind Affiliate-Links (gekennzeichnet mit /go/). Für dich ändert sich der Preis nicht. Wir empfehlen nur, was wir selbst nutzen.