Hardware für lokale KI — der Kaufberater

Kurzfazit: Eine RTX 4090 (24 GB VRAM, ca. 1.800 €) gilt im Artikel als Sweet Spot für ernsthafte Single-User-Setups und schafft 32B-Modelle in Q4 komfortabel. Welche GPU du brauchst, hängt von Modellgröße, Quantisierung, Kontextfenster und Nutzerzahl ab – der VRAM-Bedarf lässt sich grob per Faustformel (Parameter × 0,6 GB bei Q4) plus Overhead schätzen. NVIDIA bleibt 2026 wegen des CUDA-Ökosystems Standard, wobei je nach Budget auch günstigere Karten wie die RTX 4070 Ti Super oder eine gebrauchte RTX 3090 sowie Apple-Silicon-Alternativen infrage kommen.

Eine RTX 4090 ist kein Tech-Spielzeug. Sie ist 2026 die produktivste Investition für jeden, der KI ernsthaft lokal nutzen will — und amortisiert sich oft in weniger als einem Jahr gegen Cloud-Kosten.

Hardware für lokale KI ist der Bereich, in dem Affiliate-Provisionen und ehrliche Beratung am stärksten kollidieren. Wir testen mit echten Modellen, in echten Anwendungsfällen, und empfehlen nicht das Teuerste — sondern das Sinnvollste.

Was brauchst du wirklich bei Budget-Strecken?

€500

Einstieg

Mac Mini M4 16 GB oder GMKtec-NUC mit Ryzen AI. Reicht für 7B-Modelle in Q4 und einfache Workflows. Lautlos, klein, energieeffizient.

GMKtec ansehen →

€1.500

Selbstständige

Mac Mini M4 Pro 32 GB oder Workstation mit RTX 4060 Ti 16 GB. Schafft 14B–32B-Modelle und kleinere RAG-Setups. Ideal für Einzelpersonen.

Cyberport ansehen →

€3.500

KMU

RTX 4090 24 GB plus passende Workstation. Schafft 32B-Modelle komfortabel. Sweet Spot für ernsthafte Single-User-Setups.

Bei NBB ansehen →

€8.000+

Profi

Zwei RTX 3090/4090 oder eine RTX 5090. Für 70B-Modelle und Multi-User-Zugriff. Mit Server-Mainboard und 128 GB RAM.

Alternate ansehen →

VRAM-Rechner: Welche GPU brauche ich für mein lokales KI-Modell?

Modell wählen, Quantisierung wählen → konkreter VRAM-Bedarf + GPU-Empfehlung. Basiert auf Faustformel Parameter × 0,6 GB (Q4) bzw. × 1,1 GB (Q8) bzw. × 2 GB (FP16) inkl. ~15 % Overhead für KV-Cache.

Modell

Quantisierung

Kontextfenster

Gleichzeitige Nutzer:innen

Dein VRAM-Bedarf

~ 22 GB

19,2 GB Modell · 1,5 GB Kontext · 1,3 GB Overhead

Hinweis: Berechnung ist eine Schätzung. Realer Verbrauch hängt von Inferenz-Engine (Ollama/vLLM/llama.cpp), Batch-Size und konkreten Hyperparametern ab. Für Mixture-of-Experts-Modelle (z. B. Qwen MoE) kann der aktive VRAM-Bedarf niedriger sein als die Gesamtgröße. Für Vollqualität immer 15-20 % Reserve einplanen.

Welche GPUs eignen sich für lokale LLMs im Vergleich?

GPU	VRAM	Preis ca.	Max-Modell (Q4)	Empfehlung
RTX 5090	32 GB	€2.500	70B	Bester Single-GPU 2026
RTX 4090	24 GB	€1.800	32B	Sweet Spot
RTX 4070 Ti Super	16 GB	€800	14B	Preis-Leistung-Sieger
RTX 3090 (gebraucht)	24 GB	€700–900	32B	Geheim-Tipp Used-Market
RTX 4060 Ti 16GB	16 GB	€500	14B	Budget-Einstieg
RTX A6000 (gebraucht)	48 GB	€2.500	70B+	Workstation-Profi

NVIDIA-Karten sind 2026 weiterhin Standard. AMD und Intel haben aufgeholt, aber CUDA-Ökosystem ist überwältigend. Bei Apple-Silicon: Mac Mini M4 Pro 64 GB Unified Memory ist eine ernstzunehmende Alternative.

Welche Mini-PCs eignen sich, wenn die Werkstatt nicht groß genug ist?

Mini-PCs mit AMD Ryzen AI oder Intel Core Ultra haben 2026 eine eigene Klasse erreicht. Sie sind klein, leise, energieeffizient — und mit den richtigen Specs schaffen sie ordentlich KI-Workloads.

Modell	CPU/NPU	RAM	Preis	Stärken
Mac Mini M4	Apple M4	16 GB	~700 €	Stillste Option, gute Unified Memory
Mac Mini M4 Pro	Apple M4 Pro	32 GB	~1.600 €	32B-Modelle laufen, sehr energieeffizient
GMKtec NucBox	Ryzen AI 9 HX 370	32 GB	~1.100 €	NPU + iGPU, sehr leise
Minisforum AI X1	Ryzen AI 9 365	32 GB	~1.300 €	Robustes Setup, ordentlich Ports

GMKtec direkt → Minisforum direkt →

Ist eine Cloud-GPU eine sinnvolle Alternative?

Wer keine Lust auf Hardware-Anschaffung hat, mietet GPU stundenweise. Für sporadische Workloads (Fine-Tuning, Batch-Verarbeitung) ist das oft günstiger als eine eigene Karte.

Anbieter	H100/h	RTX 4090/h	Stärken
RunPod	~2,80 €	~0,50 €	Faires Preismodell, gute UX	RunPod →
Vast.ai	~2,20 €	~0,35 €	Marketplace, günstigste Preise	Vast →
Lambda	~3,20 €	n/a	Solid Enterprise-Variante	Lambda →

Häufige Fragen

Lohnt sich eine eigene GPU gegen Cloud-GPU?

Faustformel: Wenn du täglich 2+ Stunden GPU-Workload hast, lohnt sich eigene Hardware in 6–12 Monaten. Bei sporadischer Nutzung: Cloud bleibt günstiger.

NVIDIA oder Apple Silicon für lokale KI?

2026 ist Apple Silicon eine ernsthafte Alternative — Unified Memory bis 192 GB schlägt jede NVIDIA-Karte im VRAM. ABER: CUDA-Ökosystem (PyTorch, TensorFlow, viele Tools) ist auf NVIDIA optimiert. Für reine Inferenz: Apple geht auch. Für alles andere: NVIDIA.

Wie viel Strom braucht so ein Setup?

Mac Mini im Betrieb: ~30 W. RTX 4090 unter Last: 350–450 W. Eine Workstation mit 4090 zieht bei aktiver KI-Nutzung 500–600 W. Bei 10h/Tag und 0,30 €/kWh sind das ~50 € Stromkosten pro Monat.

Brauche ich für KI-Hardware Server-Wartungs-Know-how?

Workstation unter dem Schreibtisch: nein. Server in eigenem Rack: ja, oder externer IT-Dienstleister. Für KMU oft sinnvoll: Mac Mini oder Mini-PC im Büro, kein eigener Server-Raum nötig.

Newsletter

1× pro Woche das KI-Lagebild

Tools, Tests, Modell-Releases und ein Workflow zum Mitnehmen. Auf Deutsch, anti-Hype, in 5 Minuten gelesen. Samstags um 09:00 Uhr. Kostenlos. 0 Spam. Abbestellung in 1 Klick.

Wir schicken dir eine Bestätigungs-Mail (Double-Opt-In). Server in Deutschland (Hetzner).

Transparenz: Einige Links sind Affiliate-Links (gekennzeichnet mit /go/). Für dich ändert sich der Preis nicht. Wir empfehlen nur, was wir selbst nutzen.

🖥️ Hardware-Empfehlungen · Anzeige

Mini-PCs für lokale KI

Kompakt, sparsam, ideal als 24/7-Heim-Server für Ollama & Co.

Bei Amazon ansehen →

Grafikkarten mit viel VRAM

Für lokale LLMs zählt vor allem der Grafikspeicher (VRAM).

Bei Amazon ansehen →

Arbeitsspeicher (RAM) aufrüsten

Mehr RAM = größere Modelle & flüssigeres Multitasking.

Bei Amazon ansehen →

Amazon-Partnerlinks: Bei einem Kauf erhalten wir eine kleine Provision, für dich ohne Mehrkosten. Als Amazon-Partner verdienen wir an qualifizierten Käufen.