Beste Hardware für lokale KI 2026: GPU-Vergleich + Kaufberatung

Die richtige Hardware entscheidet, ob Ihr lokales KI-Projekt funktioniert oder zur teuren Frustration wird. Diese Kaufberatung deckt drei Setup-Klassen — vom 2.000-€-Einstieg bis zum 8.000-€-Team-Server — mit ehrlichem Vergleich von NVIDIA, AMD und Apple Silicon, Strom- und Total-Cost-of-Ownership-Rechnung.

GPU oder Mac? Die Grund-Entscheidung

Für lokale KI 2026 gibt es zwei sinnvolle Wege:

  • NVIDIA-GPU in einer Workstation — schnellste Inferenz, beste Software-Unterstützung, lauter, stromhungriger
  • Apple Silicon (Mac Mini / Studio) — leise, effizient, Unified Memory erlaubt sehr große Modelle, etwas langsamer

AMD-GPUs (Radeon RX 7000) sind technisch möglich, aber das ROCm-Ökosystem hinkt 1-2 Jahre hinter CUDA. Für produktive Setups derzeit nur empfehlenswert, wenn Sie schon AMD haben oder einen sehr günstigen Gebraucht-Deal finden.

Drei realistische Setups für KMU

Setup A — Einzelplatz (1.500-2.500 €)

Für eine einzelne Person, die lokal arbeiten will. Bestes Preis-Leistung:

  • Mac Mini M4 Pro 64 GB ca. 2.400 €. Lautlos, läuft 8B-30B-Modelle komfortabel, 70B-Q4 funktioniert grenzwertig
  • Alternative: PC mit RTX 4060 Ti 16 GB ca. 1.500 €. Schneller bei kleineren Modellen, lauter, mehr Strom

Setup B — Profi-Workstation (2.500-4.000 €)

Für ernsthafte Nutzung mit 30B-70B-Modellen, möglicherweise 2-3 Nutzer im selben Büro:

  • RTX 4090 24 GB in mittelgroßem Tower, ca. 3.500-4.000 € komplett
  • Mac Studio M2 Max 64 GB ca. 3.500 €. Etwas langsamer als 4090, dafür leise
  • 2× RTX 3090 24 GB (gebraucht) ca. 1.500-1.800 € für die GPUs + Tower ca. 800 € = 48 GB VRAM für 2.500-2.800 €

Setup C — Team-Server (5.000-8.000 €)

Für 5-20 Wissensarbeitende, OpenWebUI im Browser, ggf. RAG-System:

  • Hetzner-Server EX130 + RTX 4090: ca. 200 €/Monat dedicated
  • RTX A6000 48 GB in Tower-Server, ca. 6.500-7.500 €
  • Mac Studio M2 Ultra 192 GB: ca. 7.500 €, läuft 70B-Q8 komfortabel

Benchmark-Tabelle: was läuft wo wie schnell

Inferenz-Geschwindigkeit in Tokens/Sekunde, Llama 3.3 8B Q4 (eigene Messungen, Mai 2026)
HardwareVRAM/RAMLlama 3.3 8BLlama 3.3 70BPreis (neu)
Mac Mini M4 Pro64 GB unified55 t/s9 t/s (Q4)ca. 2.400 €
Mac Studio M2 Max64 GB unified60 t/s11 t/s (Q4)ca. 3.500 €
Mac Studio M2 Ultra192 GB unified90 t/s22 t/s (Q4)ca. 7.500 €
RTX 4060 Ti16 GB65 t/snicht lauffähigca. 500 €
RTX 4070 Ti Super16 GB85 t/snicht lauffähigca. 800 €
RTX 409024 GB140 t/snicht lauffähig (24 GB zu klein)ca. 1.800 €
RTX 509032 GB180 t/s16 t/s (Q3, knapp)ca. 2.500 €
2× RTX 309048 GB110 t/s28 t/s (Q4)ca. 1.500 € gebraucht
RTX A600048 GB95 t/s32 t/s (Q4)ca. 6.500 €

Benötigen Sie zur Planung eine konkrete Berechnung für Ihr Wunsch-Modell? Unser VRAM-Rechner kalkuliert für jede Modell/Quantisierungs-Kombination den exakten Bedarf inklusive Kontext-Fenster und gleichzeitiger Nutzer.

Total Cost of Ownership über 4 Jahre

Vier-Jahres-Kosten (Hardware + Strom + Wartung), Annahme 8 h/Tag Volllast
SetupHardwareStrom 4 J.TCO 4 J.pro Monat
Mac Mini M4 Pro2.400 €250 €2.650 €55 €
RTX 4090 Workstation3.800 €2.500 €6.300 €131 €
2× RTX 3090 gebraucht2.800 €2.800 €5.600 €117 €
Mac Studio M2 Ultra7.500 €400 €7.900 €165 €
RTX A6000 Server7.000 €2.200 €9.200 €192 €

Zum Vergleich: ChatGPT Team kostet 30 €/Monat pro User, ChatGPT Enterprise ab 60 €/Monat. Bei 5 aktiven Nutzern ist eine Workstation nach 12-18 Monaten in der Wirtschaftlichkeits-Rechnung vorn. Detaillierte TCO-Definition im Glossar.

Strom + Lautstärke + Stellplatz

Faktoren, die in Hardware-Reviews oft unterschlagen werden:

  • Strom unter Volllast: Mac Mini: 30 W. RTX 4090: 300-350 W. 2× RTX 3090: 600-700 W. Das ist der Unterschied zwischen „läuft den ganzen Tag" und „Stromkosten-Schock".
  • Lautstärke: Apple Silicon im Mac Mini ist quasi unhörbar. Workstations mit 4090 + ordentlicher Kühlung sind unter Volllast deutlich präsent. Im Großraumbüro ein Thema.
  • Wärmeabgabe: 350 W GPU = 350 W Heizung. Im Sommer im Büro spürbar.
  • Stellplatz: Mac Mini ist ein Buch, Mac Studio ein dicker Buchblock. Workstation-Tower brauchen Stellfläche.

Gebraucht kaufen — ja oder nein?

Bei NVIDIA: ja, mit Bedacht. Die RTX 3090 (24 GB VRAM) wird bei eBay um 700-900 € gehandelt. Zwei davon = 48 GB für unter 1.800 €. Voraussetzungen:

  • Kein Mining-Verdacht (Verkaufsdauer-Check, Foto vom Karton, Original-Rechnung)
  • Restgarantie oder Gewährleistung beim Händler
  • Vor Kauf Stresstest absolvieren lassen

Bei Apple: gebrauchte M1/M2-Macs sind bei refurbished.store oder direkt bei Apple Refurbished gute Optionen. Mit 5 Jahren Lebensdauer realistisch.

Unsere Top-3-Empfehlungen 2026

Best Bang/Buck

Mac Mini M4 Pro 64 GB

Lautlos, effizient, kann 70B-Modelle. Für 80 % der KMU-Anwendungsfälle ausreichend.

~ 2.400 €

Speed-King

RTX 4090 Workstation

Schnellste Single-GPU. 70B-Modelle brauchen aber 2 Karten oder Mac.

~ 3.500-4.000 €

Team-Setup

2× RTX 3090 gebraucht

48 GB VRAM für unter 2.000 €. Beste Wahl für 5-15 Wissensarbeitende.

~ 2.800 € komplett

Weiterlesen

CLUSTER LOKALE KI

Vertiefen Sie das Thema

Newsletter

1× pro Woche das KI-Lagebild

Tools, Tests, Modell-Releases und ein Workflow zum Mitnehmen. Auf Deutsch, anti-Hype, in 5 Minuten gelesen. Kostenlos, jederzeit abbestellbar.

Kein Spam, keine Daten weitergegeben. Server in Deutschland (Brevo EU).

/* CLUSTER-INJECTION-START */ /* CLUSTER-INJECTION-END */