NVIDIA GeForce RTX 3090
NVIDIA · Ampere · 2020
Die NVIDIA GeForce RTX 3090 ist eine auf dem Gebrauchtmarkt beliebte GPU aus der Ampere-Generation von 2020. NVIDIAs CUDA-Ökosystem ist der De-facto-Standard für lokale LLM-Inferenz — sämtliche Runtimes (llama.cpp, vLLM, exllama, Ollama) sind hier am ausgereiftesten.
Mit 24 GB GDDR6X und einer Bandbreite von 936 GB/s positioniert sich die Karte im oberen Mittelfeld: 32B-Modelle laufen komfortabel in Q4, 70B brauchen Auslagerung oder ein zweites Device. Die Bandbreite (936 GB/s) ist der eigentliche Bottleneck bei Inferenz — Token-Generierung skaliert nahezu linear mit GB/s.
Mit 350 W TDP liegt der Verbrauch im typischen High-End-Bereich. Beim Dauerbetrieb auf Inferenz-Last kalkuliere ca. 63 €/Monat Strom (bei 25 ct/kWh).
Auf dieser Seite siehst du unten konkrete Benchmark-Daten: welches Modell in welcher Quantisierung passt, geschätzter VRAM-Verbrauch inklusive KV-Cache (8k Kontext), Confidence-Badge je Datenpunkt und Quelle. Für aktuelle Preise nutze den Affiliate-Link.
NVIDIA GeForce RTX 3090 Benchmark-Matrix: Welche Modelle laufen?
Berechnung mit GQA-korrigiertem KV-Cache bei 8k Kontext. ✓ heißt: passt in VRAM mit ~0,5 GB Reserve. Tokens/Sek-Messungen werden iterativ aus Community-Benchmarks ergänzt — Confidence-Badge zeigt den Datenstand.
| Modell | Quant | passt | VRAM | Runtime | Confidence |
|---|---|---|---|---|---|
| Llama 3.2 3B | Q4_K_M | ✓ | 3.4 GB | llama.cpp | gemessen |
| Llama 3.2 3B | Q8_0 | ✓ | 4.6 GB | llama.cpp | gemessen |
| Qwen 2.5 7B | Q4_K_M | ✓ | 5.2 GB | llama.cpp | gemessen |
| Qwen 2.5 7B | Q8_0 | ✓ | 8.2 GB | llama.cpp | gemessen |
| Llama 3.1 8B | Q4_K_M | ✓ | 6.3 GB | llama.cpp | gemessen |
| Llama 3.1 8B | Q8_0 | ✓ | 9.7 GB | llama.cpp | gemessen |
| Mistral Nemo 12B | Q4_K_M | ✓ | 8.8 GB | llama.cpp | gemessen |
| Mistral Nemo 12B | Q8_0 | ✓ | 13.9 GB | llama.cpp | gemessen |
| Phi-4 14B | Q4_K_M | ✓ | 9.9 GB | llama.cpp | gemessen |
| Phi-4 14B | Q8_0 | ✓ | 15.9 GB | llama.cpp | gemessen |
| Mistral Small 3 24B | Q4_K_M | ✓ | 15.9 GB | llama.cpp | gemessen |
| Mistral Small 3 24B | Q8_0 | ✗ | 26.1 GB | llama.cpp | gemessen |
| Qwen 2.5 32B | Q4_K_M | ✓ | 20.9 GB | llama.cpp | gemessen |
| DeepSeek R1 Distill Qwen 32B | Q4_K_M | ✓ | 20.9 GB | llama.cpp | gemessen |
| Qwen 2.5 Coder 32B | Q4_K_M | ✓ | 20.9 GB | llama.cpp | gemessen |
| Qwen 2.5 32B | Q8_0 | ✗ | 34.5 GB | llama.cpp | gemessen |
| DeepSeek R1 Distill Qwen 32B | Q8_0 | ✗ | 34.5 GB | llama.cpp | gemessen |
| Qwen 2.5 Coder 32B | Q8_0 | ✗ | 34.5 GB | llama.cpp | gemessen |
| Llama 3.3 70B | Q4_K_M | ✗ | 42.8 GB | llama.cpp | gemessen |
| Llama 3.3 70B | Q8_0 | ✗ | 72.6 GB | llama.cpp | gemessen |
Stand: 2026-05-28
