KI-Rundschau

NVIDIA GeForce RTX 4070 Ti Super

NVIDIA · Ada Lovelace · 2024

VRAM
16 GB GDDR6X
Bandbreite
672 GB/s
TDP
285 W
FP16
44.1 TFLOPs
Schnittstelle
PCIe 4.0 x16
Markt
Consumer
Aktuellen Preis auf Amazon prüfen →Partnerlink — Kauf unterstützt KI-Rundschau

Die NVIDIA GeForce RTX 4070 Ti Super ist eine aktuelle Consumer-GPU aus der Ada Lovelace-Generation von 2024. NVIDIAs CUDA-Ökosystem ist der De-facto-Standard für lokale LLM-Inferenz — sämtliche Runtimes (llama.cpp, vLLM, exllama, Ollama) sind hier am ausgereiftesten.

Mit 16 GB GDDR6X und einer Bandbreite von 672 GB/s positioniert sich die Karte im Mittelfeld: 7B/8B-Modelle in Q8 perfekt, 12B-14B in Q4 möglich, 32B+ nur mit Offloading. Die Bandbreite (672 GB/s) ist der eigentliche Bottleneck bei Inferenz — Token-Generierung skaliert nahezu linear mit GB/s.

Mit 285 W TDP liegt der Verbrauch im typischen High-End-Bereich. Beim Dauerbetrieb auf Inferenz-Last kalkuliere ca. 51 €/Monat Strom (bei 25 ct/kWh).

Auf dieser Seite siehst du unten konkrete Benchmark-Daten: welches Modell in welcher Quantisierung passt, geschätzter VRAM-Verbrauch inklusive KV-Cache (8k Kontext), Confidence-Badge je Datenpunkt und Quelle. Für aktuelle Preise nutze den Affiliate-Link.

NVIDIA GeForce RTX 4070 Ti Super Benchmark-Matrix: Welche Modelle laufen?

Berechnung mit GQA-korrigiertem KV-Cache bei 8k Kontext. ✓ heißt: passt in VRAM mit ~0,5 GB Reserve. Tokens/Sek-Messungen werden iterativ aus Community-Benchmarks ergänzt — Confidence-Badge zeigt den Datenstand.

ModellQuantpasstVRAMRuntimeConfidence
Llama 3.2 3BQ4_K_M3.4 GBllama.cppgemessen
Llama 3.2 3BQ8_04.6 GBllama.cppgemessen
Qwen 2.5 7BQ4_K_M5.2 GBllama.cppgemessen
Qwen 2.5 7BQ8_08.2 GBllama.cppgemessen
Llama 3.1 8BQ4_K_M6.3 GBllama.cppgemessen
Llama 3.1 8BQ8_09.7 GBllama.cppgemessen
Mistral Nemo 12BQ4_K_M8.8 GBllama.cppgemessen
Mistral Nemo 12BQ8_013.9 GBllama.cppgemessen
Phi-4 14BQ4_K_M9.9 GBllama.cppgemessen
Phi-4 14BQ8_015.9 GBllama.cppgemessen
Mistral Small 3 24BQ4_K_M15.9 GBllama.cppgemessen
Mistral Small 3 24BQ8_026.1 GBllama.cppgemessen
Qwen 2.5 32BQ4_K_M20.9 GBllama.cppgemessen
DeepSeek R1 Distill Qwen 32BQ4_K_M20.9 GBllama.cppgemessen
Qwen 2.5 Coder 32BQ4_K_M20.9 GBllama.cppgemessen
Qwen 2.5 32BQ8_034.5 GBllama.cppgemessen
DeepSeek R1 Distill Qwen 32BQ8_034.5 GBllama.cppgemessen
Qwen 2.5 Coder 32BQ8_034.5 GBllama.cppgemessen
Llama 3.3 70BQ4_K_M42.8 GBllama.cppgemessen
Llama 3.3 70BQ8_072.6 GBllama.cppgemessen

Stand: 2026-05-28