Question 1

Welche GPU brauche ich für Llama 3.3 70B lokal?

Accepted Answer

Llama 3.3 70B hat 70 Mrd. Parameter und braucht in einer praktikablen Quantisierung (Q4_K_M) ca. 42.8 GB VRAM. 9 GPUs aus dem Directory können das Modell fahren. Günstigster Einstieg: Apple Mac mini M4 Pro 64GB.

Question 2

Wie viel VRAM braucht Llama 3.3 70B?

Accepted Answer

Llama 3.3 70B braucht in Q4_K_M-Quantisierung ca. 42.8 GB VRAM bei 8k Kontext. Mit GQA-Faktor und KV-Cache eingerechnet. Bei FP16 oder Q8_0 deutlich mehr.

Question 3

Welche Quantisierung für Llama 3.3 70B?

Accepted Answer

Q4_K_M ist der pragmatische Standard — gut genug für Produktion, halbiert den VRAM-Bedarf. Q8_0 erhält Qualität nahezu vollständig, kostet aber doppelt VRAM. FP16 lohnt sich kaum, außer für Finetuning.

GPU	beste Quant	VRAM-Bedarf	Tokens/Sek	Preis	€/GB
Apple Mac mini M4 Pro 64GB	Q4_K_M	42.8 GB	—	—	—
Apple Mac Studio M3 Ultra 192GB	Q8_0	72.6 GB	—	—	—
Apple Mac Studio M3 Ultra 96GB	Q8_0	72.6 GB	—	—	—
Apple MacBook Pro M4 Max 128GB	Q8_0	72.6 GB	—	—	—
Apple MacBook Pro M4 Max 64GB	Q4_K_M	42.8 GB	—	—	—
NVIDIA H100 80GB	Q8_0	72.6 GB	—	—	—
NVIDIA L40S	Q4_K_M	42.8 GB	—	—	—
NVIDIA RTX 6000 Ada Generation	Q4_K_M	42.8 GB	—	—	—
NVIDIA RTX A6000	Q4_K_M	42.8 GB	—	—	—

Welche GPU für Llama 3.3 70B lokal?