Question 1

Welche GPU brauche ich für Llama 3.2 3B lokal?

Accepted Answer

Llama 3.2 3B hat 3 Mrd. Parameter und braucht in einer praktikablen Quantisierung (Q4_K_M) ca. 4.6 GB VRAM. 22 GPUs aus dem Directory können das Modell fahren. Günstigster Einstieg: AMD Radeon RX 7900 XT.

Question 2

Wie viel VRAM braucht Llama 3.2 3B?

Accepted Answer

Llama 3.2 3B braucht in Q4_K_M-Quantisierung ca. 4.6 GB VRAM bei 8k Kontext. Mit GQA-Faktor und KV-Cache eingerechnet. Bei FP16 oder Q8_0 deutlich mehr.

Question 3

Welche Quantisierung für Llama 3.2 3B?

Accepted Answer

Q4_K_M ist der pragmatische Standard — gut genug für Produktion, halbiert den VRAM-Bedarf. Q8_0 erhält Qualität nahezu vollständig, kostet aber doppelt VRAM. FP16 lohnt sich kaum, außer für Finetuning.

GPU	beste Quant	VRAM-Bedarf	Tokens/Sek	Preis	€/GB
AMD Radeon RX 7900 XT	Q8_0	4.6 GB	—	—	—
AMD Radeon RX 7900 XTX	Q8_0	4.6 GB	—	—	—
Apple Mac mini M4 Pro 64GB	Q8_0	4.6 GB	—	—	—
Apple Mac Studio M3 Ultra 192GB	Q8_0	4.6 GB	—	—	—
Apple Mac Studio M3 Ultra 96GB	Q8_0	4.6 GB	—	—	—
Apple MacBook Pro M4 Max 128GB	Q8_0	4.6 GB	—	—	—
Apple MacBook Pro M4 Max 64GB	Q8_0	4.6 GB	—	—	—
Intel Arc A770 16GB	Q8_0	4.6 GB	—	—	—
NVIDIA H100 80GB	Q8_0	4.6 GB	—	—	—
NVIDIA L40S	Q8_0	4.6 GB	—	—	—
NVIDIA GeForce RTX 3060 12GB	Q8_0	4.6 GB	—	—	—
NVIDIA GeForce RTX 3090 Ti	Q8_0	4.6 GB	—	—	—
NVIDIA GeForce RTX 3090	Q8_0	4.6 GB	—	—	—
NVIDIA GeForce RTX 4070 Ti Super	Q8_0	4.6 GB	—	—	—
NVIDIA GeForce RTX 4080 Super	Q8_0	4.6 GB	—	—	—
NVIDIA GeForce RTX 4090	Q8_0	4.6 GB	—	—	—
NVIDIA GeForce RTX 5080	Q8_0	4.6 GB	—	—	—
NVIDIA GeForce RTX 5090	Q8_0	4.6 GB	—	—	—
NVIDIA RTX 6000 Ada Generation	Q8_0	4.6 GB	—	—	—
NVIDIA RTX A6000	Q8_0	4.6 GB	—	—	—
NVIDIA Tesla M40 24GB	Q8_0	4.6 GB	—	—	—
NVIDIA Tesla P40	Q8_0	4.6 GB	—	—	—

Welche GPU für Llama 3.2 3B lokal?