KI-Rundschau

Welche GPU für Llama 3.2 3B lokal?

Llama 3.2 3B hat 3 Mrd. Parameter. Diese GPUs können das Modell in mindestens einer praktikablen Quantisierung fahren — sortiert nach Preis pro GB VRAM.

GPUbeste QuantVRAM-BedarfTokens/SekPreis€/GB
AMD Radeon RX 7900 XTQ8_04.6 GB
AMD Radeon RX 7900 XTXQ8_04.6 GB
Apple Mac mini M4 Pro 64GBQ8_04.6 GB
Apple Mac Studio M3 Ultra 192GBQ8_04.6 GB
Apple Mac Studio M3 Ultra 96GBQ8_04.6 GB
Apple MacBook Pro M4 Max 128GBQ8_04.6 GB
Apple MacBook Pro M4 Max 64GBQ8_04.6 GB
Intel Arc A770 16GBQ8_04.6 GB
NVIDIA H100 80GBQ8_04.6 GB
NVIDIA L40SQ8_04.6 GB
NVIDIA GeForce RTX 3060 12GBQ8_04.6 GB
NVIDIA GeForce RTX 3090 TiQ8_04.6 GB
NVIDIA GeForce RTX 3090Q8_04.6 GB
NVIDIA GeForce RTX 4070 Ti SuperQ8_04.6 GB
NVIDIA GeForce RTX 4080 SuperQ8_04.6 GB
NVIDIA GeForce RTX 4090Q8_04.6 GB
NVIDIA GeForce RTX 5080Q8_04.6 GB
NVIDIA GeForce RTX 5090Q8_04.6 GB
NVIDIA RTX 6000 Ada GenerationQ8_04.6 GB
NVIDIA RTX A6000Q8_04.6 GB
NVIDIA Tesla M40 24GBQ8_04.6 GB
NVIDIA Tesla P40Q8_04.6 GB