KI-Rundschau

Welche GPU für Llama 3.3 70B lokal?

Llama 3.3 70B hat 70 Mrd. Parameter. Diese GPUs können das Modell in mindestens einer praktikablen Quantisierung fahren — sortiert nach Preis pro GB VRAM.

GPUbeste QuantVRAM-BedarfTokens/SekPreis€/GB
Apple Mac mini M4 Pro 64GBQ4_K_M42.8 GB
Apple Mac Studio M3 Ultra 192GBQ8_072.6 GB
Apple Mac Studio M3 Ultra 96GBQ8_072.6 GB
Apple MacBook Pro M4 Max 128GBQ8_072.6 GB
Apple MacBook Pro M4 Max 64GBQ4_K_M42.8 GB
NVIDIA H100 80GBQ8_072.6 GB
NVIDIA L40SQ4_K_M42.8 GB
NVIDIA RTX 6000 Ada GenerationQ4_K_M42.8 GB
NVIDIA RTX A6000Q4_K_M42.8 GB