KI-Rundschau

Llama 3.2 3B

Meta · 3 Mrd. Parameter · Llama-3-Community

Edge-/Mobil-Modell. Läuft auf jeder GPU. Deutsche Qualität spürbar limitiert.

Lizenz: Llama-3-Community. Die Llama-3-Community-License ist nicht klassisch Open-Source: Unternehmen mit über 700 Millionen monatlich aktiven Nutzern brauchen eine Sondervereinbarung mit Meta. Für KMU und Mittelstand spielt das keine Rolle. Das macht Llama 3.2 3B besonders interessant für On-Prem-Deployments in Unternehmen, kommerzielle SaaS-Produkte und Embedded-Lösungen.

Mit nur 3 Milliarden Parametern läuft Llama 3.2 3B auf praktisch jeder modernen GPU mit 6 GB VRAM — selbst günstige Karten wie die RTX 3060 12GB sind hier deutlich überdimensioniert. Auch CPU-only-Inferenz auf modernen Notebooks ist praktikabel.

Mit 128k Tokens Kontext (~96k Wörter) eignet sich Llama 3.2 3B für lange Texte, Multi-Dokument-RAG und umfangreiche System-Prompts ohne Chunking-Overhead.

Deutsch-Qualität: schwach. Deutsche Ausgabe stark eingeschränkt — eher für englische Workloads oder als Edge-/Mobile-Modell gedacht.

Parameter
3 B
Lizenz
Llama-3-Community
Wirklich offen?
✓ ja
Deutsch-Qualität
schwach
Kontextfenster
128k Tokens
Vendor
Meta
Release
25.9.2024
Familie
Llama
Auf Hugging Face öffnen

Llama 3.2 3B lokal: Welche GPU brauche ich?

22 GPUs können Llama 3.2 3B in mindestens einer praktikablen Quantisierung fahren — sortiert nach VRAM-Kapazität. Tokens/Sek-Werte werden manuell aus Community-Benchmarks gepflegt (siehe Confidence-Badges auf den Detailseiten).

GPUBeste QuantVRAM-Bedarf
Apple Mac Studio M3 Ultra 192GBQ8_04.6 GB
Apple MacBook Pro M4 Max 128GBQ8_04.6 GB
Apple Mac Studio M3 Ultra 96GBQ8_04.6 GB
NVIDIA H100 80GBQ8_04.6 GB
Apple Mac mini M4 Pro 64GBQ8_04.6 GB
Apple MacBook Pro M4 Max 64GBQ8_04.6 GB
NVIDIA L40SQ8_04.6 GB
NVIDIA RTX 6000 Ada GenerationQ8_04.6 GB
NVIDIA RTX A6000Q8_04.6 GB
NVIDIA GeForce RTX 5090Q8_04.6 GB
AMD Radeon RX 7900 XTXQ8_04.6 GB
NVIDIA GeForce RTX 3090 TiQ8_04.6 GB
NVIDIA GeForce RTX 3090Q8_04.6 GB
NVIDIA GeForce RTX 4090Q8_04.6 GB
NVIDIA Tesla M40 24GBQ8_04.6 GB
NVIDIA Tesla P40Q8_04.6 GB
AMD Radeon RX 7900 XTQ8_04.6 GB
Intel Arc A770 16GBQ8_04.6 GB
NVIDIA GeForce RTX 4070 Ti SuperQ8_04.6 GB
NVIDIA GeForce RTX 4080 SuperQ8_04.6 GB
NVIDIA GeForce RTX 5080Q8_04.6 GB
NVIDIA GeForce RTX 3060 12GBQ8_04.6 GB