Llama 3.3 70B

Meta · 70 Mrd. Parameter · Llama-3-Community

Refresh von Llama 3.1 70B; bessere Instruktionsbefolgung. Llama-3-Community-Lizenz mit Sondervereinbarung über 700M MAU.

Lizenz: Llama-3-Community. Die Llama-3-Community-License ist nicht klassisch Open-Source: Unternehmen mit über 700 Millionen monatlich aktiven Nutzern brauchen eine Sondervereinbarung mit Meta. Für KMU und Mittelstand spielt das keine Rolle. Das macht Llama 3.3 70B besonders interessant für On-Prem-Deployments in Unternehmen, kommerzielle SaaS-Produkte und Embedded-Lösungen.

Llama 3.3 70B ist ein 70-Mrd.-Parameter-Schwergewicht. Q4_K_M braucht etwa 43 GB VRAM — eine einzelne Consumer-GPU reicht nicht. RTX 6000 Ada (48 GB), zwei RTX 4090 mit Tensor-Parallelism oder ein Apple Mac Studio M3 Ultra mit 96+ GB Unified Memory sind die realistischen Optionen.

Mit 128k Tokens Kontext (~96k Wörter) eignet sich Llama 3.3 70B für lange Texte, Multi-Dokument-RAG und umfangreiche System-Prompts ohne Chunking-Overhead.

Deutsch-Qualität: exzellent. Praktisch nicht von Frontier-Cloud-Modellen unterscheidbar in der deutschen Ausgabe — kohärent, idiomatisch, fachlich korrekt.

Parameter

70 B

Lizenz

Llama-3-Community

Wirklich offen?

✓ ja

Deutsch-Qualität

exzellent

Kontextfenster

128k Tokens

Vendor

Llama 3.3 70B lokal: Welche GPU brauche ich?

9 GPUs können Llama 3.3 70B in mindestens einer praktikablen Quantisierung fahren — sortiert nach VRAM-Kapazität. Tokens/Sek-Werte werden manuell aus Community-Benchmarks gepflegt (siehe Confidence-Badges auf den Detailseiten).

GPU	Beste Quant	VRAM-Bedarf
Apple Mac Studio M3 Ultra 192GB	Q8_0	72.6 GB
Apple MacBook Pro M4 Max 128GB	Q8_0	72.6 GB
Apple Mac Studio M3 Ultra 96GB	Q8_0	72.6 GB
NVIDIA H100 80GB	Q8_0	72.6 GB
Apple Mac mini M4 Pro 64GB	Q4_K_M	42.8 GB
Apple MacBook Pro M4 Max 64GB	Q4_K_M	42.8 GB
NVIDIA L40S	Q4_K_M	42.8 GB
NVIDIA RTX 6000 Ada Generation	Q4_K_M	42.8 GB
NVIDIA RTX A6000	Q4_K_M	42.8 GB

Llama 3.3 70B API: Cloud-Anbieter im Vergleich

8 Anbieter hosten dieses Modell. Sortiert nach Input-Preis. EU-Hosting-Spalte zeigt DSGVO-relevante Optionen.

Anbieter	EU-Hosting	Input €/1M	Output €/1M
OpenRouter	—	0.13	0.37
DeepInfra	—	0.21	0.37
Nebius	✓	0.23	0.69
OVHcloud AI Endpoints	✓	0.46	0.46
Groq	—	0.55	0.74
IONOS AI Model Hub	✓	0.74	0.74
Together AI	—	0.81	0.81
Fireworks AI	—	0.83	0.83