Llama 3.3 70B
Meta · 70 Mrd. Parameter · Llama-3-Community
Refresh von Llama 3.1 70B; bessere Instruktionsbefolgung. Llama-3-Community-Lizenz mit Sondervereinbarung über 700M MAU.
Lizenz: Llama-3-Community. Die Llama-3-Community-License ist nicht klassisch Open-Source: Unternehmen mit über 700 Millionen monatlich aktiven Nutzern brauchen eine Sondervereinbarung mit Meta. Für KMU und Mittelstand spielt das keine Rolle. Das macht Llama 3.3 70B besonders interessant für On-Prem-Deployments in Unternehmen, kommerzielle SaaS-Produkte und Embedded-Lösungen.
Llama 3.3 70B ist ein 70-Mrd.-Parameter-Schwergewicht. Q4_K_M braucht etwa 43 GB VRAM — eine einzelne Consumer-GPU reicht nicht. RTX 6000 Ada (48 GB), zwei RTX 4090 mit Tensor-Parallelism oder ein Apple Mac Studio M3 Ultra mit 96+ GB Unified Memory sind die realistischen Optionen.
Mit 128k Tokens Kontext (~96k Wörter) eignet sich Llama 3.3 70B für lange Texte, Multi-Dokument-RAG und umfangreiche System-Prompts ohne Chunking-Overhead.
Deutsch-Qualität: exzellent. Praktisch nicht von Frontier-Cloud-Modellen unterscheidbar in der deutschen Ausgabe — kohärent, idiomatisch, fachlich korrekt.
Llama 3.3 70B lokal: Welche GPU brauche ich?
9 GPUs können Llama 3.3 70B in mindestens einer praktikablen Quantisierung fahren — sortiert nach VRAM-Kapazität. Tokens/Sek-Werte werden manuell aus Community-Benchmarks gepflegt (siehe Confidence-Badges auf den Detailseiten).
| GPU | Beste Quant | VRAM-Bedarf |
|---|---|---|
| Apple Mac Studio M3 Ultra 192GB | Q8_0 | 72.6 GB |
| Apple MacBook Pro M4 Max 128GB | Q8_0 | 72.6 GB |
| Apple Mac Studio M3 Ultra 96GB | Q8_0 | 72.6 GB |
| NVIDIA H100 80GB | Q8_0 | 72.6 GB |
| Apple Mac mini M4 Pro 64GB | Q4_K_M | 42.8 GB |
| Apple MacBook Pro M4 Max 64GB | Q4_K_M | 42.8 GB |
| NVIDIA L40S | Q4_K_M | 42.8 GB |
| NVIDIA RTX 6000 Ada Generation | Q4_K_M | 42.8 GB |
| NVIDIA RTX A6000 | Q4_K_M | 42.8 GB |
Llama 3.3 70B API: Cloud-Anbieter im Vergleich
8 Anbieter hosten dieses Modell. Sortiert nach Input-Preis. EU-Hosting-Spalte zeigt DSGVO-relevante Optionen.
| Anbieter | EU-Hosting | Input €/1M | Output €/1M |
|---|---|---|---|
| OpenRouter | — | 0.13 | 0.37 |
| DeepInfra | — | 0.21 | 0.37 |
| Nebius | ✓ | 0.23 | 0.69 |
| OVHcloud AI Endpoints | ✓ | 0.46 | 0.46 |
| Groq | — | 0.55 | 0.74 |
| IONOS AI Model Hub | ✓ | 0.74 | 0.74 |
| Together AI | — | 0.81 | 0.81 |
| Fireworks AI | — | 0.83 | 0.83 |
