Llama 3.1 8B
Meta · 8 Mrd. Parameter · Llama-3-Community
Solides Einstiegsmodell für lokale Inferenz. Erstaunlich kohärentes Deutsch trotz primär englischem Training.
Lizenz: Llama-3-Community. Die Llama-3-Community-License ist nicht klassisch Open-Source: Unternehmen mit über 700 Millionen monatlich aktiven Nutzern brauchen eine Sondervereinbarung mit Meta. Für KMU und Mittelstand spielt das keine Rolle. Das macht Llama 3.1 8B besonders interessant für On-Prem-Deployments in Unternehmen, kommerzielle SaaS-Produkte und Embedded-Lösungen.
Llama 3.1 8B hat 8 Mrd. Parameter und braucht in Q4_K_M-Quantisierung rund 6-7 GB VRAM. Damit läuft das Modell auf praktisch jeder modernen GPU ab RTX 3060 12GB aufwärts. Apple-Silicon-Geräte mit 16+ GB Unified Memory sind ebenfalls bestens geeignet.
Mit 128k Tokens Kontext (~96k Wörter) eignet sich Llama 3.1 8B für lange Texte, Multi-Dokument-RAG und umfangreiche System-Prompts ohne Chunking-Overhead.
Deutsch-Qualität: gut. Solide deutsche Ausgabe für die meisten produktiven Use-Cases — gelegentlich englische Phrasen oder leichte Holprigkeiten, aber überzeugend.
Llama 3.1 8B lokal: Welche GPU brauche ich?
22 GPUs können Llama 3.1 8B in mindestens einer praktikablen Quantisierung fahren — sortiert nach VRAM-Kapazität. Tokens/Sek-Werte werden manuell aus Community-Benchmarks gepflegt (siehe Confidence-Badges auf den Detailseiten).
| GPU | Beste Quant | VRAM-Bedarf |
|---|---|---|
| Apple Mac Studio M3 Ultra 192GB | Q8_0 | 9.7 GB |
| Apple MacBook Pro M4 Max 128GB | Q8_0 | 9.7 GB |
| Apple Mac Studio M3 Ultra 96GB | Q8_0 | 9.7 GB |
| NVIDIA H100 80GB | Q8_0 | 9.7 GB |
| Apple Mac mini M4 Pro 64GB | Q8_0 | 9.7 GB |
| Apple MacBook Pro M4 Max 64GB | Q8_0 | 9.7 GB |
| NVIDIA L40S | Q8_0 | 9.7 GB |
| NVIDIA RTX 6000 Ada Generation | Q8_0 | 9.7 GB |
| NVIDIA RTX A6000 | Q8_0 | 9.7 GB |
| NVIDIA GeForce RTX 5090 | Q8_0 | 9.7 GB |
| AMD Radeon RX 7900 XTX | Q8_0 | 9.7 GB |
| NVIDIA GeForce RTX 3090 Ti | Q8_0 | 9.7 GB |
| NVIDIA GeForce RTX 3090 | Q8_0 | 9.7 GB |
| NVIDIA GeForce RTX 4090 | Q8_0 | 9.7 GB |
| NVIDIA Tesla M40 24GB | Q8_0 | 9.7 GB |
| NVIDIA Tesla P40 | Q8_0 | 9.7 GB |
| AMD Radeon RX 7900 XT | Q8_0 | 9.7 GB |
| Intel Arc A770 16GB | Q8_0 | 9.7 GB |
| NVIDIA GeForce RTX 4070 Ti Super | Q8_0 | 9.7 GB |
| NVIDIA GeForce RTX 4080 Super | Q8_0 | 9.7 GB |
| NVIDIA GeForce RTX 5080 | Q8_0 | 9.7 GB |
| NVIDIA GeForce RTX 3060 12GB | Q8_0 | 9.7 GB |
Llama 3.1 8B API: Cloud-Anbieter im Vergleich
5 Anbieter hosten dieses Modell. Sortiert nach Input-Preis. EU-Hosting-Spalte zeigt DSGVO-relevante Optionen.
| Anbieter | EU-Hosting | Input €/1M | Output €/1M |
|---|---|---|---|
| DeepInfra | — | 0.05 | 0.05 |
| Groq | — | 0.05 | 0.07 |
| Together AI | — | 0.17 | 0.17 |
| Fireworks AI | — | 0.18 | 0.18 |
| IONOS AI Model Hub | ✓ | 0.18 | 0.18 |
