Llama 3.1 8B

Meta · 8 Mrd. Parameter · Llama-3-Community

Solides Einstiegsmodell für lokale Inferenz. Erstaunlich kohärentes Deutsch trotz primär englischem Training.

Lizenz: Llama-3-Community. Die Llama-3-Community-License ist nicht klassisch Open-Source: Unternehmen mit über 700 Millionen monatlich aktiven Nutzern brauchen eine Sondervereinbarung mit Meta. Für KMU und Mittelstand spielt das keine Rolle. Das macht Llama 3.1 8B besonders interessant für On-Prem-Deployments in Unternehmen, kommerzielle SaaS-Produkte und Embedded-Lösungen.

Llama 3.1 8B hat 8 Mrd. Parameter und braucht in Q4_K_M-Quantisierung rund 6-7 GB VRAM. Damit läuft das Modell auf praktisch jeder modernen GPU ab RTX 3060 12GB aufwärts. Apple-Silicon-Geräte mit 16+ GB Unified Memory sind ebenfalls bestens geeignet.

Mit 128k Tokens Kontext (~96k Wörter) eignet sich Llama 3.1 8B für lange Texte, Multi-Dokument-RAG und umfangreiche System-Prompts ohne Chunking-Overhead.

Deutsch-Qualität: gut. Solide deutsche Ausgabe für die meisten produktiven Use-Cases — gelegentlich englische Phrasen oder leichte Holprigkeiten, aber überzeugend.

Parameter

8 B

Lizenz

Llama-3-Community

Wirklich offen?

✓ ja

Deutsch-Qualität

gut

Kontextfenster

128k Tokens

Vendor

Llama 3.1 8B lokal: Welche GPU brauche ich?

22 GPUs können Llama 3.1 8B in mindestens einer praktikablen Quantisierung fahren — sortiert nach VRAM-Kapazität. Tokens/Sek-Werte werden manuell aus Community-Benchmarks gepflegt (siehe Confidence-Badges auf den Detailseiten).

GPU	Beste Quant	VRAM-Bedarf
Apple Mac Studio M3 Ultra 192GB	Q8_0	9.7 GB
Apple MacBook Pro M4 Max 128GB	Q8_0	9.7 GB
Apple Mac Studio M3 Ultra 96GB	Q8_0	9.7 GB
NVIDIA H100 80GB	Q8_0	9.7 GB
Apple Mac mini M4 Pro 64GB	Q8_0	9.7 GB
Apple MacBook Pro M4 Max 64GB	Q8_0	9.7 GB
NVIDIA L40S	Q8_0	9.7 GB
NVIDIA RTX 6000 Ada Generation	Q8_0	9.7 GB
NVIDIA RTX A6000	Q8_0	9.7 GB
NVIDIA GeForce RTX 5090	Q8_0	9.7 GB
AMD Radeon RX 7900 XTX	Q8_0	9.7 GB
NVIDIA GeForce RTX 3090 Ti	Q8_0	9.7 GB
NVIDIA GeForce RTX 3090	Q8_0	9.7 GB
NVIDIA GeForce RTX 4090	Q8_0	9.7 GB
NVIDIA Tesla M40 24GB	Q8_0	9.7 GB
NVIDIA Tesla P40	Q8_0	9.7 GB
AMD Radeon RX 7900 XT	Q8_0	9.7 GB
Intel Arc A770 16GB	Q8_0	9.7 GB
NVIDIA GeForce RTX 4070 Ti Super	Q8_0	9.7 GB
NVIDIA GeForce RTX 4080 Super	Q8_0	9.7 GB
NVIDIA GeForce RTX 5080	Q8_0	9.7 GB
NVIDIA GeForce RTX 3060 12GB	Q8_0	9.7 GB

Llama 3.1 8B API: Cloud-Anbieter im Vergleich

5 Anbieter hosten dieses Modell. Sortiert nach Input-Preis. EU-Hosting-Spalte zeigt DSGVO-relevante Optionen.

Anbieter	EU-Hosting	Input €/1M	Output €/1M
DeepInfra	—	0.05	0.05
Groq	—	0.05	0.07
Together AI	—	0.17	0.17
Fireworks AI	—	0.18	0.18
IONOS AI Model Hub	✓	0.18	0.18