Lokale KI: LLMs auf eigener Hardware hosten (Praxis-Leitfaden 2026)
Lokale KI ist 2026 reif. Llama 3.3 70B, Qwen 3 32B oder Mistral Small laufen auf einer Workstation, die unter dem Schreibtisch steht — und sind für 80 % der KMU-Aufgaben gut genug. Dieser Leitfaden zeigt, wie Sie in 5 Minuten starten, welche Modelle sich für welche Aufgaben eignen und wann Cloud-KI trotzdem die bessere Wahl bleibt.
Lokale KI bedeutet: ein Sprachmodell (LLM) läuft auf eigener Hardware, Anfragen verlassen den Rechner nicht. Für viele DACH-Anwendungen ist das die ehrlichste Antwort auf DSGVO, EU AI Act und Vendor Lock-in. Diese Seite ist der Pillar-Leitfaden — verlinkt von hier ist alles, was Sie für den Einstieg brauchen.
Schritt-für-Schritt: Deine erste lokale KI in 5 Minuten
Der schnellste Weg von Null auf eine funktionierende lokale KI: LM Studio. Ein Doppelklick-Installer für Mac und Windows, eine ChatGPT-ähnliche Oberfläche, GPU-Beschleunigung automatisch. Kein Terminal, kein Docker.
Schritt 1 — LM Studio installieren (1 Minute)
Auf lmstudio.ai die passende Version laden (Mac / Windows / Linux), Installer ausführen. Beim ersten Start fragt LM Studio nach einem Speicherort für Modelle — eine SSD mit 50+ GB freiem Platz wählen.
Schritt 2 — Modell auswählen und herunterladen (2-3 Minuten)
Links in der Sidebar auf das Such-Icon klicken. LM Studio empfiehlt automatisch Modelle, die zu Ihrer Hardware passen. Empfehlung für den Einstieg:
- 8 GB RAM:
Qwen 3 4B Instruct(Q4_K_M-Quantisierung, ca. 2,5 GB Download) - 16 GB RAM:
Llama 3.3 8B Instruct(Q4_K_M, ca. 4,8 GB) - 24 GB RAM / 12 GB+ VRAM:
Phi-4 14BoderMistral Small 22B
Was die Suffixe wie Q4_K_M bedeuten, erklärt unser Glossar-Eintrag zu Quantisierung. Kurz: Q4 ist der Sweet-Spot zwischen Größe und Qualität.
Schritt 3 — Chatten (sofort)
Wenn der Download fertig ist, links im Chat-Tab das Modell aus dem Dropdown laden („Load Model"). Nach 5-15 Sekunden ist das Modell im Speicher. Erste Frage stellen — z. B. „Fasse mir folgenden Text in 3 Sätzen zusammen: […]".
Im oberen Bereich von LM Studio sehen Sie die Inferenz-Geschwindigkeit in Tokens pro Sekunde (t/s). 30-60 t/s gilt als angenehm zu lesen, alles unter 15 t/s fühlt sich zäh an.
Tipp: Im System-Prompt (rechts in den Settings) den Kontext für die Aufgabe festlegen, etwa „Du bist Assistent für Steuerberatung, antworte präzise und ohne juristische Beratung." Bessere Antworten ohne jedes Mal die Rahmenbedingungen wiederzugeben.
Wer es gleich „richtig" will: Llama 3.3 lokal installieren — Schritt für Schritt · Ollama unter Windows · Ollama auf macOS · Ollama auf Linux.
Wann lokale KI Sinn ergibt — und wann nicht
Lokale KI ist mächtig, aber keine pauschale „bessere" Option. Hier die ehrliche Entscheidungs-Matrix aus echten KMU-Projekten:
Sinnvoll lokal
- Sensible Daten (Mandanten, Patienten, Personalakten)
- RAG über eigene Dokumente und Verträge
- Code-Assistenz mit Geschäftsgeheimnissen
- Hohe Volumen (API-Kosten werden sonst absurd)
- Offline-Anforderung (Werkstatt, Außendienst, Krisenszenario)
- Branchen mit Berufsgeheimnis (§ 203 StGB)
Weiter Cloud nutzen
- Wer einfach Antworten auf Allgemeinwissen will
- Multimodale Aufgaben (Bild + Text, Video)
- Sehr lange Kontexte (200k+ Token)
- Beste Code-Qualität benötigt (Claude / GPT-5)
- Selten genutzte Aufgaben — Hardware lohnt sich nicht
- Kein In-House-IT für Setup und Wartung
Warum lokale KI das DSGVO-, AVV- und Schrems-II-Problem löst
Der wichtigste B2B-Grund für lokale KI ist nicht „weil cool", sondern rechtliche Sicherheit. Drei konkrete Probleme, die mit lokal betriebenen Modellen vollständig wegfallen:
1. Das AVV-Problem
Wer Kundendaten an ChatGPT, Claude oder Gemini schickt, gibt sie an einen Auftragsverarbeiter weiter — und braucht zwingend einen AVV nach Art. 28 DSGVO. OpenAI und Anthropic bieten Enterprise-AVVs an, aber nicht in allen Plänen. Bei kostenlosen Konten oder Pro-Plänen gibt es keinen AVV — Nutzung mit echten Kundendaten ist damit DSGVO-widrig.
Mit lokaler KI: kein externer Auftragsverarbeiter, kein AVV nötig. Daten bleiben im Verantwortungsbereich des Unternehmens.
2. Das Schrems-II-Problem
Selbst mit AVV bleibt das Schrems-II-Urteil ein Risiko: US-Cloud-Anbieter unterliegen dem US-CLOUD-Act, US-Behörden können Daten anfordern. Standardvertragsklauseln helfen formal, in der Praxis ist die Rechtslage instabil. Aufsichtsbehörden in DACH (Berliner DSB, BayLDA) prüfen aktiv.
Mit lokaler KI: kein Datentransfer in Drittländer. Schrems-II ist nicht anwendbar, wenn keine Daten den EWR verlassen.
3. Das Modell-Training-Problem
Cloud-Anbieter trainieren ihre Modelle (auch) mit Nutzereingaben. Bei kostenlosen Plänen ist Opt-out oft umständlich oder nicht möglich. Selbst bei API-Nutzung mit aktivem Opt-out bleibt das Risiko von Logging, Missbrauch oder Datenpannen.
Mit lokaler KI: nichts wird trainiert, nichts verlässt das Netz, keine Datenpannen-Schlagzeile durch einen anderen Anbieter möglich.
Kombinations-Pattern für KMU: Cloud-KI für unkritische Aufgaben (Recherche, Marketing-Texte), lokale KI für alles mit Kundenbezug. Eine schriftliche KI-Richtlinie regelt, was wohin gehört.
Modelle 2026 im Vergleich (mit Hardware-Bedarf)
Die wichtigsten offenen Sprachmodelle im Stand Mai 2026 — jeweils mit VRAM-Bedarf bei Q4-Quantisierung und Eignung:
| Modell | Größe (Q4) | Stärke | Geeignet ab |
|---|---|---|---|
| Qwen 3 4B | 2,5 GB | Schnell, mehrsprachig, brav | 8 GB RAM |
| Llama 3.3 8B | 4,8 GB | Allrounder, gutes Deutsch | 16 GB RAM |
| Phi-4 14B | 8,4 GB | Reasoning, kompakt | 16 GB VRAM |
| Mistral Small 22B | 13 GB | Funktion-Calling, EU-Herkunft | 16 GB VRAM |
| Gemma 3 27B | 16 GB | Google-Qualität, schnell | 24 GB VRAM |
| Qwen 3 32B | 19 GB | Stark im Code, mehrsprachig | 24 GB VRAM |
| Llama 3.3 70B | 42 GB | GPT-4-Klasse, sehr gut | 48 GB VRAM / 64 GB Unified |
| DeepSeek R1 32B | 19 GB | Reasoning, Mathematik | 24 GB VRAM |
Für den konkreten VRAM-Bedarf bei beliebiger Modell- und Quantisierungs-Kombination: VRAM-Rechner auf /hardware/.
Software-Tools: Wie kann man KI lokal ausführen?
Vier ernsthafte Optionen, je nach Bedarf:
- LM Studio: grafisch, Mac/Win/Linux, Einstieg ohne Terminal. Beste Wahl für Einzelplatz und Tests.
- Ollama: CLI + lokaler API-Server (port 11434), perfekt für Automatisierung und Multi-User-Server. Pairing mit OpenWebUI = ChatGPT-Klon im LAN.
- llama.cpp: Bibliothek darunter, maximale Kontrolle, eher für Entwickler.
- vLLM: für Produktions-Server mit hoher Last (Multi-User, Batch-Inferenz). Linux + NVIDIA only.
Was die Begriffe technisch bedeuten: Inferenz · GGUF-Format · Quantisierung · Kontextfenster.
Lokale KI auf Mac, Windows und Linux
Jedes Betriebssystem hat eigene Stärken und Stolperfallen. Wir haben dedizierte Anleitungen für die populärste Open-Source-Runtime (Ollama):
Windows 11
Lokale KI auf Windows
NVIDIA-CUDA out-of-the-box, AMD-ROCm ab RDNA-3, kein WSL nötig.
Anleitung →macOS · Apple Silicon
Lokale KI auf dem Mac
Unified Memory nutzt die volle GPU-Performance. 70B-Modelle ab 64 GB RAM.
Anleitung →Linux · Server
Lokale KI auf Linux / Server
Multi-User-Server für 5-20 Wissensarbeitende, systemd + Reverse-Proxy.
Anleitung →Mit eigenen Daten arbeiten — RAG für KMU
Das eigentliche Killer-Feature von lokaler KI ist nicht „Chat ohne Cloud", sondern Chat mit den eigenen Dokumenten. Verträge, Personalrichtlinien, Produkt-Datenblätter, Rechnungs-Archiv — das Modell nutzt diese als Wissensbasis und antwortet quellenbezogen. Das Verfahren heißt RAG (Retrieval-Augmented Generation).
Beispiele aus echten KMU-Projekten:
- Steuerberatungs-Kanzlei: lokales Llama 3.3 70B + RAG über 12 Jahre Mandanten-Akten. Mitarbeitende finden in Sekunden, wo ein Sachverhalt schon mal vorkam.
- Maschinenbauer: RAG über Konstruktions-PDFs + Service-Tickets. Techniker fragen das Modell, statt einen Kollegen anzurufen.
- Anwaltskanzlei: RAG über Schriftsätze + Urteilssammlung. Recherche-Zeit von 3 h auf 20 min reduziert.
Wir haben einen eigenen Praxis-Leitfaden, der RAG Schritt für Schritt erklärt — von der Idee bis zum lauffähigen System:
Deep-Dive
Lokale KI mit eigenen Daten: RAG-Leitfaden für KMU
PDFs lokal analysieren, Verträge durchsuchbar machen, Wissensbasis aufbauen — vollständiger Praxis-Guide mit Stack-Empfehlung, Schritten und Kosten →
Hardware-Empfehlung: Welche GPU für lokale KI?
Die GPU-Auswahl hängt am Modell, das Sie fahren wollen. Drei realistische Setups für KMU:
- Einsteiger (1.500-2.500 €): Mac Mini M4 Pro 64 GB. Lautlos, läuft 8B-30B-Modelle komfortabel, sogar 70B-Q4 möglich.
- Profi (2.500-4.000 €): Workstation mit RTX 4090 (24 GB) oder 2× RTX 3090 gebraucht (48 GB total). Schnellster Tokenrate, NVIDIA-Ökosystem.
- Team-Server (5.000-8.000 €): Linux-Server mit RTX A6000 (48 GB) oder 2× RTX 4090. OpenWebUI für das ganze Team, im LAN per HTTPS.
Für die vollständige Kaufberatung mit GPU-Benchmarks, Preisen aktueller Modelle und Total-Cost-of-Ownership-Rechnung:
Kaufberatung
Beste Hardware für lokale KI 2026 — Welche GPU, welcher Mac?
RTX 4090 vs. Mac Studio vs. 2× RTX 3090 — Benchmark-Tabelle, TCO, Stromkosten, Empfehlung pro Use Case →
Plus interaktiver VRAM-Rechner, der für beliebige Modelle die nötige Hardware berechnet.
Nächste Schritte
- Heute: LM Studio installieren, ein Modell laden, fünf Minuten ausprobieren
- Diese Woche: ein konkretes Use Case definieren (Dokumenten-Recherche, Code-Assistent, Mail-Drafts)
- Diesen Monat: KI-Richtlinie für das Team aufsetzen (Vorlage), Hardware bestellen, RAG-Pilot starten
Sie wollen das nicht selbst aufbauen? Wir setzen lokale KI in DACH-KMUs schlüsselfertig um — von Hardware-Sourcing über Setup bis Team-Schulung. Erstgespräch anfragen.
Weiterlesen
- KI im Unternehmen einführen — der vollständige KMU-Leitfaden
- Automatisierung: 5 KI-Workflows für KMU
- Ollama im Test — Bewertung + Verwendungs-Empfehlung
- Hardware-Hub mit VRAM-Rechner
Newsletter
1× pro Woche das KI-Lagebild
Tools, Tests, Modell-Releases und ein Workflow zum Mitnehmen. Auf Deutsch, anti-Hype, in 5 Minuten gelesen. Kostenlos, jederzeit abbestellbar.
Kein Spam, keine Daten weitergegeben. Server in Deutschland (Brevo EU).