Lokale KI: LLMs auf eigener Hardware hosten (Praxis-Leitfaden 2026)

Lokale KI: LLMs auf eigener Hardware hosten (Praxis-Leitfaden 2026)

Lokale KI ist 2026 reif. Llama 3.3 70B, Qwen 3 32B oder Mistral Small laufen auf einer Workstation, die unter dem Schreibtisch steht — und sind für 80 % der KMU-Aufgaben gut genug. Dieser Leitfaden zeigt, wie Sie in 5 Minuten starten, welche Modelle sich für welche Aufgaben eignen und wann Cloud-KI trotzdem die bessere Wahl bleibt.

Lokale KI bedeutet: ein Sprachmodell (LLM) läuft auf eigener Hardware, Anfragen verlassen den Rechner nicht. Für viele DACH-Anwendungen ist das die ehrlichste Antwort auf DSGVO, EU AI Act und Vendor Lock-in. Diese Seite ist der Pillar-Leitfaden — verlinkt von hier ist alles, was Sie für den Einstieg brauchen.

Schritt-für-Schritt: Deine erste lokale KI in 5 Minuten

Der schnellste Weg von Null auf eine funktionierende lokale KI: LM Studio. Ein Doppelklick-Installer für Mac und Windows, eine ChatGPT-ähnliche Oberfläche, GPU-Beschleunigung automatisch. Kein Terminal, kein Docker.

LM Studio — Local AI DISCOVER 🔎 Modelle suchen MEINE MODELLE ● llama-3.3-8b qwen-3-4b phi-4-14b Chat — Llama 3.3 8B ● GPU: NVIDIA RTX 4070 (12 GB) · 42 t/s Fasse mir den Quartalsbericht in 3 Sätzen zusammen. Llama 3.3 8B 1) Umsatz +12 % gegenüber Vorquartal, getrieben durch das B2B-Segment. 2) Operative Marge stieg auf 18 %. 3) Kapitalkosten unverändert, Investitionen in F&E +5 %. Nachricht eingeben…
LM Studio mit lokal geladenem Llama 3.3 8B — Chat-Oberfläche wie ChatGPT, aber jede Anfrage bleibt auf dem eigenen Rechner.

Schritt 1 — LM Studio installieren (1 Minute)

Auf lmstudio.ai die passende Version laden (Mac / Windows / Linux), Installer ausführen. Beim ersten Start fragt LM Studio nach einem Speicherort für Modelle — eine SSD mit 50+ GB freiem Platz wählen.

Schritt 2 — Modell auswählen und herunterladen (2-3 Minuten)

Links in der Sidebar auf das Such-Icon klicken. LM Studio empfiehlt automatisch Modelle, die zu Ihrer Hardware passen. Empfehlung für den Einstieg:

  • 8 GB RAM: Qwen 3 4B Instruct (Q4_K_M-Quantisierung, ca. 2,5 GB Download)
  • 16 GB RAM: Llama 3.3 8B Instruct (Q4_K_M, ca. 4,8 GB)
  • 24 GB RAM / 12 GB+ VRAM: Phi-4 14B oder Mistral Small 22B

Was die Suffixe wie Q4_K_M bedeuten, erklärt unser Glossar-Eintrag zu Quantisierung. Kurz: Q4 ist der Sweet-Spot zwischen Größe und Qualität.

Schritt 3 — Chatten (sofort)

Wenn der Download fertig ist, links im Chat-Tab das Modell aus dem Dropdown laden („Load Model"). Nach 5-15 Sekunden ist das Modell im Speicher. Erste Frage stellen — z. B. „Fasse mir folgenden Text in 3 Sätzen zusammen: […]".

Im oberen Bereich von LM Studio sehen Sie die Inferenz-Geschwindigkeit in Tokens pro Sekunde (t/s). 30-60 t/s gilt als angenehm zu lesen, alles unter 15 t/s fühlt sich zäh an.

Tipp: Im System-Prompt (rechts in den Settings) den Kontext für die Aufgabe festlegen, etwa „Du bist Assistent für Steuerberatung, antworte präzise und ohne juristische Beratung." Bessere Antworten ohne jedes Mal die Rahmenbedingungen wiederzugeben.

Wer es gleich „richtig" will: Llama 3.3 lokal installieren — Schritt für Schritt · Ollama unter Windows · Ollama auf macOS · Ollama auf Linux.

Wann lokale KI Sinn ergibt — und wann nicht

Lokale KI ist mächtig, aber keine pauschale „bessere" Option. Hier die ehrliche Entscheidungs-Matrix aus echten KMU-Projekten:

Sinnvoll lokal

  • Sensible Daten (Mandanten, Patienten, Personalakten)
  • RAG über eigene Dokumente und Verträge
  • Code-Assistenz mit Geschäftsgeheimnissen
  • Hohe Volumen (API-Kosten werden sonst absurd)
  • Offline-Anforderung (Werkstatt, Außendienst, Krisenszenario)
  • Branchen mit Berufsgeheimnis (§ 203 StGB)

Weiter Cloud nutzen

  • Wer einfach Antworten auf Allgemeinwissen will
  • Multimodale Aufgaben (Bild + Text, Video)
  • Sehr lange Kontexte (200k+ Token)
  • Beste Code-Qualität benötigt (Claude / GPT-5)
  • Selten genutzte Aufgaben — Hardware lohnt sich nicht
  • Kein In-House-IT für Setup und Wartung

Warum lokale KI das DSGVO-, AVV- und Schrems-II-Problem löst

Der wichtigste B2B-Grund für lokale KI ist nicht „weil cool", sondern rechtliche Sicherheit. Drei konkrete Probleme, die mit lokal betriebenen Modellen vollständig wegfallen:

1. Das AVV-Problem

Wer Kundendaten an ChatGPT, Claude oder Gemini schickt, gibt sie an einen Auftragsverarbeiter weiter — und braucht zwingend einen AVV nach Art. 28 DSGVO. OpenAI und Anthropic bieten Enterprise-AVVs an, aber nicht in allen Plänen. Bei kostenlosen Konten oder Pro-Plänen gibt es keinen AVV — Nutzung mit echten Kundendaten ist damit DSGVO-widrig.

Mit lokaler KI: kein externer Auftragsverarbeiter, kein AVV nötig. Daten bleiben im Verantwortungsbereich des Unternehmens.

2. Das Schrems-II-Problem

Selbst mit AVV bleibt das Schrems-II-Urteil ein Risiko: US-Cloud-Anbieter unterliegen dem US-CLOUD-Act, US-Behörden können Daten anfordern. Standardvertragsklauseln helfen formal, in der Praxis ist die Rechtslage instabil. Aufsichtsbehörden in DACH (Berliner DSB, BayLDA) prüfen aktiv.

Mit lokaler KI: kein Datentransfer in Drittländer. Schrems-II ist nicht anwendbar, wenn keine Daten den EWR verlassen.

3. Das Modell-Training-Problem

Cloud-Anbieter trainieren ihre Modelle (auch) mit Nutzereingaben. Bei kostenlosen Plänen ist Opt-out oft umständlich oder nicht möglich. Selbst bei API-Nutzung mit aktivem Opt-out bleibt das Risiko von Logging, Missbrauch oder Datenpannen.

Mit lokaler KI: nichts wird trainiert, nichts verlässt das Netz, keine Datenpannen-Schlagzeile durch einen anderen Anbieter möglich.

Kombinations-Pattern für KMU: Cloud-KI für unkritische Aufgaben (Recherche, Marketing-Texte), lokale KI für alles mit Kundenbezug. Eine schriftliche KI-Richtlinie regelt, was wohin gehört.

Modelle 2026 im Vergleich (mit Hardware-Bedarf)

Die wichtigsten offenen Sprachmodelle im Stand Mai 2026 — jeweils mit VRAM-Bedarf bei Q4-Quantisierung und Eignung:

Vergleich: Die wichtigsten lokalen KI-Modelle 2026 (Q4-Quantisierung, Inferenz-Bedarf)
ModellGröße (Q4)StärkeGeeignet ab
Qwen 3 4B2,5 GBSchnell, mehrsprachig, brav8 GB RAM
Llama 3.3 8B4,8 GBAllrounder, gutes Deutsch16 GB RAM
Phi-4 14B8,4 GBReasoning, kompakt16 GB VRAM
Mistral Small 22B13 GBFunktion-Calling, EU-Herkunft16 GB VRAM
Gemma 3 27B16 GBGoogle-Qualität, schnell24 GB VRAM
Qwen 3 32B19 GBStark im Code, mehrsprachig24 GB VRAM
Llama 3.3 70B42 GBGPT-4-Klasse, sehr gut48 GB VRAM / 64 GB Unified
DeepSeek R1 32B19 GBReasoning, Mathematik24 GB VRAM

Für den konkreten VRAM-Bedarf bei beliebiger Modell- und Quantisierungs-Kombination: VRAM-Rechner auf /hardware/.

Software-Tools: Wie kann man KI lokal ausführen?

Vier ernsthafte Optionen, je nach Bedarf:

  • LM Studio: grafisch, Mac/Win/Linux, Einstieg ohne Terminal. Beste Wahl für Einzelplatz und Tests.
  • Ollama: CLI + lokaler API-Server (port 11434), perfekt für Automatisierung und Multi-User-Server. Pairing mit OpenWebUI = ChatGPT-Klon im LAN.
  • llama.cpp: Bibliothek darunter, maximale Kontrolle, eher für Entwickler.
  • vLLM: für Produktions-Server mit hoher Last (Multi-User, Batch-Inferenz). Linux + NVIDIA only.

Was die Begriffe technisch bedeuten: Inferenz · GGUF-Format · Quantisierung · Kontextfenster.

Lokale KI auf Mac, Windows und Linux

Jedes Betriebssystem hat eigene Stärken und Stolperfallen. Wir haben dedizierte Anleitungen für die populärste Open-Source-Runtime (Ollama):

Windows 11

Lokale KI auf Windows

NVIDIA-CUDA out-of-the-box, AMD-ROCm ab RDNA-3, kein WSL nötig.

Anleitung →

macOS · Apple Silicon

Lokale KI auf dem Mac

Unified Memory nutzt die volle GPU-Performance. 70B-Modelle ab 64 GB RAM.

Anleitung →

Linux · Server

Lokale KI auf Linux / Server

Multi-User-Server für 5-20 Wissensarbeitende, systemd + Reverse-Proxy.

Anleitung →

Mit eigenen Daten arbeiten — RAG für KMU

Das eigentliche Killer-Feature von lokaler KI ist nicht „Chat ohne Cloud", sondern Chat mit den eigenen Dokumenten. Verträge, Personalrichtlinien, Produkt-Datenblätter, Rechnungs-Archiv — das Modell nutzt diese als Wissensbasis und antwortet quellenbezogen. Das Verfahren heißt RAG (Retrieval-Augmented Generation).

Beispiele aus echten KMU-Projekten:

  • Steuerberatungs-Kanzlei: lokales Llama 3.3 70B + RAG über 12 Jahre Mandanten-Akten. Mitarbeitende finden in Sekunden, wo ein Sachverhalt schon mal vorkam.
  • Maschinenbauer: RAG über Konstruktions-PDFs + Service-Tickets. Techniker fragen das Modell, statt einen Kollegen anzurufen.
  • Anwaltskanzlei: RAG über Schriftsätze + Urteilssammlung. Recherche-Zeit von 3 h auf 20 min reduziert.

Wir haben einen eigenen Praxis-Leitfaden, der RAG Schritt für Schritt erklärt — von der Idee bis zum lauffähigen System:

Deep-Dive

Lokale KI mit eigenen Daten: RAG-Leitfaden für KMU

PDFs lokal analysieren, Verträge durchsuchbar machen, Wissensbasis aufbauen — vollständiger Praxis-Guide mit Stack-Empfehlung, Schritten und Kosten →

Hardware-Empfehlung: Welche GPU für lokale KI?

Die GPU-Auswahl hängt am Modell, das Sie fahren wollen. Drei realistische Setups für KMU:

  • Einsteiger (1.500-2.500 €): Mac Mini M4 Pro 64 GB. Lautlos, läuft 8B-30B-Modelle komfortabel, sogar 70B-Q4 möglich.
  • Profi (2.500-4.000 €): Workstation mit RTX 4090 (24 GB) oder 2× RTX 3090 gebraucht (48 GB total). Schnellster Tokenrate, NVIDIA-Ökosystem.
  • Team-Server (5.000-8.000 €): Linux-Server mit RTX A6000 (48 GB) oder 2× RTX 4090. OpenWebUI für das ganze Team, im LAN per HTTPS.

Für die vollständige Kaufberatung mit GPU-Benchmarks, Preisen aktueller Modelle und Total-Cost-of-Ownership-Rechnung:

Kaufberatung

Beste Hardware für lokale KI 2026 — Welche GPU, welcher Mac?

RTX 4090 vs. Mac Studio vs. 2× RTX 3090 — Benchmark-Tabelle, TCO, Stromkosten, Empfehlung pro Use Case →

Plus interaktiver VRAM-Rechner, der für beliebige Modelle die nötige Hardware berechnet.

Nächste Schritte

  1. Heute: LM Studio installieren, ein Modell laden, fünf Minuten ausprobieren
  2. Diese Woche: ein konkretes Use Case definieren (Dokumenten-Recherche, Code-Assistent, Mail-Drafts)
  3. Diesen Monat: KI-Richtlinie für das Team aufsetzen (Vorlage), Hardware bestellen, RAG-Pilot starten

Sie wollen das nicht selbst aufbauen? Wir setzen lokale KI in DACH-KMUs schlüsselfertig um — von Hardware-Sourcing über Setup bis Team-Schulung. Erstgespräch anfragen.

Weiterlesen

Newsletter

1× pro Woche das KI-Lagebild

Tools, Tests, Modell-Releases und ein Workflow zum Mitnehmen. Auf Deutsch, anti-Hype, in 5 Minuten gelesen. Kostenlos, jederzeit abbestellbar.

Kein Spam, keine Daten weitergegeben. Server in Deutschland (Brevo EU).