Lokale KI

Lokale KI & Self-Hosting

Lokale KI — Modelle, die auf eigener Hardware laufen — keine Cloud, keine Datenabflüsse. Für KMU mit DSGVO-Anforderungen die ehrlichste Antwort.

Was lokale KI 2026 wirklich kann

Lokale KI heißt: das Sprachmodell läuft auf deiner Hardware. Daten gehen nicht in eine Cloud. Drei Jahre nach dem ersten Llama-Release ist die Realität: für etwa 80% der KMU-Anwendungsfälle ist lokale KI 2026 ausreichend gut.

Konkret: Llama 3.3 70B, Qwen 3 32B oder Mistral Large auf einer Workstation mit RTX 4090 liefern Antworten, die in vielen Aufgabentypen ChatGPT-3.5-Niveau (oft sogar GPT-4-Niveau) erreichen.

Wann lokale KI klar gewinnt

1. Sensible Daten

Mandantenakten, Patientendaten, Personalakten, Verträge mit NDA, Strategiepapiere. Diese Daten dürfen DSGVO-konform nicht in US-Cloud-KIs.

2. RAG über eigene Dokumente

Mit RAG über Ihre 5.000 Verträge oder 12.000 Service-Tickets: die Daten bleiben lokal, die KI sucht und antwortet auf Ihrer Hardware. Kein Anbieter-Lock-in, kein Trainingsdaten-Risiko.

3. Hohe Volumen

Bei mehr als 5M Output-Tokens/Monat wird lokale KI günstiger als Cloud-API. Bei Tausenden Anfragen pro Tag ein Kostenfaktor.

4. Offline-Anforderung

Außendienst, Werkstatt, Krisenszenario, Schiffsfahrt — überall, wo Internet unzuverlässig ist. Lokale KI läuft offline.

5. Compliance + EU AI Act

Bei Hochrisiko-Anwendungen nach EU AI Act ist die Erklärbarkeit und Kontrolle ein Vorteil von lokaler KI. Sie wissen genau, welches Modell mit welchen Parametern läuft.

Wann Cloud-KI besser bleibt

  • Multimodale Aufgaben (Bild + Text + Audio in einem Schritt)
  • Neueste Spitzen-Performance (GPT-5, Claude 4 sind weiterhin stärker als Open-Weights für komplexe Reasoning-Aufgaben)
  • Kleine Volumen ohne Datenschutz-Bedenken
  • Wenn niemand im Team einen Server warten kann

Der Setup-Stack 2026

Modell-Server

  • Ollama — Standard für lokale Inferenz. Ein Befehl, ein Modell. OpenAI-kompatible API.
  • LM Studio — Grafische Oberfläche für Einsteiger.
  • vLLM — Produktions-Inferenz-Server mit hoher Durchsatzleistung.
  • llama.cpp — direkter Engine-Zugriff, sehr effizient.

UI-Layer

  • OpenWebUI — Web-Frontend wie ChatGPT, mit RAG-Modul
  • Open-Source-Alternativen: AnythingLLM, Jan.ai, MSTY

Automatisierung

  • n8n Self-Hosted mit Ollama-Knoten
  • Workflow-Code mit Python (LangChain, LlamaIndex)

Vektor-DB für RAG

  • Chroma — einfach, lokale Files
  • Qdrant — skalierbar
  • pgvector — in vorhandener PostgreSQL

Hardware-Setup nach Budget

BudgetHardwareModell-KlasseGeeignet für
€500Mac Mini M4 16 GBBis 8B (Q4)Einzelperson, kleine Workflows
€1.500Mac Mini M4 Pro 32 GBBis 14B (Q4)Selbstständige + leichte RAG
€3.500RTX 4090 24 GB32B (Q4)KMU mit ernsthafter Last
€8.0002× RTX 4090 oder RTX 509070B (Q4)Profi-Setup, 5–15 Nutzer
€15.000+Workstation mit H100/A6000200B+ / Fine-TuningCustom-Lösungen, Cluster

Realität: Wo lokale KI 2026 hinkt

  • Tool-Use / Function Calling: Bei Cloud-Modellen besser ausgereift
  • Sehr lange Kontexte (> 200k Tokens): Cloud bietet hier mehr
  • Multimodal (Bilder + Text): Cloud-Modelle sind weiter
  • Out-of-the-box-Workflows: mehr Friktion als bei ChatGPT

Hybrid-Strategie (oft am sinnvollsten)

  • Lokale KI für sensitive Daten + häufige Use Cases
  • Cloud-KI für gelegentliche Komplex-Aufgaben mit nicht-sensitiven Daten
  • Routing über n8n: prüfe Datentyp → entscheide Modell-Pfad

Energieverbrauch + Strom

Eine RTX 4090 zieht unter Last 350–450 W. Bei 10 h/Tag Nutzung und 0,30 €/kWh sind das ~30 €/Monat Stromkosten. Bei dauerhafter Nutzung (Server 24/7): 80–100 €/Monat. Im TCO einkalkulieren.

Verwandte Begriffe

Self-Hosting · Ollama · Quantisierung · VRAM · Souveränität

Praxis-Hilfe

Sie wollen KI strukturiert + DSGVO-konform in Ihrem KMU einführen? Wir setzen das mit Ihrem Team um — in 90 Tagen. Zum KMU-Leitfaden →