KI Production-Setup für KMU: Lernpfad Profi (Hands-On, 2026)

Du baust selbst. Dieser Pfad ist für IT-Verantwortliche, DevOps-affine Founder und Power-User, die ihre eigene KI-Infrastruktur und Agenten-Workflows aufsetzen wollen — mit echtem Code, echten Konfigurationen, echten Produktions-Setups.

🔴 Level: Profi — alle Artikel dieser Stufe, strukturiert nach Lernreihenfolge in 4 Modulen.

1. Multi-User-KI-Server: Lokale KI für das ganze Team

Ein einzelner Workstation-Setup reicht für eine Person — ein KMU mit 5-20 Wissensarbeitenden braucht einen zentralen Server. Dieses Modul zeigt dir den vollständigen Linux-Stack: Ollama als Modell-Runtime, OpenWebUI als Chat-Frontend, Caddy als Reverse-Proxy mit Auth, Hermes als lernender Agent darüber.

Ollama auf Linux / Server

systemd, Reverse-Proxy, OpenWebUI im LAN

Artikel lesen →

KI-Agent für KMU einrichten — 5 Schritte

Hermes Runtime + MCP-Server + Eskalations-Logik

Artikel lesen →

2. Workflows produktiv schalten: Die 5 KMU-Killer-Use-Cases

Diese fünf Workflows haben sich in echten KMU-Projekten als wirtschaftlich tragfähig erwiesen. Pro Workflow bekommst du den vollständigen n8n-Code, den getesteten Prompt, eine Architektur-Skizze und ehrliche Kosten-Schätzung. Sie sind so gebaut, dass jeder Workflow Mensch-Approval an kritischen Stellen einbaut.

Lead-Routing mit KI-Vorqualifizierung

n8n-Workflow: Webform → Claude → CRM + Slack

Artikel lesen →

E-Mail-Antwort-Entwürfe automatisch

IMAP → KI → Draft im Postfach

Artikel lesen →

Content-Pipeline mit KI als Co-Autor

Brief → Recherche → Outline → Draft → Ghost

Artikel lesen →

Beleg-Verarbeitung mit KI-Vision

PDF-Rechnung → DATEV / sevdesk / Paperless

Artikel lesen →

Wöchentlicher Marktreport automatisch

Plausible + GSC + RSS aggregiert + KI-synthetisiert

Artikel lesen →

Unsicher, ob das dein Level ist?

2-Minuten-Quiz

Finde dein KI-Level in 2 Minuten

5 Fragen → konkrete Lernpfad-Empfehlung → optional als Newsletter-Serie.

Häufige Fragen zu diesem Lernpfad

Welche Linux-Distribution empfehlt ihr für den Server?Ubuntu 24.04 LTS — gut unterstützt durch NVIDIA-Treiber, lange Wartungs-Periode, vertraute Toolchain. Debian 12 funktioniert ebenso, ist aber konservativer bei Kernel-Versionen, was bei sehr neuen GPUs zum Treiber-Problem werden kann.Reicht eine RTX 4090 für 10 gleichzeitige Nutzer?Für 8B-Modelle: ja, bei sequenzieller Nutzung sogar deutlich mehr. Für 70B-Modelle: nein — eine 4090 hat 24 GB VRAM, ein 70B-Modell braucht 40+ GB. Dann brauchst du 2× RTX 3090 oder eine RTX A6000.Wo speichere ich Tracking-Daten von n8n-Workflows DSGVO-konform?Self-hosted PostgreSQL oder MariaDB auf eigener Hardware. n8n unterstützt beides nativ. Wer Backup will: tägliches pg_dump in Restic-Repository, verschlüsselt zu S3 oder Hetzner Storage Box.Kann ich Mensch-Approval in einen n8n-Workflow einbauen?Ja, native: n8n hat einen "Wait"-Node, der auf Webhook oder manuelles Approval wartet. Im Lead-Routing-Workflow läuft das so: KI klassifiziert als HOT/WARM/COLD → bei HOT Slack-Nachricht mit zwei Buttons "Approve" / "Reject" → der Workflow wartet, bis ein Mensch klickt.Was kostet ein Production-Setup im Vollausbau?Hardware ab 3.500 € (Single GPU) bis 8.000 € (Multi-GPU oder Mac Studio Ultra). Strom + Wartung: 500-1.200 €/Jahr. Setup-Aufwand: 1-3 Tage je nach Komplexität. Bei 5+ aktiven Nutzern amortisiert sich das gegenüber ChatGPT Team in 6-12 Monaten.

Newsletter

1× pro Woche das KI-Lagebild

Tools, Tests, Modell-Releases und ein Workflow zum Mitnehmen. Auf Deutsch, anti-Hype, in 5 Minuten gelesen. Samstags um 09:00 Uhr. Kostenlos. 0 Spam. Abbestellung in 1 Klick.

Wir schicken dir eine Bestätigungs-Mail (Double-Opt-In). Server in Deutschland (Hetzner).

Häufige Fragen zu diesem Lernpfad

Welche Vorkenntnisse setzt dieser Pfad voraus?

Du solltest schon einmal mit ChatGPT, Claude oder einem ähnlichen Cloud-KI-Tool gearbeitet haben und die Grundbegriffe verstehen (Prompt, Token, Modell). Programmierkenntnisse sind nicht zwingend, aber Komfort mit Terminal und Config-Dateien hilft beim Ollama-Setup.

Brauche ich für lokale KI zwingend eine teure GPU?

Nein. Für 8B-Modelle (gute Allzweck-Modelle) reicht ein Mac Mini M4 Pro mit 64 GB für ca. 2.400 € — lautlos und alltagstauglich. Eine RTX 4090 lohnt sich erst, wenn Geschwindigkeit kritisch ist oder du parallel mehrere Anfragen bedienst.

Was bringt mir RAG gegenüber ChatGPT Custom GPTs?

RAG mit eigenen Daten bleibt 100 % bei dir — keine Daten verlassen den Rechner. Bei sensiblen Branchen (Anwälte, Steuerberatung, Medizin) ist das oft der ausschlaggebende Unterschied. Außerdem skaliert RAG auf zehntausende Dokumente, während Custom GPTs bei ~20 MB limitiert sind.

Wie viel Zeit muss ich für diesen Pfad einplanen?

Bei 1–2 Stunden pro Woche realistisch 6–8 Wochen, wenn du auch praktisch nachsetzt (Ollama installieren, ein RAG-System aufbauen, Hardware-Entscheidung treffen). Reine Lese-Zeit: ca. 4 Stunden.