Stable Diffusion

Tools & Plattformen

Stable Diffusion — Offener Bildgenerator — lokal auf eigener Hardware lauffähig.

Beispiel

Wer Bildgenerierung lokal betreiben will, nutzt Stable Diffusion oder Flux mit ComfyUI/Automatic1111.

Verwandt: Midjourney · Lokale KI · GPU

Mehr im Glossar

Alle Begriffe auf einen Blick →

Stable Diffusion ist ein frei verfügbares Modell der Künstlichen Intelligenz, das aus Textbeschreibungen Bilder erzeugt.

In einfachen Worten

Stellen Sie sich einen sehr talentierten Zeichner vor, der nie müde wird. Sie geben ihm eine Beschreibung, zum Beispiel „ein rotes Auto vor einem Bergsee bei Sonnenuntergang“. Der Zeichner erstellt dann ein Bild dazu. Stable Diffusion funktioniert genau so, nur dass es ein Computerprogramm ist. Das Besondere: Anders als viele andere Programme dieser Art ist Stable Diffusion offen und kostenlos nutzbar. Jeder kann es herunterladen und auf dem eigenen Rechner ausführen. Das Programm lernte aus Millionen von Bildern aus dem Internet, wie Objekte, Menschen und Landschaften aussehen. Es hat keine eigene Vorstellungskraft, sondern kombiniert Gelerntes zu neuen Bildern.

Was bedeutet das technisch

Stable Diffusion ist ein sogenanntes latentes Diffusionsmodell. Das klingt kompliziert, meint aber einen klaren Prozess: Das Modell startet mit einem Bild aus reinem Rauschen – ähnlich dem Schneeflocken-Gewimmel auf einem alten Fernseher. Dann entfernt es Schritt für Schritt dieses Rauschen, bis ein klares Bild entsteht. Dabei folgt es der Textbeschreibung, die Sie eingegeben haben.

Das Modell arbeitet nicht mit den Pixeln direkt, sondern mit einer komprimierten Darstellung – dem „latenten Raum“. Das spart Rechenleistung und Speicher. Ein typisches Modell hat etwa 860 Millionen Parameter. Zum Vergleich: Große Sprachmodelle wie GPT-4 haben hunderte Milliarden Parameter. Stable Diffusion ist also vergleichsweise schlank. Sie können es auf handelsüblichen Grafikkarten mit 8 Gigabyte Arbeitsspeicher betreiben. Die Bildgenerierung dauert je nach Hardware zwischen zwei und dreißig Sekunden.

Das Modell versteht die Textbeschreibung über einen sogenannten Text-Encoder. Dieser wandelt Ihre Worte in Zahlen um, die das Modell verarbeiten kann. Je genauer Ihre Beschreibung, desto besser das Ergebnis. Ein Prompt wie „ein rotes Auto“ liefert andere Ergebnisse als „ein rotes Cabrio, 1960er Jahre, vor einem Bergsee, Ölgemälde-Stil“.

Warum es für KMU relevant ist

Stable Diffusion eröffnet kleine und mittlere Unternehmen neue Möglichkeiten in der Bildgestaltung, ohne dass Sie teure Grafiksoftware oder Agenturen beauftragen müssen. Konkrete Anwendungsfälle:

Produktfotografie: Sie können Produkte in verschiedenen Umgebungen zeigen, ohne jedes Mal ein Studio aufzubauen. Ein Möbelhaus generiert Bilder eines Sessels in verschiedenen Wohnzimmern. Ein Online-Shop zeigt Kleidungsstücke an unterschiedlichen Models oder in verschiedenen Farben.

Marketing und Social Media: Sie erstellen schnell Bilder für Beiträge, Banner oder Anzeigen. Ein Bäcker generiert ein Bild von „frischen Croissants auf einem Holztisch mit Morgenlicht“ für den Instagram-Post. Ein Handwerksbetrieb visualisiert „eine moderne Küche mit Eichenfronten und Granit-Arbeitsplatte“ für die Website.

Kostenvorteile: Da Stable Diffusion kostenlos ist, fallen nur die Kosten für die Hardware an. Ein leistungsfähiger Rechner mit einer Mittelklasse-Grafikkarte kostet etwa 1.500 bis 2.500 Euro. Damit erstellen Sie unbegrenzt viele Bilder. Bei Agenturen oder Stockfoto-Plattformen zahlen Sie pro Bild schnell 10 bis 100 Euro.

Risiken: Stable Diffusion kopiert keine bestehenden Bilder, aber es kann Ähnlichkeiten zu urheberrechtlich geschützten Werken aufweisen. Verwenden Sie die Bilder nicht für Produkte, die Sie verkaufen, ohne rechtliche Prüfung. Zudem benötigt das Modell eine gute Textbeschreibung. Ohne Übung liefern Sie oft unbrauchbare Ergebnisse. Planen Sie Zeit für das Erlernen der Prompt-Formulierung ein.

Verwandte Begriffe

Prompt Engineering – Die Kunst, gute Textbeschreibungen für KI-Modelle zu formulieren.

Diffusionsmodelle – Die technische Grundlage, auf der Stable Diffusion aufbaut.

Latente Vektoren – Die komprimierte Darstellung von Bildern im Modell.

KI-Bildgenerierung – Der Oberbegriff für alle Verfahren, die Bilder mit Künstlicher Intelligenz erzeugen.

Open-Source-KI – Frei verfügbare KI-Modelle wie Stable Diffusion, die Sie selbst betreiben können.