Was ist Inferenz in der KI?

Inferenz bezeichnet den Schritt, bei dem ein trainiertes neuronales Netzwerk auf neue Daten angewendet wird, um Vorhersagen zu treffen. Anders als das Training, bei dem Gewichte angepasst werden, bleibt das Modell während der Inferenz unverändert.

Wie unterscheidet sich Inferenz vom Training?

Training erfordert große Datenmengen und viel Rechenleistung, um Modellparameter zu optimieren. Inferenz nutzt das fertige Modell, um schnell Ergebnisse zu liefern – oft in Millisekunden.

Warum ist Inferenz wichtig?

Inferenz ist der eigentliche Nutzen eines KI-Modells: Es ermöglicht Echtzeit-Anwendungen wie Sprachassistenten, Bilderkennung oder Empfehlungssysteme. Ohne Inferenz bliebe das Modell nur eine trainierte Gewichtssammlung.

Welche Hardware wird für Inferenz benötigt?

Inferenz kann auf CPUs, GPUs oder speziellen KI-Beschleunigern wie TPUs laufen. Oft reichen handelsübliche Prozessoren, bei großen Modellen werden jedoch Grafikprozessoren empfohlen.

Glossar

Inferenz

Auf einen Blick

Inferenz ist der Prozess, bei dem ein trainiertes KI-Modell auf Basis neuer Eingaben Vorhersagen oder Antworten generiert. Dabei werden die während des Trainings erlernten Muster angewendet, ohne dass das Modell weiter lernt. Inferenz ist der eigentliche Anwendungsfall eines KI-Modells.

Kategorie	KI-Grundlagen
Lesezeit	5 Min
Zielgruppe	Einsteiger und Interessierte
Schwierigkeit	Einsteiger
Stand	2026-05
Quellen	Fachartikel

KI-Grundlagen

Inferenz — Der Prozess, bei dem ein trainiertes Modell tatsächlich Antworten erzeugt.

Beispiel

Wenn du ChatGPT eine Frage stellst, läuft Inferenz. Das Training ist davor passiert.

Verwandt: LLM (Large Language Model) · GPU · Quantisierung

Mehr im Glossar

Alle Begriffe auf einen Blick →

Inferenz ist der Prozess, bei dem ein trainiertes KI-Modell aus neuen Eingabedaten eine Vorhersage oder Entscheidung ableitet – also der Moment, in dem die KI tatsächlich arbeitet.

In einfachen Worten

Stellen Sie sich vor, Sie haben einen Koch gelernt, der aus tausenden Rezepten weiß, wie man ein Omelett macht. Das Training war das Lernen aller Rezepte. Die Inferenz ist der Moment, in dem Sie ihm sagen: „Mach mir ein Omelett mit Käse und Pilzen“ – und er es tatsächlich zubereitet. Er wendet sein Wissen auf eine neue Situation an. Genauso nutzt ein KI-Modell während der Inferenz das, was es im Training gelernt hat, um auf eine konkrete Frage oder Eingabe zu reagieren. Ohne Inferenz bleibt das trainierte Modell nutzlos – es ist wie ein Koch, der nur Rezepte auswendig kann, aber nie kocht.

Was bedeutet das technisch

Technisch gesehen durchläuft ein KI-Modell während der Inferenz eine Reihe von mathematischen Berechnungen. Das Modell besteht aus vielen Schichten von Neuronen (künstlichen Recheneinheiten), die durch Gewichte verbunden sind. Diese Gewichte hat das Modell während des Trainings optimiert. Bei der Inferenz fließen die Eingabedaten (z. B. ein Bild oder ein Text) durch diese Schichten. Jede Schicht verarbeitet die Daten und reicht sie an die nächste weiter. Am Ende steht eine Ausgabe – etwa die Klassifizierung „Katze“ oder „Hund“ oder ein generierter Satz.

Der entscheidende Unterschied zum Training: Bei der Inferenz verändern sich die Gewichte nicht mehr. Das Modell ist fix. Es wendet nur noch das Gelernte an. Die Rechenleistung, die dafür nötig ist, hängt stark von der Modellgröße ab. Ein großes Sprachmodell mit hunderten Milliarden Parametern benötigt für eine einzige Inferenz (z. B. eine Textantwort) oft mehrere Sekunden auf spezieller Hardware wie Grafikprozessoren. Kleinere Modelle laufen dagegen auch auf einem normalen Bürorechner oder Smartphone in Millisekunden.

Warum es für KMU relevant ist

Für kleine und mittlere Unternehmen ist die Inferenz der eigentliche Kosten- und Leistungstreiber beim Einsatz von KI. Sie zahlen nicht für das Training (das meist einmalig und teuer ist), sondern für jede einzelne Inferenz. Das kann schnell ins Geld gehen, wenn Sie zum Beispiel einen Chatbot auf Ihrer Website betreiben, der tausende Anfragen pro Tag beantwortet. Jede Antwort ist eine Inferenz, die Rechenzeit und damit Geld kostet.

Konkrete Beispiele: Ein Handwerksbetrieb nutzt ein KI-Modell, um aus Fotos von Baustellen Schäden zu erkennen. Jedes hochgeladene Foto löst eine Inferenz aus. Ein Online-Shop setzt eine Produktsuche ein, die auf KI basiert – jede Suchanfrage ist eine Inferenz. Ein Steuerbüro verwendet ein Modell zur automatischen Rechnungserkennung: Jeder Scan ist eine Inferenz.

Das Risiko: Wenn Sie ein zu großes Modell wählen, zahlen Sie für jede Inferenz unnötig viel. Die Lösung: Wählen Sie ein Modell, das für Ihre Aufgabe genau genug ist, aber nicht überdimensioniert. Oder setzen Sie auf lokale Inferenz (auf Ihrem eigenen Server), statt auf Cloud-Dienste, wenn die Anzahl der Anfragen hoch ist. Achten Sie auch auf die Latenz – bei Echtzeitanwendungen wie einer Chat-Antwort darf die Inferenz nicht zu lange dauern.

Häufige Fragen

Was ist der Unterschied zwischen Training und Inferenz?

Beim Training lernt das Modell aus Daten, indem es Gewichte anpasst. Bei der Inferenz wendet das trainierte Modell diese Gewichte auf neue Daten an, um Ergebnisse zu liefern, ohne dass es sich verändert.

Warum ist Inferenz rechenintensiv?

Inferenz erfordert viele Matrixmultiplikationen und Aktivierungsfunktionen, besonders bei großen Modellen. Optimierungen wie Quantisierung oder spezielle Hardware können die Geschwindigkeit erhöhen.

Kann ein Modell während der Inferenz lernen?

Nein, standardmäßig nicht. Es gibt jedoch Verfahren wie Few-Shot Learning oder Online Learning, bei denen das Modell während der Inferenz angepasst wird, aber das ist nicht der Regelfall.

Welche Rolle spielt Inferenz in der Praxis?

Inferenz ist der Schritt, in dem KI nutzbar wird, z.B. bei Chatbots, Bilderkennung oder Übersetzungen. Die Effizienz der Inferenz bestimmt oft die Benutzererfahrung.

Zuletzt aktualisiert: 2026-06-01 · Autor: Florian Neuhuber

Inferenz

Beispiel

In einfachen Worten

Was bedeutet das technisch

Warum es für KMU relevant ist

Verwandte Begriffe

Häufige Fragen

Was ist der Unterschied zwischen Training und Inferenz?

Warum ist Inferenz rechenintensiv?

Kann ein Modell während der Inferenz lernen?

Welche Rolle spielt Inferenz in der Praxis?

Lies auch

SPF (Sender Policy Framework)

SMTP (Simple Mail Transfer Protocol)

DKIM (DomainKeys Identified Mail)

Kommentare ()

Beispiel

In einfachen Worten

Was bedeutet das technisch

Warum es für KMU relevant ist

Verwandte Begriffe

Häufige Fragen

Was ist der Unterschied zwischen Training und Inferenz?

Warum ist Inferenz rechenintensiv?

Kann ein Modell während der Inferenz lernen?

Welche Rolle spielt Inferenz in der Praxis?

Lies auch

Kommentare ( )

Kommentare ()