Inferenz

KI-Grundlagen

Inferenz — Der Prozess, bei dem ein trainiertes Modell tatsächlich Antworten erzeugt.

Beispiel

Wenn du ChatGPT eine Frage stellst, läuft Inferenz. Das Training ist davor passiert.

Verwandt: LLM (Large Language Model) · GPU · Quantisierung

Mehr im Glossar

Alle Begriffe auf einen Blick →

Inferenz ist der Prozess, bei dem ein trainiertes KI-Modell aus neuen Eingabedaten eine Vorhersage oder Entscheidung ableitet – also der Moment, in dem die KI tatsächlich arbeitet.

In einfachen Worten

Stellen Sie sich vor, Sie haben einen Koch gelernt, der aus tausenden Rezepten weiß, wie man ein Omelett macht. Das Training war das Lernen aller Rezepte. Die Inferenz ist der Moment, in dem Sie ihm sagen: „Mach mir ein Omelett mit Käse und Pilzen“ – und er es tatsächlich zubereitet. Er wendet sein Wissen auf eine neue Situation an. Genauso nutzt ein KI-Modell während der Inferenz das, was es im Training gelernt hat, um auf eine konkrete Frage oder Eingabe zu reagieren. Ohne Inferenz bleibt das trainierte Modell nutzlos – es ist wie ein Koch, der nur Rezepte auswendig kann, aber nie kocht.

Was bedeutet das technisch

Technisch gesehen durchläuft ein KI-Modell während der Inferenz eine Reihe von mathematischen Berechnungen. Das Modell besteht aus vielen Schichten von Neuronen (künstlichen Recheneinheiten), die durch Gewichte verbunden sind. Diese Gewichte hat das Modell während des Trainings optimiert. Bei der Inferenz fließen die Eingabedaten (z. B. ein Bild oder ein Text) durch diese Schichten. Jede Schicht verarbeitet die Daten und reicht sie an die nächste weiter. Am Ende steht eine Ausgabe – etwa die Klassifizierung „Katze“ oder „Hund“ oder ein generierter Satz.

Der entscheidende Unterschied zum Training: Bei der Inferenz verändern sich die Gewichte nicht mehr. Das Modell ist fix. Es wendet nur noch das Gelernte an. Die Rechenleistung, die dafür nötig ist, hängt stark von der Modellgröße ab. Ein großes Sprachmodell mit hunderten Milliarden Parametern benötigt für eine einzige Inferenz (z. B. eine Textantwort) oft mehrere Sekunden auf spezieller Hardware wie Grafikprozessoren. Kleinere Modelle laufen dagegen auch auf einem normalen Bürorechner oder Smartphone in Millisekunden.

Warum es für KMU relevant ist

Für kleine und mittlere Unternehmen ist die Inferenz der eigentliche Kosten- und Leistungstreiber beim Einsatz von KI. Sie zahlen nicht für das Training (das meist einmalig und teuer ist), sondern für jede einzelne Inferenz. Das kann schnell ins Geld gehen, wenn Sie zum Beispiel einen Chatbot auf Ihrer Website betreiben, der tausende Anfragen pro Tag beantwortet. Jede Antwort ist eine Inferenz, die Rechenzeit und damit Geld kostet.

Konkrete Beispiele: Ein Handwerksbetrieb nutzt ein KI-Modell, um aus Fotos von Baustellen Schäden zu erkennen. Jedes hochgeladene Foto löst eine Inferenz aus. Ein Online-Shop setzt eine Produktsuche ein, die auf KI basiert – jede Suchanfrage ist eine Inferenz. Ein Steuerbüro verwendet ein Modell zur automatischen Rechnungserkennung: Jeder Scan ist eine Inferenz.

Das Risiko: Wenn Sie ein zu großes Modell wählen, zahlen Sie für jede Inferenz unnötig viel. Die Lösung: Wählen Sie ein Modell, das für Ihre Aufgabe genau genug ist, aber nicht überdimensioniert. Oder setzen Sie auf lokale Inferenz (auf Ihrem eigenen Server), statt auf Cloud-Dienste, wenn die Anzahl der Anfragen hoch ist. Achten Sie auch auf die Latenz – bei Echtzeitanwendungen wie einer Chat-Antwort darf die Inferenz nicht zu lange dauern.

Verwandte Begriffe

Training – Der vorgelagerte Prozess, bei dem das Modell lernt, bevor es zur Inferenz kommt.

Modell – Das trainierte System, das die Inferenz durchführt.

Parameter – Die Gewichte im Modell, die während des Trainings optimiert werden und die Inferenz bestimmen.

Latenz – Die Zeit, die eine einzelne Inferenz benötigt – entscheidend für Echtzeitanwendungen.

Quantisierung – Eine Technik, um Modelle zu verkleinern und die Inferenz schneller und günstiger zu machen.