GGUF
Lokale KI & Self-Hosting
GGUF — Dateiformat für quantisierte Modelle — der Standard für Ollama, LM Studio und Co.
Beispiel
Llama-3.3-70B-Q4_K_M.gguf — das ist ein 70-Milliarden-Parameter-Modell, auf 4-Bit-Genauigkeit komprimiert.
Verwandt: Quantisierung · Ollama
Mehr im Glossar
GGUF (GPT-Generated Unified Format) ist ein Dateiformat, das große KI-Sprachmodelle effizient speichert und den Betrieb auf handelsüblicher Hardware ermöglicht.
In einfachen Worten
Stellen Sie sich ein KI-Modell wie ein riesiges, unhandliches Handbuch vor. Im Originalformat (etwa als PyTorch-Modell) ist dieses Handbuch so groß und schwer, dass Sie einen ganzen Serverraum brauchen, um es zu öffnen. GGUF ist wie eine spezielle, komprimierte Taschenbuchausgabe dieses Handbuchs. Es behält alle wichtigen Informationen, braucht aber nur einen Bruchteil des Platzes. Statt eines Rechenzentrums reicht ein normaler Desktop-PC oder Laptop, um das Modell auszuführen. Das Format kümmert sich darum, die Zahlen im Modell so zu verpacken, dass sie weniger Speicher fressen und schneller verarbeitet werden können.
Was bedeutet das technisch
GGUF ist ein binäres Dateiformat, das speziell für die Ausführung großer Sprachmodelle (LLMs) auf CPUs und begrenzter Hardware entwickelt wurde. Es löst das ältere GGML-Format ab. Der Kern von GGUF ist die Kombination aus Quantisierung und einem optimierten Speicherlayout.
Quantisierung reduziert die Genauigkeit der Modellgewichte. Ein typisches KI-Modell speichert Gewichte als 32-Bit-Gleitkommazahlen (float32). GGUF kann diese auf 8 Bit, 4 Bit oder sogar 2 Bit herunterbrechen. Das verkleinert die Dateigröße drastisch – ein 7-Milliarden-Parameter-Modell schrumpft von etwa 28 Gigabyte auf 4 bis 7 Gigabyte. Der Nachteil: Die Genauigkeit sinkt leicht. In der Praxis merken Nutzer bei 4-Bit-Quantisierung kaum einen Unterschied, während die Geschwindigkeit auf handelsüblicher Hardware massiv steigt.
Das Format enthält zudem Metadaten wie die Modellarchitektur, Tokenizer-Informationen und Hyperparameter. Das vereinfacht die Handhabung: Eine einzige GGUF-Datei enthält alles, was eine Inferenz-Engine wie llama.cpp braucht, um das Modell zu laden und auszuführen. Anders als bei anderen Formaten müssen Sie keine separaten Konfigurationsdateien oder Tokenizer-Dateien mitliefern.
Warum es für KMU relevant ist
GGUF senkt die Einstiegshürde für den Einsatz von KI-Sprachmodellen massiv. Ein KMU muss keine teuren GPU-Server in der Cloud mieten oder eigene Rechenzentren betreiben. Stattdessen läuft ein quantisiertes Modell auf einem handelsüblichen Bürorechner mit 16 oder 32 Gigabyte RAM. Das spart Kosten und schützt sensible Daten, da alles lokal verarbeitet wird.
Konkrete Anwendungsfälle: Ein Steuerberater nutzt ein lokal laufendes Modell in GGUF, um vertrauliche Mandantendaten zu analysieren, ohne sie an einen Cloud-Dienst zu senden. Ein mittelständischer Hersteller setzt ein Modell auf einem Laptop ein, um Wartungsprotokolle zu durchsuchen und Fehlermeldungen zu interpretieren. Ein Online-Shop betreibt einen KI-Chat auf einem einfachen Server, der Kundenanfragen beantwortet – ohne monatliche API-Kosten.
Das Risiko liegt in der Qualität: Stark quantisierte Modelle (2 Bit) können ungenaue oder sinnlose Antworten liefern. Für KMU empfiehlt sich 4-Bit-Quantisierung als guter Kompromiss zwischen Geschwindigkeit und Genauigkeit. Zudem erfordert GGUF spezielle Software wie llama.cpp oder LM Studio, um die Modelle auszuführen – das ist aber in der Regel einfach zu installieren und zu bedienen.
Verwandte Begriffe
Quantisierung – die Technik, die GGUF erst möglich macht
llama.cpp – die wichtigste Software zum Ausführen von GGUF-Modellen
Sprachmodell – die KI, die in GGUF gespeichert wird
Lokale KI – der Betrieb von KI auf eigener Hardware, den GGUF ermöglicht
Inferenz – der Vorgang, bei dem das Modell eine Antwort berechnet
Kommentare ()