Was ist der Unterschied zwischen GGUF und GGML?

GGUF ist der Nachfolger von GGML und bietet eine flexiblere, erweiterbare Struktur. GGUF unterstützt neuere Quantisierungsmethoden und ist besser für moderne Modelle geeignet.

Kann ich GGUF-Modelle auf meinem Laptop ausführen?

Ja, GGUF-Modelle sind speziell für lokale Ausführung optimiert. Mit einem Laptop mit 8 GB RAM lassen sich kleinere Modelle (z.B. 7B Parameter) flüssig betreiben.

Welche Tools unterstützen GGUF?

Ollama, LM Studio, llama.cpp und viele andere lokale KI-Tools unterstützen GGUF. Es ist der De-facto-Standard für quantisierte Modelle.

Wie quantisiere ich ein Modell in GGUF?

Mit llama.cpp oder dem Tool 'convert.py' können Modelle in GGUF konvertiert werden. Dabei wählt man eine Quantisierungsstufe (z.B. Q4_K_M) für das gewünschte Verhältnis von Leistung zu Speicher.

Glossar

GGUF

Auf einen Blick

GGUF ist ein Dateiformat zur Speicherung quantisierter KI-Modelle, das sich als Standard für lokale Inferenz etabliert hat. Es wird von Tools wie Ollama und LM Studio unterstützt und ermöglicht effizientes Self-Hosting.

Kategorie	Technologie
Lesezeit	8 Min
Zielgruppe	KI-Entwickler und Self-Hosting-Enthusiasten
Schwierigkeit	Fortgeschritten
Stand	2026-05
Quellen	Dokumentation und Community-Ressourcen

Lokale KI & Self-Hosting

GGUF — Dateiformat für quantisierte Modelle — der Standard für Ollama, LM Studio und Co.

Beispiel

Llama-3.3-70B-Q4_K_M.gguf — das ist ein 70-Milliarden-Parameter-Modell, auf 4-Bit-Genauigkeit komprimiert.

Verwandt: Quantisierung · Ollama

Mehr im Glossar

Alle Begriffe auf einen Blick →

GGUF (GPT-Generated Unified Format) ist ein Dateiformat, das große KI-Sprachmodelle effizient speichert und den Betrieb auf handelsüblicher Hardware ermöglicht.

In einfachen Worten

Stellen Sie sich ein KI-Modell wie ein riesiges, unhandliches Handbuch vor. Im Originalformat (etwa als PyTorch-Modell) ist dieses Handbuch so groß und schwer, dass Sie einen ganzen Serverraum brauchen, um es zu öffnen. GGUF ist wie eine spezielle, komprimierte Taschenbuchausgabe dieses Handbuchs. Es behält alle wichtigen Informationen, braucht aber nur einen Bruchteil des Platzes. Statt eines Rechenzentrums reicht ein normaler Desktop-PC oder Laptop, um das Modell auszuführen. Das Format kümmert sich darum, die Zahlen im Modell so zu verpacken, dass sie weniger Speicher fressen und schneller verarbeitet werden können.

Was bedeutet das technisch

GGUF ist ein binäres Dateiformat, das speziell für die Ausführung großer Sprachmodelle (LLMs) auf CPUs und begrenzter Hardware entwickelt wurde. Es löst das ältere GGML-Format ab. Der Kern von GGUF ist die Kombination aus Quantisierung und einem optimierten Speicherlayout.

Quantisierung reduziert die Genauigkeit der Modellgewichte. Ein typisches KI-Modell speichert Gewichte als 32-Bit-Gleitkommazahlen (float32). GGUF kann diese auf 8 Bit, 4 Bit oder sogar 2 Bit herunterbrechen. Das verkleinert die Dateigröße drastisch – ein 7-Milliarden-Parameter-Modell schrumpft von etwa 28 Gigabyte auf 4 bis 7 Gigabyte. Der Nachteil: Die Genauigkeit sinkt leicht. In der Praxis merken Nutzer bei 4-Bit-Quantisierung kaum einen Unterschied, während die Geschwindigkeit auf handelsüblicher Hardware massiv steigt.

Das Format enthält zudem Metadaten wie die Modellarchitektur, Tokenizer-Informationen und Hyperparameter. Das vereinfacht die Handhabung: Eine einzige GGUF-Datei enthält alles, was eine Inferenz-Engine wie llama.cpp braucht, um das Modell zu laden und auszuführen. Anders als bei anderen Formaten müssen Sie keine separaten Konfigurationsdateien oder Tokenizer-Dateien mitliefern.

Warum es für KMU relevant ist

GGUF senkt die Einstiegshürde für den Einsatz von KI-Sprachmodellen massiv. Ein KMU muss keine teuren GPU-Server in der Cloud mieten oder eigene Rechenzentren betreiben. Stattdessen läuft ein quantisiertes Modell auf einem handelsüblichen Bürorechner mit 16 oder 32 Gigabyte RAM. Das spart Kosten und schützt sensible Daten, da alles lokal verarbeitet wird.

Konkrete Anwendungsfälle: Ein Steuerberater nutzt ein lokal laufendes Modell in GGUF, um vertrauliche Mandantendaten zu analysieren, ohne sie an einen Cloud-Dienst zu senden. Ein mittelständischer Hersteller setzt ein Modell auf einem Laptop ein, um Wartungsprotokolle zu durchsuchen und Fehlermeldungen zu interpretieren. Ein Online-Shop betreibt einen KI-Chat auf einem einfachen Server, der Kundenanfragen beantwortet – ohne monatliche API-Kosten.

Das Risiko liegt in der Qualität: Stark quantisierte Modelle (2 Bit) können ungenaue oder sinnlose Antworten liefern. Für KMU empfiehlt sich 4-Bit-Quantisierung als guter Kompromiss zwischen Geschwindigkeit und Genauigkeit. Zudem erfordert GGUF spezielle Software wie llama.cpp oder LM Studio, um die Modelle auszuführen – das ist aber in der Regel einfach zu installieren und zu bedienen.

Häufige Fragen

Was bedeutet GGUF?

GGUF steht für GPT-Generated Unified Format. Es ist ein Dateiformat, das speziell für quantisierte Modelle entwickelt wurde, um Speicherplatz zu sparen und die Inferenzgeschwindigkeit zu erhöhen.

Welche Vorteile bietet GGUF gegenüber anderen Formaten?

GGUF vereinfacht die Handhabung von Modellen, da es Metadaten und Tokenizer direkt in der Datei speichert. Es ist optimiert für CPU-Inferenz und wird von vielen lokalen KI-Tools wie Ollama und LM Studio unterstützt.

Wie kann ich ein Modell in GGUF konvertieren?

Die Konvertierung erfolgt meist mit dem Tool llama.cpp. Dazu lädt man das Originalmodell (z.B. im Hugging-Face-Format) und führt ein Skript aus, das die Quantisierung und Umwandlung in GGUF vornimmt.

Ist GGUF nur für Llama-Modelle geeignet?

Nein, GGUF unterstützt viele Architekturen wie Llama, Mistral, Falcon und andere. Es ist ein generisches Format, das von der llama.cpp-Bibliothek verarbeitet wird.

Zuletzt aktualisiert: 2026-06-01 · Autor: Florian Neuhuber

GGUF

Beispiel

In einfachen Worten

Was bedeutet das technisch

Warum es für KMU relevant ist

Verwandte Begriffe

Häufige Fragen

Was bedeutet GGUF?

Welche Vorteile bietet GGUF gegenüber anderen Formaten?

Wie kann ich ein Modell in GGUF konvertieren?

Ist GGUF nur für Llama-Modelle geeignet?

Lies auch

SPF (Sender Policy Framework)

SMTP (Simple Mail Transfer Protocol)

DKIM (DomainKeys Identified Mail)

Kommentare ()

Beispiel

In einfachen Worten

Was bedeutet das technisch

Warum es für KMU relevant ist

Verwandte Begriffe

Häufige Fragen

Was bedeutet GGUF?

Welche Vorteile bietet GGUF gegenüber anderen Formaten?

Wie kann ich ein Modell in GGUF konvertieren?

Ist GGUF nur für Llama-Modelle geeignet?

Lies auch

Kommentare ( )

Kommentare ()