Llama
Lokale KI & Self-Hosting
Llama — Metas offene Modell-Familie — Grundlage für viele lokale Setups.
Beispiel
Llama 3.3 70B ist 2026 oft die Standard-Empfehlung für mittlere bis große lokale Setups.
Verwandt: Mistral · Qwen · Open Source / Open Weights
Mehr im Glossar
Llama ist eine Familie von quelloffenen, großen Sprachmodellen (Large Language Models, LLMs), die Meta entwickelt hat und die Unternehmen selbst betreiben oder anpassen können.
In einfachen Worten
Stellen Sie sich Llama wie einen Baukasten für KI-Assistenten vor. Anders als bei ChatGPT, wo Sie nur die fertige Lösung nutzen können, gibt Ihnen Llama die Baupläne und das Grundmaterial. Sie können damit Ihr eigenes KI-Modell bauen, das genau auf Ihre Firma zugeschnitten ist. Wenn Sie zum Beispiel ein Modell brauchen, das nur Ihre Produktdatenbank kennt und keine allgemeinen Fragen beantwortet, können Sie Llama mit Ihren Daten trainieren. Das ist so, als würden Sie einen Mitarbeiter einstellen, der nur Ihr Firmenhandbuch gelesen hat – er wird keine Fehler machen, weil er nichts anderes weiß.
Was bedeutet das technisch
Llama (Large Language Model Meta AI) ist eine Familie von Transformer-basierten neuronalen Netzen. Meta veröffentlicht die Modelle unter einer offenen Lizenz (teilweise für Forschung, teilweise kommerziell nutzbar). Die Modelle gibt es in verschiedenen Größen, von 7 Milliarden Parametern (läuft auf einem einzelnen Grafikprozessor) bis zu 405 Milliarden Parametern (benötigt mehrere Server).
Technisch zeichnet sich Llama durch eine effiziente Architektur aus. Die Modelle verwenden eine sogenannte "Grouped-Query Attention", die den Speicherverbrauch senkt. Das bedeutet: Llama kann lange Texte verarbeiten, ohne dass der Arbeitsspeicher explodiert. Die neueste Version Llama 3.1 verarbeitet Kontextfenster von 128.000 Tokens – das entspricht etwa 100 Seiten Text. Anders als geschlossene Modelle wie GPT-4 können Sie Llama auf Ihren eigenen Servern betreiben. Sie müssen keine Daten an Dritte senden. Das ist für viele KMU der entscheidende Vorteil.
Die Modelle sind vortrainiert auf riesigen Textmengen aus dem Internet (ca. 15 Billionen Tokens). Sie können sie dann mit Ihren eigenen Daten nachtrainieren (Feintuning). Dazu brauchen Sie keine KI-Experten – es gibt Tools, die das vereinfachen. Allerdings benötigen Sie für das Feintuning eines 7-Milliarden-Modells mindestens eine Grafikkarte mit 24 GB Speicher (z.B. eine NVIDIA RTX 4090). Für größere Modelle brauchen Sie mehrere Karten oder Cloud-Dienste.
Warum es für KMU relevant ist
Llama ist für KMU vor allem aus drei Gründen interessant: Kostenkontrolle, Datenschutz und Anpassbarkeit.
Kostenkontrolle: Anders als bei Cloud-APIs zahlen Sie nicht pro Anfrage. Sie kaufen einmal die Hardware oder mieten sie in der Cloud. Wenn Ihr Unternehmen täglich tausende KI-Anfragen verarbeitet, kann das günstiger sein als ein API-Abo. Ein Beispiel: Ein mittelständischer Maschinenbauer nutzt Llama 3.1 (8B) auf einem Server mit zwei Grafikkarten für etwa 15.000 Euro einmalig. Damit beantwortet er täglich 10.000 Kundenanfragen. Ein Cloud-API würde dafür monatlich mehrere tausend Euro kosten.
Datenschutz: Sie senden keine sensiblen Daten an externe Server. Ein Steuerberater kann Llama auf einem lokalen Rechner betreiben und damit Kundenakten analysieren, ohne die Daten aus dem Haus zu geben. Das ist DSGVO-konform, weil keine Daten Dritte erreichen.
Anpassbarkeit: Sie können Llama auf Ihre Branche zuschneiden. Ein Logistikunternehmen kann das Modell mit Frachtpapieren und Zollvorschriften trainieren. Das Modell versteht dann Fachbegriffe und interne Abkürzungen, die allgemeine Modelle nicht kennen. Der Aufwand dafür ist überschaubar: Für ein Feintuning mit 1.000 Beispieldokumenten brauchen Sie etwa 2-3 Stunden Rechenzeit auf einer einzelnen Grafikkarte.
Risiken: Llama ist kein fertiges Produkt. Sie brauchen technisches Know-how für Installation und Betrieb. Die Modelle können Fehler machen (Halluzinationen) und benötigen eine sorgfältige Absicherung. Außerdem ändert Meta die Lizenzbedingungen gelegentlich – prüfen Sie vor dem Einsatz die aktuelle Lizenz für Ihren Anwendungsfall.
Verwandte Begriffe
Großes Sprachmodell (LLM)
Feintuning
Kontextfenster
Open-Source-KI
Halluzination
Kommentare ()