Gemini 2.0 Flash
Google · 200 Mrd. Parameter · proprietary
Googles Flash-Modell mit 1M-Token-Kontext.
Lizenz: proprietary. Proprietäres Modell — nicht lokal lauffähig, nur über die Hersteller-API. Das macht Gemini 2.0 Flash besonders interessant für spezifische Workloads über die Anbieter-API — lokales Hosten ist nicht vorgesehen.
Gemini 2.0 Flash ist ein 200-Mrd.-Parameter-Schwergewicht. Q4_K_M braucht etwa 43 GB VRAM — eine einzelne Consumer-GPU reicht nicht. RTX 6000 Ada (48 GB), zwei RTX 4090 mit Tensor-Parallelism oder ein Apple Mac Studio M3 Ultra mit 96+ GB Unified Memory sind die realistischen Optionen.
Mit 977k Tokens Kontext (~733k Wörter) eignet sich Gemini 2.0 Flash für lange Texte, Multi-Dokument-RAG und umfangreiche System-Prompts ohne Chunking-Overhead.
Deutsch-Qualität: gut. Solide deutsche Ausgabe für die meisten produktiven Use-Cases — gelegentlich englische Phrasen oder leichte Holprigkeiten, aber überzeugend.
Als proprietäres Closed-Source-Modell ist Gemini 2.0 Flash ausschließlich über die Hersteller-API verfügbar — Gewichte können nicht heruntergeladen, quantisiert oder auf eigener Hardware ausgeführt werden. Vergleiche stattdessen die Cloud-Preise unten, oder schau dir offene Modelle in vergleichbarer Größe an.
