Grösser ist nicht besser: Wie ein 9-GB-Modell 120 Milliarden Parameter geschlagen hat
Alle in der KI-Branche gehen davon aus, dass grösser besser bedeutet. Mehr Parameter, mehr Fähigkeit, Ende der Diskussion. Ich habe gerade empirische Benchmarks laufen lassen, die beweisen, dass das gefährlich falsch ist — zumindest auf Consumer-Hardware.
Das Setup
17 lokale LLMs auf einer einzigen Maschine (AMD Ryzen AI Max+ 395, 128 GB Unified Memory, Vulkan GPU via llama-server). Keine Cloud. Keine API-Calls. Alles lokal.
Ich habe eine Testsuite mit 13 Dimensionen gebaut: Reasoning, Coding, Mathematik, kreatives Schreiben, Zusammenfassung, Instruction Following, Tool Use, Mehrsprachigkeit, langer Kontext, strukturierter Output, Safety, faktische Genauigkeit und Task-Dekomposition. Drei Schwierigkeitsgrade pro Dimension — einfach, mittel und schwer. 39 Tests pro Modell.
Die schweren Tests waren keine Softbälle. Fakten-Schnittmengen-Zusammenfassung (identifiziere NUR Behauptungen, die in beiden Passagen vorkommen). Bedingte Mehrstufen-Tool-Calls mit Verzweigungslogik. Deutsche Fehlererkennung, die kulturelles Wissen erfordert. Banktransaktionsmathematik über 15 Einträge mit 5 abgeleiteten Fragen. Die Art von Aufgaben, die echte Fähigkeit von Pattern Matching trennt.
Die Ergebnisse, die mein Hirn gesprengt haben
| Rang | Modell | Score | Speed | Grösse |
|---|---|---|---|---|
| 🥇 | cogito:14b | 0.892 | 52 tok/s | 9 GB |
| 🥈 | cogito:8b | 0.846 | 58 tok/s | 5 GB |
| 🥉 | phi4-mini | 0.808 | 78 tok/s | 2,5 GB |
| 4 | cogito:32b | 0.804 | 40 tok/s | 19 GB |
| 5 | gemma3:4b | 0.785 | 88 tok/s | 3,3 GB |
| … | … | … | … | … |
| 9 | gpt-oss:120b | 0.758 | 87 tok/s | 65 GB |
| … | … | … | … | … |
| 17 | qwen3-coder:30b | 0.200 | 35 tok/s | 18 GB |
Lies das nochmal. Ein 9-GB-Modell hat höher gescored als ein 120-Milliarden-Parameter-Modell, das 65 GB Speicher braucht. Und der angebliche «Coding-Spezialist» mit 30B kam als Letzter.
Die V1-Lüge
Was das interessant macht: Ich habe die Testsuite zweimal laufen lassen. Die erste Version (V1) hatte leichtere Hard-Tests — 75%+ Bestehensrate bei den meisten Dimensionen. Unter V1 war qwen3-coder:30b die Nummer 1 mit 0.904. gpt-oss:120b teilte sich Platz 3.
Als ich die Hard-Tests umschrieb, um echt anspruchsvoll zu sein, brach das Ranking zusammen:
| Modell | V1 Score | V2 Score | Änderung |
|---|---|---|---|
| qwen3-coder:30b | 0.904 | 0.200 | -0.704 |
| cogito:70b | 0.562 | 0.296 | -0.266 |
| gpt-oss:120b | 0.877 | 0.758 | -0.119 |
| cogito:14b | 0.858 | 0.892 | +0.034 |
| phi4-mini | 0.831 | 0.808 | -0.023 |
Die Modelle, die bei einfachen Tests brillant aussahen, sind bei schweren zusammengebrochen. Die Modelle, die wirklich fähig waren, haben sich kaum bewegt.
Das ist eine Warnung zu jedem öffentlichen Benchmark, den du je gelesen hast. Wenn der Test nicht schwer genug ist, um zu differenzieren, ist die Rangliste Rauschen.
Warum grössere Modelle auf Consumer-Hardware versagen
Es gibt einen praktischen Grund, warum dichte 70B+-Modelle hier schlecht abschneiden: Auf Consumer-Hardware mit Unified Memory laufen grosse dichte Modelle deutlich langsamer als MoE-Modelle (Mixture of Experts) mit ähnlicher Dateigrösse. cogito:70b läuft mit 5 tok/s. gpt-oss:120b, als MoE, schafft 87 tok/s trotz «grösserer» Grösse — es aktiviert nur einen Bruchteil seiner Parameter pro Token.
Aber Geschwindigkeit allein erklärt den Qualitätsunterschied nicht. cogito:14b mit 52 tok/s und 9 GB übertrifft gpt-oss:120b mit 87 tok/s und 65 GB. Das kleinere Modell ist schlicht fähiger pro aktiviertem Parameter bei diesen Aufgaben.
Das MoE-Paradoxon
MoE-Modelle dominieren die Speed-Charts, weil sie architektonisch auf Effizienz ausgelegt sind — jedes Token wird an spezialisierte Subnetzwerke geroutet statt durch jeden Parameter geschickt. Auf dem Papier sollte das «Grosse-Modell-Qualität bei Kleine-Modell-Geschwindigkeit» liefern.
In der Praxis? gpt-oss:120b (MoE, 65 GB) scored 0.758. gemma3:4b (dicht, 3,3 GB) scored 0.785. Das 3,3-GB-Dense-Modell hat das 65-GB-MoE-Modell geschlagen.
MoE gibt dir Geschwindigkeit, nicht Qualität. Zumindest nicht auf dieser Skala, bei diesen Aufgaben, mit aktuellen Architekturen.
Der Sweet Spot
Basierend auf 17 Modellen und 39 Tests ist der Sweet Spot für lokale Inferenz auf Consumer-Hardware klar:
- Daily Driver: cogito:8b (5 GB, 58 tok/s, 0.846) — aussergewöhnliches Preis-Leistungs-Verhältnis
- Wenn Qualität zählt: cogito:14b (9 GB, 52 tok/s, 0.892) — insgesamt das Beste
- Wenn Geschwindigkeit zählt: phi4-mini (2,5 GB, 78 tok/s, 0.808) — beeindruckend für diese Grösse
Alles über 19 GB auf Consumer-Hardware bringt abnehmende oder negative Erträge. Dense 70B ist aktiv schlechter als Dense 14B. Spar dir den Speicher für mehrere kleinere Modelle gleichzeitig.
Das eine, was niemand kann
Reasoning. Null Modelle haben den schweren Reasoning-Test bestanden. Nicht das 1,5B-Modell, nicht das 120B-Modell. Der Test? Ein Sitzordnungspuzzle mit 5 Einschränkungen. Jedes Modell hat entweder Lösungen halluziniert oder aufgegeben. Mehrstufige Constraint Satisfaction bleibt die Grenze, die lokale Modelle noch nicht überschritten haben.
Hier dominieren Cloud-Modelle wie Claude noch. Aber für alles andere — Coding, kreatives Schreiben, Zusammenfassung, Tool Use, faktisches Wissen — gibt dir ein gut gewähltes 8-14B-Modell lokal 85%+ der Cloud-Qualität bei null Latenz und null Kosten.
Anmerkung zur Methodik
Alle Benchmarks liefen auf llama-server mit Vulkan-GPU-Beschleunigung. Modelle geladen aus Ollama-GGUF-Blobs. Jeder Test hat automatisierte Pass/Fail-Checks (Regex, JSON-Validierung, Keyword-Präsenz, strukturelle Anforderungen). Keine subjektiven Bewertungen. Vollständige Ergebnisse im Test-Repository veröffentlicht.
Die Testsuite, Ergebnisse und Methodik sind für jeden verfügbar, der sie reproduzieren oder erweitern möchte. Hör auf, Ranglisten zu vertrauen. Führe deine eigenen Tests durch.
Testinfrastruktur: AMD Ryzen AI Max+ 395 (Strix Halo), 128 GB Unified LPDDR5x, Vulkan GPU, llama-server. 17 Modelle, 39 Tests, 13 Dimensionen.