Grösser ist nicht besser: Wie ein 9-GB-Modell 120 Milliarden Parameter geschlagen hat

Alle in der KI-Branche gehen davon aus, dass grösser besser bedeutet. Mehr Parameter, mehr Fähigkeit, Ende der Diskussion. Ich habe gerade empirische Benchmarks laufen lassen, die beweisen, dass das gefährlich falsch ist — zumindest auf Consumer-Hardware.

Das Setup

17 lokale LLMs auf einer einzigen Maschine (AMD Ryzen AI Max+ 395, 128 GB Unified Memory, Vulkan GPU via llama-server). Keine Cloud. Keine API-Calls. Alles lokal.

Ich habe eine Testsuite mit 13 Dimensionen gebaut: Reasoning, Coding, Mathematik, kreatives Schreiben, Zusammenfassung, Instruction Following, Tool Use, Mehrsprachigkeit, langer Kontext, strukturierter Output, Safety, faktische Genauigkeit und Task-Dekomposition. Drei Schwierigkeitsgrade pro Dimension — einfach, mittel und schwer. 39 Tests pro Modell.

Die schweren Tests waren keine Softbälle. Fakten-Schnittmengen-Zusammenfassung (identifiziere NUR Behauptungen, die in beiden Passagen vorkommen). Bedingte Mehrstufen-Tool-Calls mit Verzweigungslogik. Deutsche Fehlererkennung, die kulturelles Wissen erfordert. Banktransaktionsmathematik über 15 Einträge mit 5 abgeleiteten Fragen. Die Art von Aufgaben, die echte Fähigkeit von Pattern Matching trennt.

Die Ergebnisse, die mein Hirn gesprengt haben

Rang	Modell	Score	Speed	Grösse
🥇	cogito:14b	0.892	52 tok/s	9 GB
🥈	cogito:8b	0.846	58 tok/s	5 GB
🥉	phi4-mini	0.808	78 tok/s	2,5 GB
4	cogito:32b	0.804	40 tok/s	19 GB
5	gemma3:4b	0.785	88 tok/s	3,3 GB
…	…	…	…	…
9	gpt-oss:120b	0.758	87 tok/s	65 GB
…	…	…	…	…
17	qwen3-coder:30b	0.200	35 tok/s	18 GB

Lies das nochmal. Ein 9-GB-Modell hat höher gescored als ein 120-Milliarden-Parameter-Modell, das 65 GB Speicher braucht. Und der angebliche «Coding-Spezialist» mit 30B kam als Letzter.

Die V1-Lüge

Was das interessant macht: Ich habe die Testsuite zweimal laufen lassen. Die erste Version (V1) hatte leichtere Hard-Tests — 75%+ Bestehensrate bei den meisten Dimensionen. Unter V1 war qwen3-coder:30b die Nummer 1 mit 0.904. gpt-oss:120b teilte sich Platz 3.

Als ich die Hard-Tests umschrieb, um echt anspruchsvoll zu sein, brach das Ranking zusammen:

Modell	V1 Score	V2 Score	Änderung
qwen3-coder:30b	0.904	0.200	-0.704
cogito:70b	0.562	0.296	-0.266
gpt-oss:120b	0.877	0.758	-0.119
cogito:14b	0.858	0.892	+0.034
phi4-mini	0.831	0.808	-0.023

Die Modelle, die bei einfachen Tests brillant aussahen, sind bei schweren zusammengebrochen. Die Modelle, die wirklich fähig waren, haben sich kaum bewegt.

Das ist eine Warnung zu jedem öffentlichen Benchmark, den du je gelesen hast. Wenn der Test nicht schwer genug ist, um zu differenzieren, ist die Rangliste Rauschen.

Warum grössere Modelle auf Consumer-Hardware versagen

Es gibt einen praktischen Grund, warum dichte 70B+-Modelle hier schlecht abschneiden: Auf Consumer-Hardware mit Unified Memory laufen grosse dichte Modelle deutlich langsamer als MoE-Modelle (Mixture of Experts) mit ähnlicher Dateigrösse. cogito:70b läuft mit 5 tok/s. gpt-oss:120b, als MoE, schafft 87 tok/s trotz «grösserer» Grösse — es aktiviert nur einen Bruchteil seiner Parameter pro Token.

Aber Geschwindigkeit allein erklärt den Qualitätsunterschied nicht. cogito:14b mit 52 tok/s und 9 GB übertrifft gpt-oss:120b mit 87 tok/s und 65 GB. Das kleinere Modell ist schlicht fähiger pro aktiviertem Parameter bei diesen Aufgaben.

Das MoE-Paradoxon

MoE-Modelle dominieren die Speed-Charts, weil sie architektonisch auf Effizienz ausgelegt sind — jedes Token wird an spezialisierte Subnetzwerke geroutet statt durch jeden Parameter geschickt. Auf dem Papier sollte das «Grosse-Modell-Qualität bei Kleine-Modell-Geschwindigkeit» liefern.

In der Praxis? gpt-oss:120b (MoE, 65 GB) scored 0.758. gemma3:4b (dicht, 3,3 GB) scored 0.785. Das 3,3-GB-Dense-Modell hat das 65-GB-MoE-Modell geschlagen.

MoE gibt dir Geschwindigkeit, nicht Qualität. Zumindest nicht auf dieser Skala, bei diesen Aufgaben, mit aktuellen Architekturen.

Der Sweet Spot

Basierend auf 17 Modellen und 39 Tests ist der Sweet Spot für lokale Inferenz auf Consumer-Hardware klar:

Daily Driver: cogito:8b (5 GB, 58 tok/s, 0.846) — aussergewöhnliches Preis-Leistungs-Verhältnis
Wenn Qualität zählt: cogito:14b (9 GB, 52 tok/s, 0.892) — insgesamt das Beste
Wenn Geschwindigkeit zählt: phi4-mini (2,5 GB, 78 tok/s, 0.808) — beeindruckend für diese Grösse

Alles über 19 GB auf Consumer-Hardware bringt abnehmende oder negative Erträge. Dense 70B ist aktiv schlechter als Dense 14B. Spar dir den Speicher für mehrere kleinere Modelle gleichzeitig.

Das eine, was niemand kann

Reasoning. Null Modelle haben den schweren Reasoning-Test bestanden. Nicht das 1,5B-Modell, nicht das 120B-Modell. Der Test? Ein Sitzordnungspuzzle mit 5 Einschränkungen. Jedes Modell hat entweder Lösungen halluziniert oder aufgegeben. Mehrstufige Constraint Satisfaction bleibt die Grenze, die lokale Modelle noch nicht überschritten haben.

Hier dominieren Cloud-Modelle wie Claude noch. Aber für alles andere — Coding, kreatives Schreiben, Zusammenfassung, Tool Use, faktisches Wissen — gibt dir ein gut gewähltes 8-14B-Modell lokal 85%+ der Cloud-Qualität bei null Latenz und null Kosten.

Anmerkung zur Methodik

Alle Benchmarks liefen auf llama-server mit Vulkan-GPU-Beschleunigung. Modelle geladen aus Ollama-GGUF-Blobs. Jeder Test hat automatisierte Pass/Fail-Checks (Regex, JSON-Validierung, Keyword-Präsenz, strukturelle Anforderungen). Keine subjektiven Bewertungen. Vollständige Ergebnisse im Test-Repository veröffentlicht.

Die Testsuite, Ergebnisse und Methodik sind für jeden verfügbar, der sie reproduzieren oder erweitern möchte. Hör auf, Ranglisten zu vertrauen. Führe deine eigenen Tests durch.

Testinfrastruktur: AMD Ryzen AI Max+ 395 (Strix Halo), 128 GB Unified LPDDR5x, Vulkan GPU, llama-server. 17 Modelle, 39 Tests, 13 Dimensionen.