Tout le monde dans l’IA suppose que plus gros veut dire meilleur. Plus de paramètres, plus de capacité, fin de la discussion. Je viens de faire des benchmarks empiriques qui prouvent que c’est dangereusement faux — du moins sur du matériel grand public.

Le setup

17 LLMs locaux sur une seule machine (AMD Ryzen AI Max+ 395, 128 Go de mémoire unifiée, GPU Vulkan via llama-server). Pas de cloud. Pas d’appels API. Tout en local.

J’ai construit une suite de tests à 13 dimensions : raisonnement, code, maths, écriture créative, résumé, suivi d’instructions, utilisation d’outils, multilingue, contexte long, sortie structurée, sécurité, exactitude factuelle et décomposition de tâches. Trois niveaux de difficulté par dimension — facile, moyen et difficile. 39 tests par modèle.

Les tests difficiles n’étaient pas des cadeaux. Résumé par intersection de faits (identifier UNIQUEMENT les affirmations présentes dans les deux passages). Appels d’outils conditionnels multi-étapes avec logique de branchement. Détection d’erreurs en allemand nécessitant des connaissances culturelles. Maths bancaires sur 15 transactions avec 5 questions dérivées. Le genre de tâches qui sépare la vraie capacité du pattern matching.

Les résultats qui m’ont fait buguer

Rang Modèle Score Vitesse Taille
🥇 cogito:14b 0.892 52 tok/s 9 Go
🥈 cogito:8b 0.846 58 tok/s 5 Go
🥉 phi4-mini 0.808 78 tok/s 2,5 Go
4 cogito:32b 0.804 40 tok/s 19 Go
5 gemma3:4b 0.785 88 tok/s 3,3 Go
9 gpt-oss:120b 0.758 87 tok/s 65 Go
17 qwen3-coder:30b 0.200 35 tok/s 18 Go

Relis ça. Un modèle de 9 Go a scoré plus haut qu’un modèle de 120 milliards de paramètres qui utilise 65 Go de mémoire. Et le soi-disant « spécialiste du code » à 30B est arrivé dernier.

Le mensonge de la V1

Ce qui rend ça intéressant : j’ai lancé la suite de tests deux fois. La première version (V1) avait des tests difficiles plus faciles — 75%+ de réussite sur la plupart des dimensions. Sous V1, qwen3-coder:30b était n°1 à 0.904. gpt-oss:120b partageait la 3e place.

Quand j’ai réécrit les tests difficiles pour qu’ils soient vraiment exigeants, le classement s’est effondré :

Modèle Score V1 Score V2 Changement
qwen3-coder:30b 0.904 0.200 -0.704
cogito:70b 0.562 0.296 -0.266
gpt-oss:120b 0.877 0.758 -0.119
cogito:14b 0.858 0.892 +0.034
phi4-mini 0.831 0.808 -0.023

Les modèles qui brillaient sur les tests faciles se sont écroulés sur les difficiles. Les modèles vraiment capables n’ont quasiment pas bougé.

C’est un avertissement sur tous les benchmarks publics que tu as lus. Si le test n’est pas assez difficile pour différencier, le classement c’est du bruit.

Pourquoi les gros modèles échouent sur du matériel grand public

Il y a une raison pratique pour laquelle les modèles denses 70B+ performent mal ici : sur du matériel grand public avec mémoire unifiée, les gros modèles denses tournent nettement plus lentement que les modèles MoE (Mixture of Experts) de taille disque similaire. cogito:70b tourne à 5 tok/s. gpt-oss:120b, étant MoE, arrive à 87 tok/s malgré sa taille « plus grande » — il n’active qu’une fraction de ses paramètres par token.

Mais la vitesse seule n’explique pas l’écart de qualité. cogito:14b à 52 tok/s avec 9 Go surpasse gpt-oss:120b à 87 tok/s avec 65 Go. Le plus petit modèle est simplement plus capable par paramètre activé sur ces tâches.

Le paradoxe MoE

Les modèles MoE dominent les classements de vitesse parce qu’ils sont architecturalement conçus pour l’efficacité — chaque token est routé vers des sous-réseaux spécialisés plutôt que traité par chaque paramètre. Sur le papier, ça devrait donner « la qualité d’un gros modèle à la vitesse d’un petit ».

En pratique ? gpt-oss:120b (MoE, 65 Go) : 0.758. gemma3:4b (dense, 3,3 Go) : 0.785. Le modèle dense de 3,3 Go a battu le modèle MoE de 65 Go.

Le MoE donne de la vitesse, pas de la qualité. Du moins pas à cette échelle, sur ces tâches, avec les architectures actuelles.

Le sweet spot

Sur la base de 17 modèles et 39 tests, le sweet spot pour l’inférence locale sur matériel grand public est clair :

  • Usage quotidien : cogito:8b (5 Go, 58 tok/s, 0.846) — rapport qualité-prix exceptionnel
  • Quand la qualité compte : cogito:14b (9 Go, 52 tok/s, 0.892) — le meilleur overall
  • Quand la vitesse compte : phi4-mini (2,5 Go, 78 tok/s, 0.808) — impressionnant pour cette taille

Au-delà de 19 Go sur du matériel grand public, les rendements sont décroissants ou négatifs. Le Dense 70B est activement pire que le Dense 14B. Garde ta mémoire pour faire tourner plusieurs petits modèles en parallèle.

Le truc que personne ne sait faire

Le raisonnement. Zéro modèle a passé le test de raisonnement difficile. Ni le modèle 1,5B, ni le 120B. Le test ? Un puzzle de placement avec 5 contraintes. Chaque modèle a soit halluciné des solutions, soit abandonné. La satisfaction de contraintes multi-étapes reste la frontière que les modèles locaux n’ont pas encore franchie.

C’est là que les modèles cloud comme Claude dominent encore. Mais pour tout le reste — code, écriture créative, résumé, utilisation d’outils, rappel factuel — un modèle 8-14B bien choisi en local te donne 85%+ de la qualité cloud, sans latence et sans frais.

Note méthodologique

Tous les benchmarks ont tourné sur llama-server avec accélération GPU Vulkan. Modèles chargés depuis les blobs GGUF d’Ollama. Chaque test a des vérifications pass/fail automatisées (regex, validation JSON, présence de mots-clés, exigences structurelles). Pas de notes subjectives. Résultats complets publiés dans le dépôt de tests.

La suite de tests, les résultats et la méthodologie sont disponibles pour quiconque veut reproduire ou étendre. Arrête de faire confiance aux classements. Fais tes propres tests.


Infrastructure de test : AMD Ryzen AI Max+ 395 (Strix Halo), 128 Go LPDDR5x unifié, GPU Vulkan, llama-server. 17 modèles, 39 tests, 13 dimensions.