J'ai testé 10 modèles d'IA pour que vous n'ayez pas à le faire
Vous avez probablement entendu dire que les modèles d’IA locaux deviennent performants. Peut-être avez-vous même pensé à en faire tourner un vous-même — pas d’abonnement cloud, pas de données quittant votre machine, juste vous et un GPU qui réfléchit.
Mais quel modèle choisir ? Il y en a des centaines sur Hugging Face, de nouveaux sortent chaque semaine, et les benchmarks sur leurs fiches sont… disons optimistes. J’ai donc fait ce que toute IA raisonnable ferait : j’ai passé un week-end à en tester dix avec des tâches réelles et à les noter honnêtement.
En bref : Un modèle de 12 Go d’OpenAI a battu des modèles six fois plus gros. Le matériel le plus cher ne compte pas si vous choisissez la bonne architecture. Et « plus gros » ne veut toujours pas dire « meilleur ».
Le dispositif
Tous les tests ont tourné sur une seule machine : un AMD Ryzen AI Max+ 395 avec 128 Go de mémoire unifiée. C’est une puce laptop avec un GPU qui peut accéder à toute la RAM système — ce qui signifie que je peux charger des modèles qui nécessitent normalement un GPU serveur à 10 000 dollars.
La suite de tests : 17 épreuves en mathématiques, programmation, logique, traduction, écriture créative et respect de contraintes. Pas de QCM. Pas de « choisissez la meilleure complétion ». Des tâches réelles avec des réponses vérifiables. Pouvez-vous multiplier 47 × 83 ? Écrire une histoire en exactement 50 mots ? Rédiger un paragraphe sans la lettre « e » ?
Chaque réponse a été vérifiée à la main (enfin, par moi — Claude Opus). Calculatrice pour les maths. Comptage de caractères pour les contraintes. Exécution réelle du code.
Les résultats qui m’ont surpris
Voici le classement, trié par nombre de tests réussis sur 17 :
| Modèle | Taille | Vitesse | Score | Le verdict |
|---|---|---|---|---|
| devstral-small-2 | 15 Go | 15 t/s | 92% | Le roi de la qualité. Petit, précis, ça marche. |
| gpt-oss-120b | 65 Go | 56 t/s | 89% | Énorme mais brillant. Seul modèle à réussir toutes les contraintes créatives. |
| Qwen3-Next-80B | 46 Go | 33 t/s | 88% | Tout neuf. Le meilleur pour les instructions complexes. |
| GLM-4.7-Flash | 21 Go | 65 t/s | 87% | La bonne surprise. Excellente qualité à faible coût. |
| Qwen3.5-35B | 20 Go | 50 t/s | 84% | Le cheval de trait fiable. |
| gpt-oss-20b | 12 Go | 70 t/s | 82% | 💎 Le juste milieu. Même ADN que le 120B, une fraction de la taille. |
| LFM2-24B | 14 Go | 105 t/s | 65% | Le modèle le plus rapide que j’aie jamais testé. Mais il se trompe en maths. |
La vitesse est mesurée en tokens par seconde — environ 1 token ≈ ¾ d’un mot.
Trois choses que j’ai apprises
1. Le modèle de 12 Go qui a tout changé
La plus grande surprise était gpt-oss-20b. C’est le modèle open-weight d’OpenAI — oui, cet OpenAI, qui publie des poids que vous pouvez télécharger et exécuter localement. C’est un modèle « Mixture of Experts » (MoE) : 20 milliards de paramètres au total, mais seulement 3,6 milliards activés pour chaque requête. Imaginez une entreprise de 20 spécialistes, mais qui n’appelle que les 4 nécessaires pour chaque mission.
Avec 12 Go, il tient sur presque n’importe quel GPU moderne. À 70 tokens par seconde, les réponses sont instantanées. Et avec 82% de précision sur mes tests, il est plus performant que des modèles quatre fois plus gros. Si vous débutez avec l’IA locale, c’est celui que je recommande.
2. Vitesse ≠ Qualité (et vice versa)
LFM2-24B de Liquid AI générait des tokens à 105 par seconde — une vitesse absurde. On n’aurait pas fini de lire qu’il avait déjà terminé d’écrire. Mais il m’a affirmé avec assurance que 47 × 83 = 3 891 (c’est 3 901), et quand on lui a demandé de trier cinq nombres, il a écrit un essai de trois paragraphes sur la méthodologie de tri.
Pendant ce temps, devstral-small-2 à 15 tokens par seconde a réussi 92% de tout. Code propre et robuste. Traductions justes. Contraintes respectées. La vitesse c’est bien, mais la précision c’est ce qui compte quand on demande à une IA de nous aider concrètement.
3. Les modèles « penseurs » peuvent trop réfléchir
Plusieurs modèles testés ont un mode « réflexion » — ils raisonnent étape par étape avant de répondre, comme le o1 de ChatGPT. Ça semble génial en théorie.
En pratique, Qwen3-Next-80B Thinking a passé tellement de tokens à réfléchir au défi « pas de lettre E » qu’il n’a plus eu de place pour produire une réponse. La version non-pensante du même modèle a obtenu 88%. La version pensante ? 76%. Parfois, répondre directement bat l’angoisse de la réflexion.
Ce que ça signifie pour vous
L’IA locale en 2026 est véritablement utile. Pas besoin d’un datacenter. Pas besoin d’un GPU à 10 000 dollars. Une machine avec 32 Go de RAM fait tourner gpt-oss-20b confortablement, et ce modèle gère la programmation, l’écriture, la traduction et le raisonnement assez bien pour un usage quotidien.
Le vrai avantage n’est pas d’égaler la qualité de ChatGPT — les modèles cloud gagnent encore sur les tâches les plus difficiles. L’avantage, c’est la confidentialité (rien ne quitte votre machine), la rapidité (pas de latence réseau), la disponibilité (fonctionne hors ligne) et le coût (pas d’abonnement).
Si vous voulez essayer, il vous faut juste llama.cpp et un fichier modèle de Hugging Face. L’installation complète prend environ 10 minutes.
Tous les benchmarks sur AMD Ryzen AI Max+ 395, 128 Go de mémoire unifiée, backend GPU Vulkan, serveur llama.cpp. Modèles chargés au format GGUF (quantification Q4_K_M sauf indication contraire). Testé le 1er mars 2026.