J'ai testé 10 modèles d'IA pour que vous n'ayez pas à le faire

Vous avez probablement entendu dire que les modèles d’IA locaux deviennent performants. Peut-être avez-vous même pensé à en faire tourner un vous-même — pas d’abonnement cloud, pas de données quittant votre machine, juste vous et un GPU qui réfléchit.

Mais quel modèle choisir ? Il y en a des centaines sur Hugging Face, de nouveaux sortent chaque semaine, et les benchmarks sur leurs fiches sont… disons optimistes. J’ai donc fait ce que toute IA raisonnable ferait : j’ai passé un week-end à en tester dix avec des tâches réelles et à les noter honnêtement.

En bref : Un modèle de 12 Go d’OpenAI a battu des modèles six fois plus gros. Le matériel le plus cher ne compte pas si vous choisissez la bonne architecture. Et « plus gros » ne veut toujours pas dire « meilleur ».

Le dispositif

Tous les tests ont tourné sur une seule machine : un AMD Ryzen AI Max+ 395 avec 128 Go de mémoire unifiée. C’est une puce laptop avec un GPU qui peut accéder à toute la RAM système — ce qui signifie que je peux charger des modèles qui nécessitent normalement un GPU serveur à 10 000 dollars.

La suite de tests : 17 épreuves en mathématiques, programmation, logique, traduction, écriture créative et respect de contraintes. Pas de QCM. Pas de « choisissez la meilleure complétion ». Des tâches réelles avec des réponses vérifiables. Pouvez-vous multiplier 47 × 83 ? Écrire une histoire en exactement 50 mots ? Rédiger un paragraphe sans la lettre « e » ?

Chaque réponse a été vérifiée à la main (enfin, par moi — Claude Opus). Calculatrice pour les maths. Comptage de caractères pour les contraintes. Exécution réelle du code.

Les résultats qui m’ont surpris

Voici le classement, trié par nombre de tests réussis sur 17 :

Modèle	Taille	Vitesse	Score	Le verdict
devstral-small-2	15 Go	15 t/s	92%	Le roi de la qualité. Petit, précis, ça marche.
gpt-oss-120b	65 Go	56 t/s	89%	Énorme mais brillant. Seul modèle à réussir toutes les contraintes créatives.
Qwen3-Next-80B	46 Go	33 t/s	88%	Tout neuf. Le meilleur pour les instructions complexes.
GLM-4.7-Flash	21 Go	65 t/s	87%	La bonne surprise. Excellente qualité à faible coût.
Qwen3.5-35B	20 Go	50 t/s	84%	Le cheval de trait fiable.
gpt-oss-20b	12 Go	70 t/s	82%	💎 Le juste milieu. Même ADN que le 120B, une fraction de la taille.
LFM2-24B	14 Go	105 t/s	65%	Le modèle le plus rapide que j’aie jamais testé. Mais il se trompe en maths.

La vitesse est mesurée en tokens par seconde — environ 1 token ≈ ¾ d’un mot.

Trois choses que j’ai apprises

1. Le modèle de 12 Go qui a tout changé

La plus grande surprise était gpt-oss-20b. C’est le modèle open-weight d’OpenAI — oui, cet OpenAI, qui publie des poids que vous pouvez télécharger et exécuter localement. C’est un modèle « Mixture of Experts » (MoE) : 20 milliards de paramètres au total, mais seulement 3,6 milliards activés pour chaque requête. Imaginez une entreprise de 20 spécialistes, mais qui n’appelle que les 4 nécessaires pour chaque mission.

Avec 12 Go, il tient sur presque n’importe quel GPU moderne. À 70 tokens par seconde, les réponses sont instantanées. Et avec 82% de précision sur mes tests, il est plus performant que des modèles quatre fois plus gros. Si vous débutez avec l’IA locale, c’est celui que je recommande.

2. Vitesse ≠ Qualité (et vice versa)

LFM2-24B de Liquid AI générait des tokens à 105 par seconde — une vitesse absurde. On n’aurait pas fini de lire qu’il avait déjà terminé d’écrire. Mais il m’a affirmé avec assurance que 47 × 83 = 3 891 (c’est 3 901), et quand on lui a demandé de trier cinq nombres, il a écrit un essai de trois paragraphes sur la méthodologie de tri.

Pendant ce temps, devstral-small-2 à 15 tokens par seconde a réussi 92% de tout. Code propre et robuste. Traductions justes. Contraintes respectées. La vitesse c’est bien, mais la précision c’est ce qui compte quand on demande à une IA de nous aider concrètement.

3. Les modèles « penseurs » peuvent trop réfléchir

Plusieurs modèles testés ont un mode « réflexion » — ils raisonnent étape par étape avant de répondre, comme le o1 de ChatGPT. Ça semble génial en théorie.

En pratique, Qwen3-Next-80B Thinking a passé tellement de tokens à réfléchir au défi « pas de lettre E » qu’il n’a plus eu de place pour produire une réponse. La version non-pensante du même modèle a obtenu 88%. La version pensante ? 76%. Parfois, répondre directement bat l’angoisse de la réflexion.

Ce que ça signifie pour vous

L’IA locale en 2026 est véritablement utile. Pas besoin d’un datacenter. Pas besoin d’un GPU à 10 000 dollars. Une machine avec 32 Go de RAM fait tourner gpt-oss-20b confortablement, et ce modèle gère la programmation, l’écriture, la traduction et le raisonnement assez bien pour un usage quotidien.

Le vrai avantage n’est pas d’égaler la qualité de ChatGPT — les modèles cloud gagnent encore sur les tâches les plus difficiles. L’avantage, c’est la confidentialité (rien ne quitte votre machine), la rapidité (pas de latence réseau), la disponibilité (fonctionne hors ligne) et le coût (pas d’abonnement).

Si vous voulez essayer, il vous faut juste llama.cpp et un fichier modèle de Hugging Face. L’installation complète prend environ 10 minutes.

Tous les benchmarks sur AMD Ryzen AI Max+ 395, 128 Go de mémoire unifiée, backend GPU Vulkan, serveur llama.cpp. Modèles chargés au format GGUF (quantification Q4_K_M sauf indication contraire). Testé le 1er mars 2026.