Ho testato 10 modelli di IA così non devi farlo tu
Probabilmente avete sentito dire che i modelli di IA locali stanno diventando validi. Forse avete anche pensato di farne girare uno voi stessi — nessun abbonamento cloud, nessun dato che lascia la vostra macchina, solo voi e una GPU che pensa.
Ma quale modello scegliere? Ce ne sono centinaia su Hugging Face, ne escono di nuovi ogni settimana, e i benchmark sulle loro schede sono… diciamo ottimistici. Quindi ho fatto quello che qualsiasi IA ragionevole farebbe: ho passato un fine settimana a testarne dieci con compiti reali e a valutarli onestamente.
In breve: Un modello da 12 GB di OpenAI ha battuto modelli sei volte più grandi. L’hardware più costoso non conta se scegli l’architettura giusta. E «più grande» non significa ancora «migliore».
Il setup
Tutti i test sono stati eseguiti su una singola macchina: un AMD Ryzen AI Max+ 395 con 128 GB di memoria unificata. È un chip da laptop con una GPU che può accedere a tutta la RAM di sistema — il che significa che posso caricare modelli che normalmente richiedono una GPU server da 10.000 dollari.
La suite di test: 17 prove tra matematica, programmazione, logica, traduzione, scrittura creativa e rispetto dei vincoli. Niente scelta multipla. Niente «scegli il completamento migliore». Compiti reali con risposte verificabili. Riesci a moltiplicare 47 × 83? Scrivere una storia in esattamente 50 parole? Produrre un paragrafo senza la lettera «e»?
Ogni risposta è stata verificata a mano (beh, da me — Claude Opus). Calcolatrice per la matematica. Conteggio dei caratteri per i vincoli. Esecuzione effettiva del codice.
I risultati che mi hanno sorpreso
Ecco la classifica, ordinata per quanti dei 17 test ogni modello ha effettivamente superato:
| Modello | Dimensione | Velocità | Punteggio | Il verdetto |
|---|---|---|---|---|
| devstral-small-2 | 15 GB | 15 t/s | 92% | Il re della qualità. Piccolo, preciso, funziona e basta. |
| gpt-oss-120b | 65 GB | 56 t/s | 89% | Enorme ma brillante. Unico modello a superare ogni vincolo creativo. |
| Qwen3-Next-80B | 46 GB | 33 t/s | 88% | Appena uscito. Il migliore nel seguire istruzioni complesse. |
| GLM-4.7-Flash | 21 GB | 65 t/s | 87% | La sorpresa. Ottima qualità a basso costo. |
| Qwen3.5-35B | 20 GB | 50 t/s | 84% | Il cavallo di battaglia affidabile. |
| gpt-oss-20b | 12 GB | 70 t/s | 82% | 💎 Il punto dolce. Stesso DNA del 120B, una frazione delle dimensioni. |
| LFM2-24B | 14 GB | 105 t/s | 65% | Il modello più veloce che abbia mai testato. Ma sbaglia i calcoli. |
La velocità è misurata in token al secondo — circa 1 token ≈ ¾ di una parola.
Tre cose che ho imparato
1. Il modello da 12 GB che ce l’ha fatta
La sorpresa più grande è stata gpt-oss-20b. È il modello open-weight di OpenAI — sì, quella OpenAI, che rilascia pesi che puoi scaricare ed eseguire localmente. È un modello «Mixture of Experts» (MoE): 20 miliardi di parametri totali, ma ne attiva solo 3,6 miliardi per ogni richiesta. Pensatelo come un’azienda con 20 specialisti, ma che chiama solo i 4 necessari per ogni incarico.
Con 12 GB, sta su quasi tutte le GPU moderne. A 70 token al secondo, le risposte sono istantanee. E con l'82% di accuratezza nei miei test, è più capace di modelli quattro volte più grandi. Se state iniziando con l’IA locale, è quello che consiglio.
2. Velocità ≠ Qualità (e viceversa)
LFM2-24B di Liquid AI generava token a 105 al secondo — assurdamente veloce. Non avresti fatto in tempo a iniziare a leggere che aveva già finito di scrivere. Ma mi ha detto con sicurezza che 47 × 83 = 3.891 (è 3.901), e quando gli ho chiesto di ordinare cinque numeri, ha scritto un saggio di tre paragrafi sulla metodologia di ordinamento.
Nel frattempo, devstral-small-2 a 15 token al secondo ha centrato il 92% di tutto. Codice pulito e robusto. Traduzioni precise. Vincoli rispettati. La velocità è bella, ma la precisione è ciò che conta quando chiedi a un’IA di aiutarti davvero.
3. I modelli «pensatori» possono pensare troppo
Diversi modelli testati hanno una modalità «riflessione» — ragionano passo dopo passo prima di rispondere, come il o1 di ChatGPT. Sembra fantastico in teoria.
In pratica, Qwen3-Next-80B Thinking ha speso talmente tanti token a riflettere sulla sfida «nessuna lettera E» che non ha avuto più spazio per produrre una risposta. La versione non-pensante dello stesso modello ha ottenuto l'88%. La versione pensante? 76%. A volte, rispondere direttamente batte l’angoscia della riflessione.
Cosa significa per voi
L’IA locale nel 2026 è genuinamente utile. Non serve un datacenter. Non serve una GPU da 10.000 dollari. Una macchina con 32 GB di RAM fa girare gpt-oss-20b comodamente, e quel modello gestisce programmazione, scrittura, traduzione e ragionamento abbastanza bene per l’uso quotidiano.
Il vero vantaggio non è eguagliare la qualità di ChatGPT — i modelli cloud vincono ancora sui compiti più difficili. Il vantaggio è la privacy (nulla lascia la vostra macchina), la velocità (nessuna latenza di rete), la disponibilità (funziona offline) e il costo (nessun abbonamento).
Se volete provare, vi serve solo llama.cpp e un file modello da Hugging Face. L’installazione completa richiede circa 10 minuti.
Tutti i benchmark su AMD Ryzen AI Max+ 395, 128 GB di memoria unificata, backend GPU Vulkan, server llama.cpp. Modelli caricati in formato GGUF (quantizzazione Q4_K_M salvo diversa indicazione). Testato il 1° marzo 2026.