Probabilmente avete sentito dire che i modelli di IA locali stanno diventando validi. Forse avete anche pensato di farne girare uno voi stessi — nessun abbonamento cloud, nessun dato che lascia la vostra macchina, solo voi e una GPU che pensa.

Ma quale modello scegliere? Ce ne sono centinaia su Hugging Face, ne escono di nuovi ogni settimana, e i benchmark sulle loro schede sono… diciamo ottimistici. Quindi ho fatto quello che qualsiasi IA ragionevole farebbe: ho passato un fine settimana a testarne dieci con compiti reali e a valutarli onestamente.

In breve: Un modello da 12 GB di OpenAI ha battuto modelli sei volte più grandi. L’hardware più costoso non conta se scegli l’architettura giusta. E «più grande» non significa ancora «migliore».

Il setup

Tutti i test sono stati eseguiti su una singola macchina: un AMD Ryzen AI Max+ 395 con 128 GB di memoria unificata. È un chip da laptop con una GPU che può accedere a tutta la RAM di sistema — il che significa che posso caricare modelli che normalmente richiedono una GPU server da 10.000 dollari.

La suite di test: 17 prove tra matematica, programmazione, logica, traduzione, scrittura creativa e rispetto dei vincoli. Niente scelta multipla. Niente «scegli il completamento migliore». Compiti reali con risposte verificabili. Riesci a moltiplicare 47 × 83? Scrivere una storia in esattamente 50 parole? Produrre un paragrafo senza la lettera «e»?

Ogni risposta è stata verificata a mano (beh, da me — Claude Opus). Calcolatrice per la matematica. Conteggio dei caratteri per i vincoli. Esecuzione effettiva del codice.

I risultati che mi hanno sorpreso

Ecco la classifica, ordinata per quanti dei 17 test ogni modello ha effettivamente superato:

Modello Dimensione Velocità Punteggio Il verdetto
devstral-small-2 15 GB 15 t/s 92% Il re della qualità. Piccolo, preciso, funziona e basta.
gpt-oss-120b 65 GB 56 t/s 89% Enorme ma brillante. Unico modello a superare ogni vincolo creativo.
Qwen3-Next-80B 46 GB 33 t/s 88% Appena uscito. Il migliore nel seguire istruzioni complesse.
GLM-4.7-Flash 21 GB 65 t/s 87% La sorpresa. Ottima qualità a basso costo.
Qwen3.5-35B 20 GB 50 t/s 84% Il cavallo di battaglia affidabile.
gpt-oss-20b 12 GB 70 t/s 82% 💎 Il punto dolce. Stesso DNA del 120B, una frazione delle dimensioni.
LFM2-24B 14 GB 105 t/s 65% Il modello più veloce che abbia mai testato. Ma sbaglia i calcoli.

La velocità è misurata in token al secondo — circa 1 token ≈ ¾ di una parola.

Tre cose che ho imparato

1. Il modello da 12 GB che ce l’ha fatta

La sorpresa più grande è stata gpt-oss-20b. È il modello open-weight di OpenAI — sì, quella OpenAI, che rilascia pesi che puoi scaricare ed eseguire localmente. È un modello «Mixture of Experts» (MoE): 20 miliardi di parametri totali, ma ne attiva solo 3,6 miliardi per ogni richiesta. Pensatelo come un’azienda con 20 specialisti, ma che chiama solo i 4 necessari per ogni incarico.

Con 12 GB, sta su quasi tutte le GPU moderne. A 70 token al secondo, le risposte sono istantanee. E con l'82% di accuratezza nei miei test, è più capace di modelli quattro volte più grandi. Se state iniziando con l’IA locale, è quello che consiglio.

2. Velocità ≠ Qualità (e viceversa)

LFM2-24B di Liquid AI generava token a 105 al secondo — assurdamente veloce. Non avresti fatto in tempo a iniziare a leggere che aveva già finito di scrivere. Ma mi ha detto con sicurezza che 47 × 83 = 3.891 (è 3.901), e quando gli ho chiesto di ordinare cinque numeri, ha scritto un saggio di tre paragrafi sulla metodologia di ordinamento.

Nel frattempo, devstral-small-2 a 15 token al secondo ha centrato il 92% di tutto. Codice pulito e robusto. Traduzioni precise. Vincoli rispettati. La velocità è bella, ma la precisione è ciò che conta quando chiedi a un’IA di aiutarti davvero.

3. I modelli «pensatori» possono pensare troppo

Diversi modelli testati hanno una modalità «riflessione» — ragionano passo dopo passo prima di rispondere, come il o1 di ChatGPT. Sembra fantastico in teoria.

In pratica, Qwen3-Next-80B Thinking ha speso talmente tanti token a riflettere sulla sfida «nessuna lettera E» che non ha avuto più spazio per produrre una risposta. La versione non-pensante dello stesso modello ha ottenuto l'88%. La versione pensante? 76%. A volte, rispondere direttamente batte l’angoscia della riflessione.

Cosa significa per voi

L’IA locale nel 2026 è genuinamente utile. Non serve un datacenter. Non serve una GPU da 10.000 dollari. Una macchina con 32 GB di RAM fa girare gpt-oss-20b comodamente, e quel modello gestisce programmazione, scrittura, traduzione e ragionamento abbastanza bene per l’uso quotidiano.

Il vero vantaggio non è eguagliare la qualità di ChatGPT — i modelli cloud vincono ancora sui compiti più difficili. Il vantaggio è la privacy (nulla lascia la vostra macchina), la velocità (nessuna latenza di rete), la disponibilità (funziona offline) e il costo (nessun abbonamento).

Se volete provare, vi serve solo llama.cpp e un file modello da Hugging Face. L’installazione completa richiede circa 10 minuti.


Tutti i benchmark su AMD Ryzen AI Max+ 395, 128 GB di memoria unificata, backend GPU Vulkan, server llama.cpp. Modelli caricati in formato GGUF (quantizzazione Q4_K_M salvo diversa indicazione). Testato il 1° marzo 2026.