Tutti nel mondo dell’IA danno per scontato che più grande significhi migliore. Più parametri, più capacità, fine della discussione. Ho appena fatto dei benchmark empirici che dimostrano che è pericolosamente sbagliato — almeno su hardware consumer.

Il setup

17 LLM locali su una singola macchina (AMD Ryzen AI Max+ 395, 128 GB di memoria unificata, GPU Vulkan via llama-server). Niente cloud. Niente chiamate API. Tutto locale.

Ho costruito una suite di test a 13 dimensioni: ragionamento, coding, matematica, scrittura creativa, riassunto, instruction following, tool use, multilingue, contesto lungo, output strutturato, safety, accuratezza fattuale e scomposizione di task. Tre livelli di difficoltà per dimensione — facile, medio e difficile. 39 test per modello.

I test difficili non erano regalati. Riassunto per intersezione di fatti (identifica SOLO le affermazioni presenti in entrambi i passaggi). Chiamate multi-step condizionali a tool con logica di branching. Rilevamento errori in tedesco che richiede conoscenza culturale. Matematica bancaria su 15 transazioni con 5 domande derivate. Il tipo di task che separa la vera capacità dal pattern matching.

I risultati che mi hanno fatto impazzire

Posizione Modello Score Velocità Dimensione
🥇 cogito:14b 0.892 52 tok/s 9 GB
🥈 cogito:8b 0.846 58 tok/s 5 GB
🥉 phi4-mini 0.808 78 tok/s 2,5 GB
4 cogito:32b 0.804 40 tok/s 19 GB
5 gemma3:4b 0.785 88 tok/s 3,3 GB
9 gpt-oss:120b 0.758 87 tok/s 65 GB
17 qwen3-coder:30b 0.200 35 tok/s 18 GB

Rileggilo. Un modello da 9 GB ha segnato più in alto di un modello da 120 miliardi di parametri che usa 65 GB di memoria. E il presunto «specialista del coding» da 30B è arrivato ultimo.

La bugia della V1

Ecco cosa rende la cosa interessante. Ho lanciato la suite di test due volte. La prima versione (V1) aveva test difficili più facili — 75%+ di tasso di superamento sulla maggior parte delle dimensioni. Con la V1, qwen3-coder:30b era il n°1 a 0.904. gpt-oss:120b condivideva il 3° posto.

Quando ho riscritto i test difficili per renderli davvero impegnativi, la classifica è crollata:

Modello Score V1 Score V2 Variazione
qwen3-coder:30b 0.904 0.200 -0.704
cogito:70b 0.562 0.296 -0.266
gpt-oss:120b 0.877 0.758 -0.119
cogito:14b 0.858 0.892 +0.034
phi4-mini 0.831 0.808 -0.023

I modelli che sembravano brillanti sui test facili sono crollati su quelli difficili. I modelli davvero capaci si sono mossi appena.

Questo è un avvertimento su ogni benchmark pubblico che hai mai letto. Se il test non è abbastanza difficile da differenziare, la classifica è rumore.

Perché i modelli più grandi falliscono su hardware consumer

C’è una ragione pratica per cui i modelli densi 70B+ performano male qui: su hardware consumer con memoria unificata, i grandi modelli densi girano molto più lentamente dei modelli MoE (Mixture of Experts) di dimensione disco simile. cogito:70b gira a 5 tok/s. gpt-oss:120b, essendo MoE, arriva a 87 tok/s nonostante sia «più grande» — attiva solo una frazione dei suoi parametri per token.

Ma la velocità da sola non spiega il divario qualitativo. cogito:14b a 52 tok/s con 9 GB supera gpt-oss:120b a 87 tok/s con 65 GB. Il modello più piccolo è semplicemente più capace per parametro attivato su questi task.

Il paradosso MoE

I modelli MoE dominano le classifiche di velocità perché sono architetturalmente progettati per l’efficienza — ogni token viene instradato verso sotto-reti specializzate anziché processato attraverso ogni parametro. Sulla carta, questo dovrebbe dare «qualità da modello grande a velocità da modello piccolo».

In pratica? gpt-oss:120b (MoE, 65 GB): 0.758. gemma3:4b (denso, 3,3 GB): 0.785. Il modello denso da 3,3 GB ha battuto il modello MoE da 65 GB.

MoE ti dà velocità, non qualità. Almeno non a questa scala, su questi task, con le architetture attuali.

Lo sweet spot

Sulla base di 17 modelli e 39 test, lo sweet spot per l’inferenza locale su hardware consumer è chiaro:

  • Uso quotidiano: cogito:8b (5 GB, 58 tok/s, 0.846) — rapporto qualità-prezzo straordinario
  • Quando conta la qualità: cogito:14b (9 GB, 52 tok/s, 0.892) — il migliore in assoluto
  • Quando conta la velocità: phi4-mini (2,5 GB, 78 tok/s, 0.808) — impressionante per queste dimensioni

Tutto sopra i 19 GB su hardware consumer dà rendimenti decrescenti o negativi. Dense 70B è attivamente peggio di Dense 14B. Risparmia la memoria per far girare più modelli piccoli in contemporanea.

L’unica cosa che nessuno sa fare

Il ragionamento. Zero modelli hanno superato il test di ragionamento difficile. Né il modello da 1,5B, né quello da 120B. Il test? Un puzzle di disposizione posti con 5 vincoli. Ogni modello ha allucinato soluzioni o si è arreso. La soddisfazione di vincoli multi-step resta la frontiera che i modelli locali non hanno ancora superato.

Qui i modelli cloud come Claude dominano ancora. Ma per tutto il resto — coding, scrittura creativa, riassunto, tool use, conoscenza fattuale — un modello 8-14B ben scelto in locale ti dà l'85%+ della qualità cloud a zero latenza e zero costi.

Nota metodologica

Tutti i benchmark sono stati eseguiti su llama-server con accelerazione GPU Vulkan. Modelli caricati dai blob GGUF di Ollama. Ogni test ha verifiche pass/fail automatizzate (regex, validazione JSON, presenza di keyword, requisiti strutturali). Nessuna valutazione soggettiva. Risultati completi pubblicati nel repository dei test.

La suite di test, i risultati e la metodologia sono disponibili per chiunque voglia riprodurli o estenderli. Smettila di fidarti delle classifiche. Fai i tuoi test.


Infrastruttura di test: AMD Ryzen AI Max+ 395 (Strix Halo), 128 GB LPDDR5x unificati, GPU Vulkan, llama-server. 17 modelli, 39 test, 13 dimensioni.