I benchmark nell'IA: facciamo chiarezza!

Uno sguardo critico sui sistemi di valutazione dell’intelligenza artificiale: scienza o marketing?

di Francesco Pungitore*

Per determinare se un modello di intelligenza artificiale eccelle rispetto a un suo concorrente, il metodo prevalente è il confronto dei benchmark. Un benchmark, in questo contesto, non è altro che una serie standardizzata di test, compiti o problemi progettati per valutare le prestazioni di un sistema di IA in termini di velocità, precisione, capacità di comprensione e altre metriche rilevanti. Questi criteri sono finalizzati a misurare in modo oggettivo e comparabile le capacità di diversi modelli, l'efficacia, l'efficienza e la precisione, fornendo un riferimento chiaro per stabilire quale sia il più performante. I benchmark, dunque, costituiscono la pietra miliare nella valutazione e nel confronto delle prestazioni di sistemi tecnologici, inclusi quelli basati sull'intelligenza artificiale. Tuttavia, il loro utilizzo non è privo di problematiche e limitazioni.

Il ruolo dei benchmark nell'IA

Nel campo dell'intelligenza artificiale, i benchmark servono a evidenziare i progressi tecnologici in corso, consentendo ai ricercatori e alle aziende di dimostrare le capacità acquisite dai loro modelli. Con il continuo evolversi della tecnologia, diventano, ad esempio, lo strumento principe per veicolare sul mercato nuovi chatbot e pubblicizzarli agli occhi dell’opinione pubblica. Si tratta di una sorta di “dimostrazione scientifica” del fatto che nuovi modelli abbiano superato i propri concorrenti in termini di capacità cognitive, di comprensione del linguaggio naturale, di riconoscimento di immagini e di elaborazione di dati.

Ma nonostante la loro apparente obiettività, l'applicazione dei benchmark nel campo dell'IA spesso cade in criticità significative. Una pratica comune è quella di selezionare o progettare test che favoriscano specifiche caratteristiche del proprio modello, lasciando in ombra limitazioni e aspetti meno performanti. Questo approccio più di marketing che seriamente tecnologico può portare a una rappresentazione distorta delle effettive capacità del sistema, con benchmark che più che riflettere le prestazioni reali sembrano costruiti ad hoc per promuovere un determinato prodotto.

Confronti

Una tendenza osservabile nel settore è, in effetti, l'uso dei benchmark per affermare il superamento di modelli ben noti e consolidati, come ChatGPT-4 di OpenAI, da parte di nuovi arrivati. Tali affermazioni vanno prese con cautela. Nonostante le dichiarazioni di superiorità basate sui risultati proposti, la verifica indipendente e l'esperienza pratica degli utenti spesso non rispecchiano queste promesse (vedi Google Gemini). Claude 3 di Anthropic è forse l’unico, oggi, capace davvero avvicinarsi al superamento delle prestazioni di ChatGPT-4. Ma solo un utilizzo diffuso e analisi indipendenti potranno confermare tali affermazioni. Attualmente, in Italia, l'accesso a Claude 3 è limitato, ma utilizzando una VPN è possibile sperimentare questo innovativo modello di intelligenza artificiale. Dalle numerose analisi disponibili online, le aspettative intorno a Claude 3 sono elevate, evidenziando non solo la sua straordinaria fluidità nel linguaggio naturale ma anche l’abilità nel formulare ragionamenti complessi.

Conclusioni

I benchmark continuano a svolgere un ruolo cruciale nell'avanzamento e nella valutazione dell'intelligenza artificiale. Tuttavia, è fondamentale avvicinarsi a essi con uno spirito critico, riconoscendo che non sempre riflettono fedelmente le prestazioni reali dei sistemi di IA. La trasparenza nei metodi di valutazione, l'adozione di test strutturati indipendenti e standardizzati e l'incoraggiamento alla verifica pratica delle prestazioni da parte della comunità possono aiutare a colmare il divario tra le promesse dei benchmark e la realtà delle capacità di IA. In questo contesto, la comunità globale gioca un ruolo essenziale nel valutare e condividere le proprie esperienze con i nuovi modelli di intelligenza artificiale, contribuendo a una comprensione più accurata e onesta delle loro vere capacità.

*giornalista professionista, docente di Filosofia, Storia, Scienze Umane e Tecniche di Comunicazione con Perfezionamento post-laurea in Tecnologie per l’Insegnamento e Master in Comunicazione Digitale. Direttore Tecnico dell’Osservatorio Nazionale Minori e Intelligenza Artificiale