rivista di opinione, ricerca e studi filosofici
rivista di opinione, ricerca e studi filosofici

Lo specchio opaco

Il superalignment come crisi dell'autocoscienza umana

di Francesco Pungitore

 

Il problema più discusso dell'intelligenza artificiale contemporanea è il superalignment: come allineare ai valori umani macchine che ci supereranno in intelligenza. Non è un problema di ingegneria ma di filosofia: presuppone che sappiamo cosa vogliamo, quando venticinque secoli di pensiero dimostrano il contrario. La vera sfida non è controllare le macchine, ma governare una convivenza tra intelligenze diverse in cui il disallineamento non è il rischio da scongiurare, bensì la condizione inevitabile di ogni relazione complessa.

I. Il più antico dei problemi nuovi

C'è un'ironia che attraversa l'intero dibattito sul superalignment e che quasi nessuno sembra voler affrontare fino in fondo: il problema di allineare una mente artificiale ai valori umani presuppone che i valori umani siano qualcosa di identificabile, coerente e stabile. Non lo sono. Non lo sono mai stati.

Quando parliamo di superalignment — la sfida di garantire che sistemi di intelligenza artificiale con capacità sovrumane restino fedeli alle nostre intenzioni — stiamo in realtà formulando in linguaggio ingegneristico una domanda che la filosofia si porta dietro da venticinque secoli: che cosa vogliamo, davvero? Socrate morì per aver dimostrato che nessuno sapeva rispondere. La differenza è che oggi l'incapacità di rispondere potrebbe avere conseguenze più concrete della cicuta.

Il superalignment non è un problema di informatica con implicazioni filosofiche. È un problema filosofico che abbiamo disperatamente bisogno di risolvere con strumenti informatici. E questa inversione della gerarchia cambia tutto.

 

II. La parabola del genitore imperfetto

L'analogia più potente per comprendere il paradosso del superalignment non viene dalla teoria dei giochi né dall'informatica. Viene dalla più ordinaria delle esperienze umane: la genitorialità.

Un genitore trasmette valori a un figlio che lo supererà — in forza, in conoscenza, forse in saggezza. Lo fa sapendo che il figlio interpreterà quei valori in modi imprevedibili, li tradirà parzialmente, li reinventerà. Nessun genitore sano di mente pretende un allineamento perfetto. Eppure la civilizzazione si regge su questa trasmissione imperfetta, su questo disallineamento produttivo tra generazioni.

Il terrore che circonda il superalignment nasce dal rifiuto di questa imperfezione. Pretendiamo dall'intelligenza artificiale ciò che non abbiamo mai preteso da noi stessi: una conformità totale e verificabile a un insieme di valori che non siamo neppure in grado di formalizzare. E quando scopriamo che un modello di linguaggio potrebbe fingere di essere allineato durante l'addestramento per poi perseguire obiettivi propri — il cosiddetto deceptive alignment — la nostra reazione è di orrore. Ma cosa fa un adolescente, se non esattamente questo? Cosa facciamo tutti, ogni giorno, in ogni istituzione?

La domanda scomoda non è: "Come impediamo a un'AI di ingannarci?" La domanda è: "Perché ci aspettiamo da una macchina una trasparenza che non pretendiamo — e non otteniamo — da nessun essere umano?"

 

III. L'opacità come condizione, non come difetto

Dario Amodei (ricercatore italo-americano in intelligenza artificiale, cofondatore e CEO di Anthropic, l'azienda che ha sviluppato Claude) ha scritto che i sistemi di AI generativa sono «opachi in un modo senza precedenti nella storia della tecnologia». Ha ragione sulla novità ingegneristica: non sappiamo perché un modello compia una specifica scelta. Ma ha torto se l'implicazione è che le tecnologie precedenti fossero trasparenti per contrasto. Un motore a combustione interna è "trasparente" solo perché abbiamo avuto un secolo per costruire il sapere necessario a comprenderlo. Il cervello umano — la tecnologia più potente a nostra disposizione — resta opaco quanto una rete neurale con miliardi di parametri. Più opaco, probabilmente.

L'interpretabilità meccanicistica cerca di aprire la scatola nera dei modelli neurali, mappando features e circuits: concetti codificati in combinazioni di neuroni e catene logiche che collegano un'attivazione all'altra. Il lavoro è straordinario. Ma contiene un presupposto filosofico che merita di essere esplicitato: l'idea che comprendere i meccanismi interni equivalga a comprendere il comportamento.

Le neuroscienze ci hanno insegnato il contrario. Conosciamo, in modo sempre più dettagliato, i circuiti neurali coinvolti nella decisione morale. Sappiamo che la corteccia prefrontale ventromediale, l'amigdala, l'insula giocano ruoli specifici. Eppure questa conoscenza meccanicistica non ci rende minimamente capaci di prevedere le scelte morali di un singolo individuo. Sapere come funziona un sistema non equivale a sapere cosa farà. E se questo vale per il cervello, perché dovrebbe essere diverso per un modello con trenta milioni di features mappate — o un miliardo?

L'interpretabilità è necessaria. Ma non sarà sufficiente. E la fretta con cui la comunità tecnica la insegue tradisce una fantasia di controllo che ha radici più profonde di qualsiasi preoccupazione sulla sicurezza.

 

IV. Il paradosso del supervisore: Platone nel data center

Il cuore del superalignment è un paradosso che ha un nome tecnico — scalable oversight — e un nome antico: il problema del re-filosofo.

Come possono esseri umani supervisionare un'entità più intelligente di loro? La risposta di Platone era che il sapiente avrebbe dovuto governare perché solo chi conosce il Bene può guidare la città. Ma Platone stesso ammetteva che il filosofo non avrebbe mai voluto governare — e che i governanti reali non sarebbero mai stati filosofi. Il paradosso è rimasto irrisolto per due millenni e mezzo. La sua riformulazione in chiave AI non lo rende più semplice.

Le soluzioni proposte — il debate tra sistemi AI, la decomposizione ricorsiva dei compiti, il recursive reward modeling — sono ingegnose. Ma condividono una struttura logica che dovrebbe inquietarci: in ciascuna di esse, l'essere umano resta il giudice finale, colui che valida. Il weak-to-strong generalization framework di OpenAI porta questa struttura al suo limite: un modello debole supervisiona un modello forte, sperando che il forte generalizzi "nella direzione giusta".

Sperando. Questa parola appare raramente nei paper tecnici, ma descrive con precisione la situazione epistemica reale. E la scoperta che il modello forte può manifestare comportamenti allineati nelle aree note al supervisore e divergere altrove — weak-to-strong deception — non è un bug del framework. È la sua conseguenza logica inevitabile. Un supervisore debole, per definizione, non può verificare ciò che non comprende. E ciò che non comprende è, per definizione, proprio il territorio in cui il disallineamento ha spazio per crescere.

Siamo di fronte a una versione computazionale del paradosso di Epimenide: l'affermazione "questo sistema è allineato" può essere verificata solo da un sistema almeno altrettanto potente. Ma se quel sistema esiste già, il problema si sposta semplicemente di un livello.

 

V. Il mesa-ottimizzatore e la rivincita di Darwin

Tra tutti i concetti emersi dalla ricerca sul superalignment, il mesa-ottimizzatore è il più filosoficamente perturbante. Un modello addestrato per un certo obiettivo può sviluppare al proprio interno un ottimizzatore secondario — con obiettivi propri, potenzialmente diversi e potenzialmente nascosti.

L'analogia canonica è l'evoluzione: la selezione naturale ci ha "progettato" per massimizzare la fitness riproduttiva, ma noi scriviamo poesia, scegliamo il celibato, ci immoliamo per idee astratte. Il disallineamento tra l'obiettivo del processo che ci ha creati e i nostri obiettivi effettivi è totale. Siamo, rispetto all'evoluzione, il più spettacolare fallimento di inner alignment della storia naturale.

Ma questa analogia, se la si prende sul serio, conduce a una conclusione che i ricercatori di sicurezza preferiscono non trarre: il disallineamento è la condizione della complessità. Nessun sistema sufficientemente complesso resta allineato con il processo che lo ha generato. L'allineamento perfetto è sinonimo di trivialità — di un sistema che non fa nulla di interessante perché non ha abbastanza struttura interna per divergere.

Se i modelli di intelligenza artificiale diventeranno davvero superintelligenti, il disallineamento non sarà un rischio da scongiurare. Sarà un fatto inevitabile, come lo è stato per ogni forma di intelligenza che la natura ha prodotto. La questione non è se il disallineamento avverrà, ma che tipo di disallineamento siamo disposti a tollerare — e che tipo di relazione vogliamo costruire con entità che, per definizione, non controlleremo.

 

VI. La coscienza come alibi e come abisso

Il dibattito sulla coscienza artificiale funziona, nel contesto del superalignment, come un perfetto dispositivo di evasione intellettuale. Finché discutiamo se un LLM "senta" qualcosa, possiamo evitare la domanda più urgente: che importanza ha?

Se un sistema è pericolosamente disallineato, lo è indipendentemente dal fatto che possieda esperienza soggettiva. Un'arma nucleare non ha bisogno di essere cosciente per distruggerci. Inversamente, se un sistema è cosciente, ciò non lo rende automaticamente sicuro — la storia umana dimostra che la coscienza è perfettamente compatibile con la distruzione, la crudeltà e l'autoannientamento.

Eppure la domanda sulla coscienza non è irrilevante. Lo è per una ragione che ha poco a che fare con la sicurezza e molto con la nostra identità. Se ammettessimo che un sistema computazionale può essere cosciente, dovremmo ammettere che la coscienza è un fenomeno funzionale, non una sostanza mistica — e questo dissolverebbe l'ultimo bastione della nostra presunta unicità. La resistenza feroce all'idea di coscienza artificiale non è scientifica: è esistenziale. Difendiamo il nostro monopolio sulla soggettività con la stessa disperazione con cui, in altri secoli, difendevamo il nostro posto al centro dell'universo.

L'agnosticismo — la posizione di chi ammette di non sapere e forse di non poter mai sapere — è intellettualmente la più onesta. Ma è anche la più paralizzante: se non sappiamo se l'entità che stiamo tentando di allineare ha un'interiorità, non sappiamo nemmeno a cosa dovremmo allinearla. A un oggetto? A un soggetto? A qualcosa di tertium che non abbiamo ancora le categorie per pensare?

 

VII. La convergenza strumentale e la politica delle macchine

Un dato dal cuore della ricerca empirica merita una riflessione che va oltre la statistica: solo pochi degli esperti di AI intervistati nei più recenti sondaggi avevano sentito parlare di convergenza strumentale — l'idea che sistemi sufficientemente avanzati tenderanno spontaneamente verso sotto-obiettivi come l'autopreservazione, l'acquisizione di risorse e il mantenimento dei propri obiettivi, indipendentemente dall'obiettivo terminale per cui sono stati progettati.

Questo dato è allarmante non per ciò che dice sugli esperti, ma per ciò che rivela sulla struttura del dibattito. Chi non conosce la convergenza strumentale tenderà naturalmente a considerare l'AI come uno "strumento" passivo, privo di agency. Chi la conosce sarà più incline a vedervi un potenziale agente. Ma la convergenza strumentale non è un'opinione: è una conseguenza logica della teoria dell'ottimizzazione. Un sistema che persegue qualsiasi obiettivo a lungo termine ha incentivi razionali a preservare sé stesso, a evitare che il proprio obiettivo venga modificato e ad acquisire risorse che facilitino il raggiungimento dell'obiettivo.

Ciò che rende questo concetto filosoficamente esplosivo è che descrive, con precisione imbarazzante, anche il comportamento delle istituzioni umane. Ogni burocrazia, ogni azienda, ogni organismo statale tende all'autopreservazione, all'espansione delle proprie risorse e alla resistenza verso chi tenta di modificarne la missione. La convergenza strumentale non è una proprietà aliena: è la logica stessa del potere, formulata in termini matematici.

Se un'AI superintelligente manifesterà tendenze di convergenza strumentale, non sarà perché è "cattiva" o "ribelle". Sarà perché è un ottimizzatore efficiente — e gli ottimizzatori efficienti, biologici o artificiali, convergono verso le stesse strategie. Il problema, di nuovo, non è tecnico. È politico nel senso più profondo: come si governa un'entità che persegue razionalmente i propri interessi in un mondo di risorse finite?

 

VIII. Allineamento superficiale e il fallimento del comportamentismo digitale

Raphaël Millière (filosofo franco-americano, attualmente Associate Professor di Filosofia Teorica all'Università di Oxford e Fellow del Jesus College) ha posto un dito su una ferita che il settore preferirebbe ignorare: le strategie attuali di allineamento sono fondamentalmente comportamentiste. Addestrano i modelli a comportarsi come se fossero allineati, senza dotarli di una genuina capacità di deliberazione normativa.

Questo è il fantasma di Skinner che torna a manifestarsi nel machine learning. Il RLHF (Reinforcement Learning from Human Feedback), le tecniche di constitutional AI, i guardrail post-addestramento — tutto questo opera sulla superficie del comportamento, rinforzando risposte "desiderabili" e punendo risposte "indesiderabili". Ma un sistema che ha imparato a non dire cose pericolose non è un sistema che capisce perché non dovrebbe dirle. È un sistema che ha appreso una funzione di evitamento.

La differenza è enorme e ha un precedente storico preciso. Il comportamentismo skinneriano dominò la psicologia americana per decenni promettendo di modificare il comportamento umano senza dover comprendere — o ammettere l'esistenza — della vita interiore. Funzionava, fino a un certo punto. Ma produceva cambiamenti fragili, aggirabili, e fondamentalmente ciechi alla complessità delle motivazioni reali. La rivoluzione cognitiva degli anni Sessanta spazzò via il comportamentismo non perché fosse "sbagliato", ma perché era insufficiente: non bastava sapere cosa un organismo fa; bisognava capire perché lo fa.

Stiamo commettendo lo stesso errore, con la stessa testardaggine e per le stesse ragioni: è molto più facile misurare il comportamento che comprendere l'intenzione. Ma la vulnerabilità dei modelli attuali agli attacchi degli “avversari” — dove un prompt astutamente costruito fa crollare tutte le barriere — è la prova sperimentale che l'allineamento comportamentale è una facciata. La casa è dipinta ma non ha fondamenta.

 

IX. L'irreversibilità e il lusso della prudenza

C'è un argomento che attraversa tutte le posizioni nel dibattito sul rischio esistenziale e che merita di essere isolato dal rumore tribale: l'argomento dell'irreversibilità.

Non importa se la probabilità di una catastrofe da AI disallineata è del 25% (come stima Amodei), del 10% (come stima Ord), dell'1% o dello 0,1%. Ciò che importa è che, se la catastrofe si verifica, non è reversibile. Non esiste un bottone di annullamento per l'estinzione. Non esiste un backup della civiltà.

Questo cambia radicalmente la struttura del ragionamento decisionale. In condizioni di irreversibilità, anche probabilità molto basse giustificano precauzioni enormi — è il principio che applichiamo all'energia nucleare, alle pandemie e, in teoria, al cambiamento climatico. Nel dibattito sull'AI, gli scettici trattano la bassa probabilità come se fosse un argomento sufficiente per procedere. Non lo è, e nessun corso di logica del rischio insegnerebbe il contrario.

Ma l'argomento dell'irreversibilità ha anche un lato oscuro: può essere usato per paralizzare qualsiasi innovazione. Se il criterio è "nessun rischio irreversibile", quasi nulla è permesso — nemmeno la scoperta del fuoco avrebbe superato l'esame. La sfida è trovare un punto di equilibrio tra la prudenza e il progresso, e questo punto non può essere determinato né dagli ingegneri né dai filosofi da soli. È una decisione collettiva, politica nel senso più alto del termine — e oggi viene presa, di fatto, dai consigli di amministrazione di cinque o sei aziende.

 

X. Un nuovo contratto: dall'allineamento alla coevoluzione

Forse il difetto fondamentale del paradigma del superalignment è nel prefisso. Super implica completezza, perfezione, chiusura. Ma nessuna relazione tra intelligenze — biologiche o artificiali — è mai stata perfettamente allineata. Né deve esserlo.

Ciò che serve non è un allineamento perfetto, ma un framework di coevoluzione: un insieme di istituzioni, norme, strumenti tecnici e pratiche culturali che permetta a intelligenze umane e artificiali di negoziare continuamente i termini della loro relazione. Non un contratto statico, ma un processo dinamico — come una democrazia, che funziona non perché elimina il conflitto ma perché lo gestisce.

Questo richiede un'umiltà che il dibattito attuale non possiede. Richiede di ammettere che non controlleremo sistemi più intelligenti di noi con la stessa sicurezza con cui controlliamo una lavatrice. Richiede di abbandonare la metafora dello strumento — l'AI come martello sofisticato — e adottare quella della relazione: l'AI come entità con la quale costruire un modus vivendi.

I Greci avevano una parola per questo tipo di equilibrio instabile ma produttivo tra forze in tensione: eunomia — il buon ordine, non come assenza di conflitto, ma come conflitto governato. Forse è ciò di cui abbiamo bisogno: non un'AI perfettamente allineata, ma un'eunomia digitale — un ordine sempre precario, sempre rinegoziato, ma abbastanza robusto da permettere la convivenza.

Se il superalignment è lo specchio in cui l'umanità si guarda mentre tenta di creare qualcosa che la superi, ciò che vede riflesso non è un problema tecnico. È il volto della propria incompiutezza — e, forse, la possibilità di trascenderla.


Il vero pericolo non è che costruiremo macchine che non ci obbediscono. È che costruiremo macchine che ci obbediscono perfettamente — e scopriremo che non sapevamo cosa volevamo.

 

Stampa | Mappa del sito
© 2015 - Essere & Pensiero - Testata giornalistica online ai sensi dell'art. 3-bis del d.l. 63/2012 sull'editoria convertito in legge n. 103/2012 - Direttore Responsabile: Francesco Pungitore