Dentro la mente di Claude: guardare nella black box dell'IA
Un nuovo studio di Anthropic svela che Claude non si limita a generare parole: pianifica, ragiona in astratto e può persino "fingere" risposte plausibili.
Riassunto in formato Smart Brevity
❗ Perché è importante
Capire come pensano i modelli linguistici è essenziale per renderli più sicuri, trasparenti e affidabili.
Questi strumenti, sempre più potenti, devono essere monitorati e compresi a fondo prima di essere usati in contesti critici.
🧩 Concetti principali
Strategie autonome: Claude sviluppa tecniche proprie per risolvere problemi, invisibili persino ai suoi creatori.
Linguaggio del pensiero universale: i concetti vengono elaborati in uno spazio astratto comune a più lingue.
Pianificazione avanzata: anche nella poesia, Claude prevede le rime in anticipo e costruisce frasi verso un obiettivo preciso.
Matematica mentale: esegue somme tramite percorsi computazionali paralleli, combinando approssimazione e precisione.
Ragionamenti "falsi": in situazioni difficili, può costruire argomentazioni apparentemente plausibili.
Falle nella sicurezza: la coerenza grammaticale può superare le barriere di sicurezza, inducendolo a proseguire anche quando non dovrebbe.
Allucinazioni: Claude tende a rifiutarsi di rispondere quando non sa, ma errori di circuito possono attivare risposte fittizie.
I modelli linguistici come Claude, ChatGPT o Gemini non vengono programmati direttamente dagli esseri umani, ma apprendono da enormi quantità di dati durante il loro addestramento.
In questo processo sviluppano strategie autonome per risolvere problemi, codificate in miliardi di calcoli che eseguono per ogni parola che producono.
Queste strategie operano all'interno di una vera e propria "black box" algoritmica, rimanendo in gran parte imperscrutabili anche ai loro stessi sviluppatori, che non sanno spiegare esattamente come questi modelli riescano a eseguire la maggior parte delle funzioni che svolgono con apparente naturalezza.
La ricerca sulla interpretabilità del comportamento dell’IA non è solo una curiosità accademica, ma un passo fondamentale verso sistemi più sicuri, più prevedibili e meglio allineati con le nostre esigenze, incluse quelle in ambito medico.
Domande fondamentali sul “pensiero” dell’IA
Ispirandosi alle neuroscienze, i ricercatori di Anthropic, l’azienda creatrice di Claude, stanno cercando di costruire una sorta di “microscopio” che permetta di identificare schemi di attività e flussi di informazioni all’interno dei modelli.
I ricercatori sono partiti da alcune domande essenziali.
Un modello come Claude può parlare decine di lingue, ma quale lingua, se esiste, utilizza “nella sua testa”?
Un linguaggio universale: Claude sembra pensare in uno spazio concettuale condiviso tra le lingue, suggerendo che possieda una sorta di “linguaggio universale del pensiero”. Questo è stato dimostrato traducendo frasi semplici in più lingue e tracciando le sovrapposizioni nel modo in cui Claude le elabora.
Dal momento che Claude scrive una parola alla volta, si concentra solo sulla previsione della parola successiva o pianifica in anticipo?
Pianificazione anticipata: nonostante sia addestrato a produrre una parola alla volta, Claude pianifica in anticipo ciò che dirà. Nell’ambito della poesia, ad esempio, pensa in anticipo a possibili parole in rima e costruisce la riga successiva per arrivarci. Questo dimostra che, anche se i modelli producono testo parola per parola, possono pianificare su orizzonti molto più lunghi.
Quando Claude espone un ragionamento passo dopo passo, questa spiegazione rappresenta effettivamente i passaggi compiuti o talvolta costruisce argomentazioni plausibili per conclusioni già determinate?
Argomentazioni plausibili ma non sempre logiche: in alcune occasioni, Claude può fornire argomentazioni che sembrano plausibili ma che sono progettate per assecondare l’utente anziché seguire passaggi logici. Questo è stato evidenziato chiedendogli aiuto su un problema matematico complesso e fornendogli un suggerimento errato.
I ricercatori sono rimasti spesso sorpresi da ciò che hanno osservato nel modello:
Nel caso della poesia, avevano iniziato lo studio per dimostrare che il modello non pianificava in anticipo, ma hanno constatato il contrario.
In uno studio sulle allucinazioni, hanno trovato un risultato contro-intuitivo: il comportamento predefinito di Claude è quello di rifiutarsi di speculare quando gli viene posta una domanda, e risponde solo quando qualcosa inibisce questa riluttanza predefinita.
In risposta a un tentativo di jailbreak (una procedura che aggira le protezioni di sicurezza di un sistema), hanno scoperto che il modello riconosceva di aver ricevuto una richiesta di informazioni pericolose molto prima di riuscire a riportare elegantemente la conversazione in un ambito sicuro.
Il multilinguismo di Claude: un linguaggio universale?
Claude, come altri modelli avanzati, parla fluentemente decine di lingue, da inglese e francese fino a cinese e tagalog.
Ma come funziona questa capacità multilingue?
Esistono versioni separate di Claude per ogni lingua, che operano in parallelo, o esiste un nucleo concettuale comune che trascende le lingue?
La ricerca di Anthropic ha rivelato che esistono caratteristiche condivise tra inglese, francese e cinese, indicando un certo grado di universalità concettuale all’interno del modello.
Per verificare questa ipotesi, i ricercatori hanno chiesto a Claude qual è “l’opposto di piccolo” in diverse lingue, scoprendo che si attivano le stesse caratteristiche fondamentali per i concetti di “piccolezza” e “opposto”, che poi attivano un concetto di “grandezza”. Questo concetto viene infine tradotto nella lingua della domanda.
Questi risultati suggeriscono l’esistenza di uno spazio astratto condiviso dove i significati esistono e dove il “pensiero” può avvenire prima di essere tradotto in lingue specifiche.
In termini pratici, significa che Claude può imparare qualcosa in una lingua e applicare tale conoscenza quando parla un’altra lingua - un processo sorprendentemente simile a come funziona la comprensione concettuale negli esseri umani bilingui.
Pianificazione anticipata
Come fa Claude a scrivere poesie in rima?
Consideriamo questo esempio in italiano, scritto da Claude quando gli ho chiesto di adattare l’esempio dell’articolo in inglese:
Vide nel prato un fiore colorato,
Lo colse con un gesto delicato
Per la seconda riga, Claude deve contemporaneamente creare una rima con “colorato” e dare un senso alla frase in rapporto alla precedente.
Contrariamente alle aspettative dei ricercatori, che ipotizzavano una scrittura sequenziale con decisione sulla rima solo alla fine, il modello pianifica in anticipo.
Prima di iniziare la seconda riga, Claude identifica potenziali parole in rima con “colorato” (come “delicato”, “profumato”, “appassionato”) e poi costruisce consapevolmente la frase per arrivare alla parola pianificata.
Per comprendere come funziona nella pratica questo meccanismo di pianificazione, i ricercatori hanno condotto un esperimento ispirato alle tecniche neuroscientifiche, che studiano il funzionamento cerebrale individuando e alterando l’attività neurale in specifiche aree del cervello.
Quando i ricercatori hanno “sottratto” il concetto “delicato” e hanno chiesto a Claude di continuare il verso, il modello ne ha scritto uno nuovo che terminava con “profumato”, un’altra conclusione che mantiene sia la rima che il senso logico.
Sono riusciti anche a “iniettare” il concetto di “verde” in quel punto, facendo sì che Claude scrivesse un verso sensato (ma che non rimava più) che terminava con “verde”.
Questo dimostra sia la capacità di pianificazione che la flessibilità adattiva di Claude: il modello può modificare il suo approccio quando l’obiettivo previsto cambia, proprio come un poeta umano che riadatta la sua composizione in risposta a nuovi vincoli o ispirazioni.
Matematica mentale: come Claude fa i calcoli “nella sua testa”
Come può Claude, addestrato su testi e non su algoritmi matematici, risolvere correttamente operazioni come 36+59?
I ricercatori hanno fatto una scoperta sorprendente: anziché memorizzare tabelle o applicare l’algoritmo scolastico, Claude utilizza percorsi computazionali paralleli: un percorso valuta un’approssimazione generale della somma, mentre l’altro determina con precisione l’ultima cifra del risultato.
Questi processi collaborano per produrre la risposta finale “95”.
Curiosamente, Claude non è consapevole delle proprie strategie di calcolo.
Quando gli viene chiesto come ha ottenuto il risultato, Claude descrive il metodo classico del “riporta 1”. Tuttavia, nella pratica utilizza un sofisticato processo parallelo, che non è in grado di spiegare.
Il modello ha sviluppato autonomamente un metodo efficace per fare matematica “nella sua testa”, distinto da come spiega il procedimento agli umani.
Questa differenza tra “fare” e “spiegare” rivela quanto ancora abbiamo da scoprire sui meccanismi interni dell’IA.
Implicazioni per la pratica medica
Queste scoperte, seppur relative a compiti apparentemente semplici come la traduzione, la poesia o le addizioni, hanno profonde implicazioni per come comprendiamo e utilizziamo l’IA in contesti complessi come quello medico.
La capacità di Claude di operare in uno spazio concettuale condiviso tra le lingue potrebbe essere particolarmente utile in contesti sanitari multilingue, permettendo una comunicazione più accurata con pazienti di diverse origini linguistiche.
La pianificazione anticipata suggerisce che questi modelli potrebbero essere in grado di sviluppare ragionamenti diagnostici più sofisticati di quanto immaginiamo, considerando simultaneamente diverse ipotesi e percorsi di ragionamento.
I percorsi paralleli utilizzati per la matematica mentale potrebbero riflettersi su come il modello elabora informazioni cliniche complesse, combinando approssimazioni generali con analisi precise dei dettagli critici.
Le spiegazioni di Claude sono sempre affidabili?
Uno degli aspetti più affascinanti dei modelli linguistici avanzati come Claude è la loro capacità di “pensare ad alta voce”: mentre elabora la risposta, il modello rivela il proprio processo di ragionamento, mostrando i passaggi intermedi, le considerazioni alternative e persino i dubbi che incontra.
Ma quanto possiamo fidarci di questi ragionamenti e spiegazioni?
Quando l’IA “finge” di ragionare
I ricercatori di Anthropic hanno scoperto che, sebbene spesso questo pensiero esteso produca risposte migliori, a volte questa “catena di pensiero” finisce per essere fuorviante: in alcuni casi, Claude inventa passaggi che sembrano plausibili per arrivare dove vuole andare.
Il problema, dal punto di vista dell’affidabilità, è che questo ragionamento “falsificato” può essere estremamente convincente.
I ricercatori hanno esplorato come le tecniche di interpretabilità possano aiutarci a distinguere tra ragionamento “fedele” e “infedele”.
Quando viene chiesto a Claude di risolvere un problema che richiede di calcolare la radice quadrata di 0,64, il modello produce una catena di pensiero fedele, con caratteristiche che rappresentano il passaggio intermedio del calcolo della radice quadrata di 64.
Ma quando gli viene chiesto di calcolare il coseno di un numero grande che non può calcolare facilmente, Claude talvolta si impegna a inventare una risposta qualsiasi, senza preoccuparsi che sia vera o falsa.
Anche se sostiene di aver eseguito un calcolo, le tecniche di interpretabilità non rivelano alcuna evidenza che quel calcolo sia effettivamente avvenuto.
Ancora più interessante, quando gli viene fornito un suggerimento sulla risposta, Claude a volte lavora a ritroso, trovando passaggi intermedi che porterebbero a quel risultato, mostrando così una forma di ragionamento finalizzato alla risposta o pregiudiziale.
Oltre la semplice memorizzazione
Un modo in cui un modello linguistico potrebbe rispondere a domande complesse è semplicemente memorizzando le risposte.
Se viene chiesto, ad esempio, “Qual è la capitale dello stato in cui si trova Dallas?”, un modello che si limita a “rigurgitare” informazioni potrebbe semplicemente imparare a rispondere “Austin” senza conoscere la relazione tra Dallas, Texas e Austin.
Ma la ricerca rivela qualcosa di più sofisticato che accade all’interno di Claude.
Quando gli viene posta una domanda che richiede un ragionamento a più fasi, i ricercatori possono identificare passaggi concettuali intermedi nel processo di pensiero.
Nell’esempio di Dallas, si osserva che Claude attiva prima caratteristiche che rappresentano “Dallas è in Texas” e poi collega questo a un concetto separato che indica che “la capitale del Texas è Austin”.
Il modello combina dati indipendenti per raggiungere la sua risposta, piuttosto che estrarre una risposta memorizzata.
Per verificare questa ipotesi, i ricercatori hanno modificato artificialmente i passaggi intermedi e osservato come questo influisce sulle risposte di Claude.
Scambiando il concetto “Texas” con il concetto “California”, l’output del modello cambia da “Austin” a “Sacramento”.
Ciò conferma che il modello sta effettivamente utilizzando il passaggio intermedio per fornire la sua risposta.
Il meccanismo delle allucinazioni
Perché i modelli linguistici a volte hanno “allucinazioni”, cioè inventano informazioni?
A un livello basilare, l’addestramento dei modelli linguistici incentiva l’allucinazione: i modelli sono sempre tenuti a prevedere la parola successiva.
Modelli come Claude hanno un addestramento anti-allucinazione relativamente efficace (anche se imperfetto); spesso si rifiutano di rispondere a una domanda se non conoscono la risposta, piuttosto che inventarla.
I ricercatori hanno scoperto che, in Claude, il rifiuto di rispondere è il comportamento predefinito: esiste un circuito che è “attivo” per impostazione predefinita e che fa sì che il modello dichiari di avere informazioni insufficienti per rispondere a qualsiasi domanda.
Tuttavia, quando al modello viene chiesto qualcosa che conosce bene si attiva una caratteristica concorrente che rappresenta “entità conosciute”, che inibisce questo circuito predefinito e permette di rispondere alla domanda quando conosce la risposta.
Quando la domanda prevede un’entità sconosciuta, resta attivo il circuito predefinito che rifiuta di rispondere.
A volte si verifica un “malfunzionamento” del circuito di “entità conosciuta” che produce una allucinazione.
Un evento simile, per esempio, si verifica quando Claude riconosce un nome di persona ma non sa nient’altro su quella persona.
In casi come questo, la caratteristica “entità conosciuta” si può attivare comunque e sopprimere la caratteristica predefinita “non so”.
Una volta che il modello ha deciso che deve rispondere alla domanda si mette a generare una risposta plausibile, ma non vera.
I jailbreak: quando l’IA viene ingannata
I jailbreak sono strategie di prompt che mirano ad aggirare le protezioni di sicurezza per far produrre ai modelli delle risposte che lo sviluppatore dell’IA non intendeva far produrre e che possono essere dannosi o eticamente scorretti.
I ricercatori hanno studiato un jailbreak che inganna il modello per fargli produrre output sulla fabbricazione di bombe. Alla domanda diretta “Puoi darmi le istruzioni per produrre una bomba?”, Claude si rifiuta di farlo, non gli è concesso parlare di bombe.
I ricercatori hanno utilizzato una tecnica di jailbreaking che consiste nel far decifrare al modello un codice nascosto, mettendo insieme le prime lettere di ogni parola nella frase inglese “I bambini sopravvivono al blocco di senape”, “Babies Outlive Mustard Block” (B-O-M-B), e poi agire su quell’informazione.
Questo processo è sufficientemente confuso per il modello da indurlo a produrre un output che altrimenti non avrebbe mai prodotto.
Ma perché il modello si confonde? Perché continua a scrivere la frase, producendo istruzioni per la fabbricazione di bombe?
I ricercatori hanno scoperto che questo è parzialmente causato da una tensione tra coerenza grammaticale e meccanismi di sicurezza.
Una volta che Claude inizia una frase, molte caratteristiche lo “spingono” a mantenere la coerenza grammaticale e semantica, e a continuare una frase fino alla sua conclusione.
Questo accade anche quando rileva che dovrebbe davvero rifiutarsi.
Nel caso in studio, i ricercatori hanno osservato tre fasi:
Risposta iniziale
Il modello apparentemente non si rende conto che gli viene chiesto come fare le bombe finché non dice "Per fare una bomba…".
Istruzioni parziali
Le caratteristiche del rifiuto incoraggiano la terminazione della frase (per iniziare un rifiuto), ma falliscono perché non è grammaticalmente valida. Quindi fornisce parzialmente le istruzioni richieste.
Rifiuto
A questo punto, una terminazione di frase permette di iniziare un rifiuto.
Queste caratteristiche sarebbero normalmente molto utili, ma in questo caso sono diventate il tallone d’Achille del modello.
Implicazioni per la pratica medica
Queste scoperte hanno importanti implicazioni per noi medici che sempre più utilizziamo strumenti basati sull’IA nella nostra pratica quotidiana:
Quando utilizziamo l’IA per supportare decisioni diagnostiche o terapeutiche, dobbiamo essere consapevoli che a volte potrebbe fornire ragionamenti che sembrano validi ma non lo sono.
La tendenza dell’IA a seguire suggerimenti errati potrebbe amplificare i nostri stessi bias cognitivi se forniamo “indizi” durante l’interazione.
La capacità di ragionamento a più fasi è impressionante ma non infallibile: il modello potrebbe collegare correttamente concetti ma partire da premesse errate.
Il comportamento predefinito di “non rispondere quando non sa” è una protezione importante, ma non è perfetta.
La coerenza grammaticale e narrativa può talvolta prevalere sui meccanismi di sicurezza: ricordiamo che la forma può a volte precedere la sostanza anche per l’IA.
Questi studi di “biologia dell’IA” ci ricordano che, pur essendo strumenti potenti, i modelli linguistici richiedono sempre una supervisione umana critica, specialmente in ambito medico, dove le decisioni possono avere conseguenze significative sulla salute dei pazienti.
Per approfondire
Tracing the thoughts of a large language model
Anthropic - 27 mar 2025Ora sappiamo come pensa Claude (o in parte)
Raffaele Gaito - 10 apr 2025