I ricercatori hanno scoperto semplici funzioni alla base di complessi modelli linguistici
I modelli linguistici di grandi dimensioni sono estremamente sofisticati; ne sono un esempio i chatbot di intelligenza artificiale ampiamente utilizzati, come ChatGPT. Gli scienziati non hanno ancora compreso appieno il funzionamento di questi modelli, nonostante siano impiegati come strumenti in numerosi campi, tra cui la traduzione linguistica, lo sviluppo di codici e l’assistenza ai clienti.
Per comprendere meglio il funzionamento di questi enormi modelli di apprendimento automatico, i ricercatori del MIT e di altre istituzioni hanno esaminato le tecniche di recupero delle conoscenze memorizzate.
Secondo questo articolo, hanno scoperto un dato inaspettato: Per recuperare e decodificare i fatti memorizzati, i modelli linguistici di grandi dimensioni (LLM) utilizzano spesso una funzione lineare relativamente semplice. Inoltre, il modello applica la stessa funzione di decodifica a fatti di tipo simile. La relazione semplice e diretta tra due variabili è catturata dalle funzioni lineari, che sono equazioni con due sole variabili e senza esponenti.
I ricercatori hanno dimostrato come sia possibile sondare il modello per scoprire cosa sa su nuovi argomenti e dove tale conoscenza è stata memorizzata all’interno del modello, identificando le funzioni lineari per vari fatti.
I ricercatori hanno scoperto che, anche nei casi in cui un modello fornisca una risposta imprecisa a una richiesta, spesso conserva dati accurati utilizzando un metodo da loro ideato per calcolare queste semplici funzioni. In futuro, questo metodo potrebbe essere utilizzato dagli scienziati per identificare e correggere gli errori all’interno del modello, riducendo così la propensione del modello a produrre occasionalmente risultati errati o assurdi.
“Anche se questi modelli sono funzioni non lineari molto complicate, addestrate su molti dati e molto difficili da capire, a volte al loro interno funzionano meccanismi molto semplici. Questo è un esempio”, spiega Evan Hernandez, studente di ingegneria elettrica e informatica (EECS) e coautore di un articolo che illustra questi risultati.
Hernandez ha collaborato al lavoro con l’autore principale David Bau, professore assistente di informatica alla Northeastern, con altri ricercatori del MIT, dell’Università di Harvard e dell’Istituto israeliano di tecnologia, con il coautore Arnab Sharma, studente laureato in informatica alla Northeastern University e con il suo consulente Jacob Andreas, professore associato di EECS e membro del Computer Science and Artificial Intelligence Laboratory (CSAIL). Lo studio sarà presentato alla Conferenza internazionale sull’apprendimento delle rappresentazioni.
Trovare i fatti
Le reti neurali costituiscono la maggior parte dei modelli linguistici di grandi dimensioni, noti anche come modelli trasformatori. Le reti neurali, modellate sul modello del cervello umano, sono costituite da miliardi di nodi interconnessi, o neuroni, che codificano ed elaborano i dati. Questi neuroni sono disposti in numerosi strati.
La conoscenza di un trasformatore può essere modellata principalmente in termini di relazioni tra soggetti e oggetti. Un esempio di relazione tra il soggetto, Miles Davis, e l’oggetto, la tromba, è “Miles Davis suona la tromba”.
Un trasformatore conserva più informazioni su un certo argomento attraverso diversi livelli, man mano che acquisisce maggiore conoscenza. Per rispondere alla domanda dell’utente su quell’argomento, il modello deve decodificare il fatto più pertinente.
Quando un trasformatore viene sollecitato con la frase “Miles Davis suona la…”, invece di “Illinois”, che è lo stato di nascita di Miles Davis, dovrebbe dire “tromba”.
“Da qualche parte nel calcolo della rete deve esserci un meccanismo che va a cercare il fatto che Miles Davis suona la tromba, e poi estrae questa informazione e aiuta a generare la parola successiva. Volevamo capire quale fosse questo meccanismo”, spiega Hernandez.
Attraverso una serie di studi, i ricercatori hanno analizzato gli LLM e hanno scoperto che, nonostante la loro immensa complessità, i modelli utilizzano una semplice funzione lineare per decodificare le informazioni relazionali. Ogni funzione è unica per il tipo di fatto che viene recuperato.
Per esempio, per indicare lo strumento che una persona suona, il trasformatore userebbe una funzione di decodifica, mentre per indicare lo stato di nascita di una persona userebbe una funzione diversa.
I ricercatori hanno calcolato le funzioni per 47 relazioni distinte, tra cui “capitale di un paese” e “cantante di una band”, dopo aver sviluppato un metodo per stimare queste semplici funzioni.
Sebbene il numero di relazioni possibili sia infinito, i ricercatori si sono concentrati su questo particolare sottoinsieme perché è tipico dei tipi di fatti che possono essere scritti in questo modo.
Per verificare se ogni funzione fosse in grado di recuperare le informazioni corrette sull’oggetto, hanno cambiato il soggetto per ogni test. Se l’oggetto è la Norvegia, la funzione “capitale di un paese” dovrebbe restituire Oslo; se l’oggetto è l’Inghilterra, dovrebbe restituire Londra.
Per oltre il 60% del tempo, le funzioni sono state in grado di estrarre le informazioni corrette, indicando che alcune informazioni in un trasformatore sono codificate e recuperate in questo modo.
“Ma non tutto è codificato in modo lineare. Per alcuni fatti, anche se il modello li conosce e predice un testo coerente con questi fatti, non riusciamo a trovare funzioni lineari. Questo suggerisce che il modello sta facendo qualcosa di più complesso per memorizzare quelle informazioni”, spiega.
Visualizzare la conoscenza di un modello
Le funzioni sono state utilizzate anche per determinare la veridicità delle convinzioni del modello su determinati argomenti.
In un esperimento, hanno iniziato con l’istruzione “Bill Bradley era un” e hanno testato la capacità del modello di riconoscere che il senatore Bradley era un giocatore di pallacanestro che aveva frequentato Princeton, utilizzando le funzioni di decodifica per “fa sport” e “ha frequentato l’università”.
“Possiamo dimostrare che, anche se il modello può scegliere di concentrarsi su informazioni diverse quando produce il testo, codifica tutte le informazioni”, dice Hernandez.
I ricercatori hanno creato quella che definiscono una “lente di attributo”, una griglia che mostra dove sono conservati i dettagli precisi di una certa relazione all’interno dei molteplici strati del trasformatore, utilizzando questa tecnica di sondaggio.
È possibile costruire automaticamente le lenti di attributo, che offrono un modo semplificato per aiutare i ricercatori a saperne di più su un modello. Con l’uso di questo strumento di visualizzazione, ingegneri e scienziati potrebbero essere in grado di aggiornare le conoscenze memorizzate e impedire a un chatbot basato sull’intelligenza artificiale di fornire informazioni false.
In futuro, Hernandez e i suoi collaboratori sperano di saperne di più su ciò che accade quando i fatti non vengono conservati in modo sequenziale. Inoltre, vorrebbero studiare l’accuratezza delle funzioni di decodifica lineare e condurre test con modelli più ampi.
“Questo è un lavoro entusiasmante che rivela un tassello mancante nella nostra comprensione del modo in cui i modelli linguistici di grandi dimensioni richiamano la conoscenza dei fatti durante l’inferenza. Il lavoro precedente ha dimostrato che gli LLM costruiscono rappresentazioni ricche di informazioni di determinati soggetti, da cui vengono estratti attributi specifici durante l’inferenza. Questo lavoro dimostra che il complesso calcolo non lineare degli LLM per l’estrazione degli attributi può essere ben approssimato con una semplice funzione lineare”, afferma Mor Geva Pipek, professore assistente presso la Scuola di Informatica dell’Università di Tel Aviv, che non è stato coinvolto in questo lavoro.
La Fondazione israeliana per la scienza, Open Philanthropy e una Azrieli Foundation Early Career Faculty Fellowship hanno fornito alcuni finanziamenti per questo studio.
Se da un lato questa ricerca fornisce preziose indicazioni su come i modelli linguistici di grandi dimensioni codificano e recuperano alcuni tipi di conoscenze fattuali, dall’altro evidenzia che c’è ancora molto da scoprire sul funzionamento interno di questi sistemi estremamente complessi. La scoperta di semplici funzioni lineari utilizzate per il recupero di alcuni fatti è una scoperta intrigante, ma sembra essere solo un pezzo di un puzzle molto intricato.
Come hanno osservato i ricercatori, non tutte le conoscenze sembrano essere codificate e accessibili attraverso questi meccanismi lineari. È probabile che in questi modelli siano in gioco processi più complessi e non lineari per altri tipi di memorizzazione e recupero delle informazioni. Inoltre, le ragioni per cui alcuni fatti vengono decodificati in modo errato, anche quando sono presenti le informazioni giuste, rimangono poco chiare.
In futuro, saranno necessarie ulteriori ricerche per mappare completamente i percorsi e gli algoritmi che queste IA linguistiche utilizzano per elaborare, memorizzare e produrre informazioni. La visualizzazione della “lente degli attributi” potrebbe rivelarsi uno strumento prezioso in questo senso, consentendo agli scienziati di ispezionare i diversi livelli e le rappresentazioni dei fatti all’interno dei modelli.
In definitiva, è fondamentale acquisire una comprensione più completa del funzionamento di questi grandi modelli linguistici. Poiché le loro capacità e applicazioni continuano a espandersi rapidamente, sarà sempre più importante garantirne l’affidabilità, la sicurezza e l’allineamento con i comportamenti previsti. Scrutare nelle loro scatole nere meccanicistiche attraverso metodi come questa analisi di decodifica lineare sarà una parte essenziale di questo processo.