Gli LLM non possono imparare da soli

0
10
LLMs can't learn

I modelli linguistici di grandi dimensioni (LLM) non sono in grado di apprendere nuove competenze o di imparare da soli

Secondo uno studio riportato qui, nell’ambito degli interventi della più importante conferenza internazionale sull’elaborazione del linguaggio naturale, il 62° incontro annuale dell’Association for Computational Linguistics (ACL 2024), i LLM sono in grado di seguire le istruzioni e interagire con una lingua con competenza, ma non sono in grado di apprendere nuove abilità senza istruzioni dirette. Ciò implica che continuano a essere sicuri, prevedibili e sotto controllo.

Il team di studio è giunto alla conclusione che, sebbene esistano ancora potenziali rischi per la sicurezza, gli LLM, addestrati su serie di dati sempre più ampie, possono essere impiegati senza rischi.

È improbabile che questi modelli sviluppino capacità di ragionamento complesse, ma è probabile che producano un linguaggio sempre più sofisticato e migliorino nel rispondere a richieste specifiche e approfondite.

“La narrativa prevalente secondo cui questo tipo di IA è una minaccia per l’umanità impedisce l’adozione e lo sviluppo diffuso di queste tecnologie e distoglie l’attenzione dai problemi reali che richiedono la nostra attenzione”, ha dichiarato il dottor Harish Tayyar Madabushi, coautore del recente studio sulle “abilità emergenti” dei LLM e informatico dell’Università di Bath.

Sotto la direzione della professoressa Iryna Gurevych dell’Università Tecnica di Darmstadt in Germania, il team di studio ha condotto esperimenti per valutare le cosiddette abilità emergenti degli LLM, ovvero la loro capacità di svolgere compiti che i modelli non hanno mai incontrato prima.

Ad esempio, gli LLM sono in grado di rispondere alle richieste di informazioni su situazioni sociali, anche se non hanno mai ricevuto un addestramento o una programmazione specifica in quest’area. Nonostante studi precedenti suggerissero che questo fosse il risultato di una “conoscenza” delle situazioni sociali da parte dei modelli, i ricercatori hanno dimostrato che si tratta invece del risultato di un utilizzo delle ben note capacità di “apprendimento del contesto” (ICL) dei LLM, che permette loro di svolgere compiti basati su un numero ridotto di istanze che vengono loro presentate.

Attraverso migliaia di esperimenti, il gruppo ha dimostrato che i talenti e le limitazioni degli LLM possono essere spiegati da una combinazione di memoria, competenze linguistiche e capacità di seguire le istruzioni (ICL).

Il dottor Tayyar Madabushi ha affermato che: “Il timore è che, man mano che i modelli diventano sempre più grandi, siano in grado di risolvere nuovi problemi che attualmente non possiamo prevedere, con il rischio che questi modelli più grandi acquisiscano abilità pericolose, tra cui il ragionamento e la pianificazione”.

“Il nostro studio dimostra che il timore che un modello possa fare qualcosa di completamente inaspettato, innovativo e potenzialmente pericoloso non è fondato”.

“Le preoccupazioni sulla minaccia esistenziale rappresentata dagli LLM non sono limitate ai non esperti e sono state espresse da alcuni dei migliori ricercatori di IA di tutto il mondo”.

Il dottor Tayyar Madabushi, tuttavia, afferma che questa paura è ingiustificata perché i test condotti dai ricercatori hanno dimostrato inequivocabilmente che gli LLM non hanno capacità di ragionamento complesso emergente.

“Sebbene sia importante affrontare l’attuale potenzialità di un uso improprio dell’IA, come la creazione di fake news e l’aumento del rischio di frode, sarebbe prematuro emanare regolamenti basati sulla percezione di minacce esistenziali”, ha affermato Madabushi.

“Per gli utenti finali, ciò significa che affidarsi agli LLM per interpretare ed eseguire compiti complessi che richiedono un ragionamento complesso senza istruzioni esplicite è probabilmente un errore. Al contrario, è probabile che gli utenti beneficino nello specificare esplicitamente ciò che chiedono ai modelli di fare e nel fornire esempi, ove possibile, per tutti i compiti tranne che per quelli più semplici.”

Il professor Gurevych ha aggiunto: “… i nostri risultati non implicano che l’intelligenza artificiale non sia affatto una minaccia. Piuttosto, dimostriamo che il presunto emergere di abilità di pensiero complesse associate a minacce specifiche non è supportato da prove e che, dopotutto, possiamo controllare molto bene il processo di apprendimento degli LLM”.

“La ricerca futura dovrebbe quindi concentrarsi su altri rischi posti dai modelli, come il loro potenziale utilizzo per generare fake news”.

Questo studio innovativo chiarisce le idee sbagliate diffuse sulla natura imprevedibile dei Large Language Models e sulla loro possibile minaccia esistenziale per l’umanità. I ricercatori offrono una visione più solida delle capacità e dei limiti dell’IA, dimostrando che gli LLM mancano di capacità di ragionamento avanzate e di vere e proprie capacità emergenti.

I risultati implicano che, sebbene le competenze linguistiche e la capacità di seguire le istruzioni degli LLM continueranno a progredire, è improbabile che essi acquisiscano capacità inaspettate o dannose. È importante notare che però questo studio si concentra specificamente sui Large Language Models (LLM) e i suoi risultati potrebbero non essere necessariamente generalizzabili a tutte le forme di IA, soprattutto se il campo continuerà a evolversi in futuro.