Comprendere la natura degli errori dell’IA e come si differenziano dagli errori umani
Commettere errori fa parte della natura umana. Tutti noi commettiamo errori ogni giorno, sia in situazioni familiari che in attività sconosciute. Questi errori spaziano da insignificanti a devastanti. Quando commettiamo errori, possiamo distruggere relazioni, danneggiare la nostra reputazione professionale e talvolta creare situazioni di pericolo per la vita.
Nel corso della storia, abbiamo sviluppato misure di protezione contro i tipici errori umani. Le pratiche di sicurezza odierne riflettono questo aspetto: i casinò cambiano periodicamente i croupier per evitare errori dovuti alla stanchezza ad esempio. Prima degli interventi chirurgici, il personale medico contrassegna le parti del corpo corrette e traccia tutti gli strumenti per evitare di lasciarli all’interno dei pazienti. Abbiamo creato vari sistemi – dal copyediting alla contabilità a doppia entrata, fino ai tribunali d’appello – che catturano e correggono efficacemente gli errori umani.
La società sta ora incorporando un tipo di errore fondamentalmente diverso: L’INTELLIGENZA ARTIFICIALE. Sebbene tecnologie come i modelli linguistici di grandi dimensioni (LLM) siano in grado di gestire molti compiti cognitivi tradizionalmente svolti dagli esseri umani, non sono esenti da errori. Quando i chatbot consigliano di “mangiare sassi” o “aggiungere la colla alla pizza”, può sembrare ridicolo. Tuttavia, ciò che distingue gli errori dell’IA da quelli umani non è la frequenza con cui si verificano o la loro gravità, ma la loro natura insolita. I sistemi di intelligenza artificiale commettono errori in modi che differiscono fondamentalmente dai modelli di errore umani.
Questa differenza fondamentale crea sfide e pericoli nel modo in cui utilizziamo l’IA. Dobbiamo creare nuove misure di protezione che affrontino queste caratteristiche uniche e impediscano agli errori dell’IA di causare danni.
Errori umani vs errori dell’intelligenza artificiale
Come spiegato qui, in genere possiamo prevedere quando e dove gli esseri umani commetteranno degli errori sulla base delle nostre esperienze di vita. Gli errori umani si verificano tipicamente al limite delle conoscenze. Ad esempio, la maggior parte delle persone ha difficoltà con i problemi di calcolo. Perciò gli errori umani di solito seguono degli schemi: fare un errore di calcolo indica probabilmente che ne seguiranno altri. Questi errori sono prevedibili, aumentano o diminuiscono in base a fattori come la stanchezza e la mancanza di concentrazione. Inoltre, quando le persone commettono errori, questi sono spesso accompagnati dalla scarsa conoscenza sull’argomento.
I nostri metodi tradizionali di correzione degli errori funzionano bene quando i sistemi di intelligenza artificiale commettono errori simili a quelli degli esseri umani. Tuttavia, i moderni sistemi di IA, in particolare i modelli linguistici di grandi dimensioni (LLM), mostrano modelli di errore diversi.
Gli errori dell’IA appaiono in modo imprevedibile e non si concentrano su argomenti specifici. Gli LLM tendono a distribuire gli errori in modo uniforme nella loro base di conoscenze. Hanno la stessa probabilità di fallire nel calcolo e di fare affermazioni assurde come “i cavoli mangiano le capre”.
Ciononostante gli errori dell’IA non sono ignoranti. Un LLM sarà altrettanto sicuro di sé quando dirà qualcosa di completamente sbagliato – e così per un umano – lo sarà quando dirà qualcosa di vero. Questa incoerenza casuale rende difficile affidarsi agli LLM per problemi complessi che richiedono più passaggi. Quando si utilizza l’IA per l’analisi aziendale, non è sufficiente che capisca i fattori di profitto; è necessario assicurarsi che non dimentichi improvvisamente concetti fondamentali come il denaro.
Errori dell’IA
Da questa sfida emergono due direzioni di ricerca. Una riguarda lo sviluppo di LLM che producano errori più simili a quelli umani. L’altra si concentra sulla creazione di nuovi sistemi di rilevamento degli errori specificamente progettati per gli errori tipici degli LLM.
Abbiamo già sviluppato strumenti per rendere gli LLM più simili agli esseri umani. Molti provengono dalla ricerca sull’“allineamento”, che cerca di far funzionare i modelli secondo le intenzioni e gli obiettivi dei loro creatori umani. Il successo di ChatGPT è in gran parte dovuto a una di queste tecniche: l’apprendimento per rinforzo con feedback umano. Questo approccio premia i modelli di intelligenza artificiale quando gli esseri umani approvano le loro risposte. Metodi simili potrebbero insegnare ai sistemi di intelligenza artificiale a commettere errori più comprensibili per gli esseri umani, penalizzando in modo specifico gli errori che sembrano incomprensibili alle persone.
Alcuni dei sistemi esistenti per individuare gli errori umani possono aiutare a identificare gli errori dell’IA. Affidare agli LLM la verifica del proprio lavoro può ridurre in una certa misura gli errori. Tuttavia, gli LLM potrebbero anche fornire spiegazioni che sembrano ragionevoli, ma che in realtà sono insensate.
L’intelligenza artificiale richiede alcuni metodi di prevenzione degli errori completamente diversi da quelli che utilizziamo per gli esseri umani. Poiché le macchine non provano fatica o la frustrazione come le persone, un approccio efficace consiste nel porre a un LLM la stessa domanda più volte con lievi variazioni, combinando poi le risposte. Mentre gli esseri umani troverebbero irritante questa ripetizione, le macchine possono gestirla senza lamentarsi. Confrontando più risposte a domande simili, è possibile identificare potenziali errori o incongruenze nei risultati dell’IA.
Similitudini e differenze
I ricercatori non hanno ancora capito bene in che modo gli errori dell’intelligenza artificiale differiscano da quelli umani. Alcune peculiarità di essa appaiono più simili a quelle umane a un esame più attento. Prendiamo ad esempio la sensibilità ai prompt. Gli LLM possono dare risposte molto diverse a domande leggermente modificate. I ricercatori di sondaggi osservano un comportamento simile negli esseri umani, dove piccoli cambiamenti nella formulazione delle domande possono influenzare drasticamente le risposte ai sondaggi.
Gli LLM sembrano inoltre avere una tendenza a ripetere le parole più comuni nei dati di addestramento. Questo potrebbe rispecchiare l’“euristica della disponibilità” umana, che ci porta a sputare la prima cosa che ricordiamo invece di riflettere attentamente. Come gli esseri umani, alcuni LLM sembrano perdere la concentrazione in testi lunghi, ricordando meglio le informazioni all’inizio e alla fine. Tuttavia, la ricerca mostra un miglioramento in quest’area: LLM addestrati in modo estensivo per il recupero di informazioni da testi lunghi mostrano prestazioni più coerenti in tutti i documenti.
A volte, gli LLM si comportano in modo più simile all’uomo di quanto ci si aspetti, il che sembra strano. È interessante notare che alcuni metodi efficaci per “forzare” gli LLM (facendo loro ignorare le restrizioni programmate) assomigliano a tattiche di manipolazione sociale umana, come l’impersonificazione o l’affermazione che qualcosa è solo uno scherzo. Tuttavia, altre tecniche di jailbreak di successo non ingannerebbero mai gli esseri umani. È interessante notare come un team di ricerca ha scoperto che l’utilizzo di ASCII art (immagini basate su testo) per porre domande pericolose, come le istruzioni per la costruzione di una bomba, permette di aggirare le protezioni dell’LLM.
Anche se a volte gli esseri umani commettono errori inspiegabili e incoerenti, questi casi sono poco frequenti e spesso segnalano problemi di fondo. In genere non permettiamo alle persone che mostrano un simile comportamento di prendere decisioni importanti. Allo stesso modo, dovremmo limitare i sistemi di intelligenza artificiale a compiti che corrispondono alle loro reali capacità, considerando sempre le potenziali conseguenze dei loro errori.
Mentre spesso possiamo individuare gli errori umani attraverso il contesto, l’incoerenza o la mancanza di fiducia, i sistemi di IA possono presentare informazioni errate con assoluta certezza e in modi che a prima vista sembrano perfettamente logici.
Questa sfida diventa particolarmente preoccupante nell’attuale era digitale, dove le informazioni si diffondono rapidamente sui social media e su altre piattaforme. Quando i sistemi di intelligenza artificiale generano contenuti che contengono errori sottili ma significativi, questi errori possono propagarsi rapidamente attraverso condivisioni, repost e citazioni prima che qualcuno si renda conto della loro scorrettezza. A differenza della disinformazione generata dall’uomo, che spesso mostra chiari segni di bias o difetti logici, gli errori generati dall’IA possono essere notevolmente sofisticati e più difficili da identificare senza un’attenta verifica.
Tuttavia, la soluzione non è nascondere o censurare gli errori dell’IA quando si verificano. Abbiamo invece bisogno di trasparenza e di una discussione aperta su questi errori per comprenderli meglio e migliorare i nostri sistemi. La censura non solo sarebbe inefficace, ma potrebbe anche creare una pericolosa illusione di infallibilità. Riconoscendo e studiando apertamente gli errori dell’IA, possiamo sviluppare metodi di rilevamento migliori e aiutare gli utenti a diventare consumatori più attenti dei contenuti generati dall’IA.
È fondamentale garantire che i sistemi di IA rimangano strumenti per assistere il processo decisionale umano, piuttosto che diventare arbitri autonomi del destino umano. Ciò è particolarmente importante in contesti in cui le decisioni dell’IA possono avere un impatto significativo sulla vita e sul sostentamento delle persone, come la moderazione dei contenuti sulle piattaforme di social media. Quando i sistemi di IA segnalano potenziali violazioni che potrebbero comportare il divieto di accesso agli account o la perdita di introiti, è necessario che vi sia una solida supervisione umana e chiari processi di appello. Non possiamo permettere che i sistemi automatizzati prendano decisioni unilaterali che potrebbero devastare la carriera e l’attività di un individuo senza una revisione e un ricorso umani significativi.
In futuro, il successo sarà probabilmente dato da un approccio ibrido: l’adattamento dei metodi tradizionali di controllo degli errori, laddove appropriato, e lo sviluppo di nuove salvaguardie specificamente progettate per i sistemi di IA. Ciò potrebbe includere l’implementazione di più livelli di verifica, la creazione di migliori tecniche di allineamento e la definizione di chiari confini per l’implementazione dei sistemi di IA in base alla loro affidabilità in contesti specifici. Soprattutto, dobbiamo coltivare un sano scetticismo e implementare solidi processi di verifica dei fatti quando lavoriamo con contenuti generati dall’IA.
La chiave non è considerare i sistemi di IA come intrinsecamente più o meno inclini all’errore rispetto agli esseri umani, ma piuttosto riconoscerli come tipi di errori fondamentalmente diversi. Comprendendo queste differenze, possiamo sfruttare meglio il potenziale dell’IA e allo stesso tempo proteggerci dalle sue vulnerabilità uniche.