La modalità vocale avanzata di ChatGPT

0
5
AI speaking

Le nuove capacità vocali del chatbot

La nuova modalità ChatGPT Advanced Voice di OpenAI, finalmente disponibile per un piccolo numero di utenti in un gruppo “alpha”, è un’opzione di conversazione audio più realistica e simile a quella umana per il popolare chatbot, accessibile tramite l’app ufficiale ChatGPT per iOS e Android.

Tuttavia, come riportato qui, le persone stanno già condividendo sui social media i video di questa Modalità vocale avanzata, a pochi giorni dall’utilizzo da parte dei primi tester alfa. I video mostrano il ChatGPT che emette rumori incredibilmente espressivi e sorprendenti, imita i personaggi dei Looney Toons e conta così velocemente da rimanere a corto di “fiato”, proprio come farebbe un essere umano.

Ecco alcuni degli esempi più intriganti che i primi utenti dell’alpha su X hanno condiviso.

Istruzione e traduzione linguistica

Diversi utenti su X hanno sottolineato che la modalità vocale avanzata di ChatGPT potrebbe offrire una formazione interattiva specificamente personalizzata per una persona che cerca di imparare o praticare un’altra lingua, suggerendo che il noto programma di apprendimento linguistico Duolingo potrebbe essere a rischio.

Il nuovo modello GPT-4o di OpenAI, che utilizza anche l’Advanced Voice Mode, è il primo modello multimodale nativo di grandi dimensioni dell’azienda. A differenza di GPT-4, che si basava su altri modelli OpenAI specifici, GPT-4o è stato realizzato per gestire gli input e gli output visivi e audio senza collegarsi ad altri modelli specializzati per questi media.

Di conseguenza, se l’utente consente a ChatGPT di accedere alla fotocamera del telefono, la modalità vocale avanzata può parlare di ciò che vede. Manuel Sainsily, docente di mixed reality design alla McGill University, ha fornito un esempio di come Advanced Voice Mode abbia utilizzato questa funzione per tradurre le schermate di una versione giapponese di Pokémon Giallo per GameBoy Advance SP:

Pronunce simili a quelle umane

Lo scrittore italo-americano di Intelligenza Artificiale Cristiano Giardina ha condiviso sul suo blog diversi risultati di test con la nuova modalità vocale avanzata di ChatGPT, tra cui una dimostrazione ampiamente condivisa in cui mostra come chiedergli di contare fino a 50 sempre più velocemente. L’intelligenza artificiale obbedisce, fermandosi solo verso la fine per prendere fiato.

Giardina ha poi chiarito in un post su X che la modalità vocale avanzata di ChatGPT ha semplicemente acquisito i modelli di conversazione naturali, che includono le pause di respirazione, e che la trascrizione dell’esperimento di conteggio non mostrava respiri.

Come dimostrato nel video di YouTube qui sotto, la modalità vocale avanzata di ChatGPT può persino imitare un applauso e schiarirsi la voce.

Beatbox

In un video caricato su X, il CEO della startup Ethan Sutin ha dimostrato come è riuscito a far sì che la modalità vocale avanzata di ChatGPT facesse beatboxing in modo convincente e fluente come un essere umano.

Narrazione audio e giochi di ruolo

Se l’utente ordina a ChatGPT di “stare al gioco” e di creare una situazione fittizia, come ad esempio un viaggio indietro nel tempo fino all’antica Roma, ChatGPT può anche giocare di ruolo (del tipo SFW), come ha dimostrato Ethan Mollick della University of Pennsylvania Wharton School of Business in un video caricato su X:

In questo esempio, ottenuto da Reddit e caricato su X, l’utente può chiedere a ChatGPT Advanced Mode di raccontare una storia. Lo farà completamente con effetti sonori creati autonomamente, come i passi e i tuoni.

Inoltre, è in grado di imitare la voce di un citofono:

Imitare e riprodurre accenti diversi

Giardina ha dimostrato come sia possibile imitare numerosi accenti regionali britannici utilizzando la modalità vocale avanzata di ChatGPT:

…così come interpretare la voce di un commentatore di calcio:

Sutin ha dimostrato la sua capacità di imitare una varietà di accenti regionali americani, come quello della California meridionale, del Maine, di Bostonia e del Minnesota/Midwest.

E può imitare anche personaggi di fantasia…

In conclusione, Giardina ha dimostrato che ChatGPT Advanced Voice Mode è in grado di imitare i modelli vocali di molti personaggi fittizi, oltre a riconoscerne e comprenderne le differenze:

In ogni caso, quali sono i vantaggi pratici di questa modalità? Oltre a dimostrazioni ed esperimenti coinvolgenti e accattivanti, aumenterà l’utilità di ChatGPT o attirerà un pubblico più ampio? Porterà a un aumento delle frodi tramite fonti audio?

Se questa tecnologia diventasse maggiormente disponibile, potrebbe rivoluzionare campi come l’apprendimento delle lingue, la creazione di contenuti audio e i servizi di accessibilità. Tuttavia, solleva anche potenziali problemi di imitazione vocale e di creazione di contenuti audio ingannevoli. Man mano che OpenAI continuerà a perfezionare ed espandere l’accesso all’Advanced Voice Mode, sarà fondamentale monitorare il suo impatto su vari settori e le sue potenziali implicazioni sociali.