Home intelligenza artificiale La modalità vocale avanzata di ChatGPT

intelligenza artificiale

La modalità vocale avanzata di ChatGPT

By

Dan Brokenhouse

-

Agosto 27, 2024

5

Le nuove capacità vocali del chatbot

La nuova modalità ChatGPT Advanced Voice di OpenAI, finalmente disponibile per un piccolo numero di utenti in un gruppo “alpha”, è un’opzione di conversazione audio più realistica e simile a quella umana per il popolare chatbot, accessibile tramite l’app ufficiale ChatGPT per iOS e Android.

Tuttavia, come riportato qui, le persone stanno già condividendo sui social media i video di questa Modalità vocale avanzata, a pochi giorni dall’utilizzo da parte dei primi tester alfa. I video mostrano il ChatGPT che emette rumori incredibilmente espressivi e sorprendenti, imita i personaggi dei Looney Toons e conta così velocemente da rimanere a corto di “fiato”, proprio come farebbe un essere umano.

Ecco alcuni degli esempi più intriganti che i primi utenti dell’alpha su X hanno condiviso.

Istruzione e traduzione linguistica

Diversi utenti su X hanno sottolineato che la modalità vocale avanzata di ChatGPT potrebbe offrire una formazione interattiva specificamente personalizzata per una persona che cerca di imparare o praticare un’altra lingua, suggerendo che il noto programma di apprendimento linguistico Duolingo potrebbe essere a rischio.

ChatGPT’s advanced voice mode is now teaching French!👀 pic.twitter.com/JnjNP5Cpff
— Evinstein 𝕏 (@Evinst3in) July 30, 2024

RIP language teachers and interpreters.
Turn on volume. Goodbye old world.

New GPT Advanced Voice.
Thoughts? pic.twitter.com/WxiRojiNDH
— Alex Northstar (@NorthstarBrain) July 31, 2024

Il nuovo modello GPT-4o di OpenAI, che utilizza anche l’Advanced Voice Mode, è il primo modello multimodale nativo di grandi dimensioni dell’azienda. A differenza di GPT-4, che si basava su altri modelli OpenAI specifici, GPT-4o è stato realizzato per gestire gli input e gli output visivi e audio senza collegarsi ad altri modelli specializzati per questi media.

>>> Facebook sta sviluppando un algoritmo contro i deepfake

Di conseguenza, se l’utente consente a ChatGPT di accedere alla fotocamera del telefono, la modalità vocale avanzata può parlare di ciò che vede. Manuel Sainsily, docente di mixed reality design alla McGill University, ha fornito un esempio di come Advanced Voice Mode abbia utilizzato questa funzione per tradurre le schermate di una versione giapponese di Pokémon Giallo per GameBoy Advance SP:

Trying #ChatGPT’s new Advanced Voice Mode that just got released in Alpha. It feels like face-timing a super knowledgeable friend, which in this case was super helpful — reassuring us with our new kitten. It can answer questions in real-time and use the camera as input too! pic.twitter.com/Xx0HCAc4To
— Manuel Sainsily (@ManuVision) July 30, 2024

Pronunce simili a quelle umane

Lo scrittore italo-americano di Intelligenza Artificiale Cristiano Giardina ha condiviso sul suo blog diversi risultati di test con la nuova modalità vocale avanzata di ChatGPT, tra cui una dimostrazione ampiamente condivisa in cui mostra come chiedergli di contare fino a 50 sempre più velocemente. L’intelligenza artificiale obbedisce, fermandosi solo verso la fine per prendere fiato.

ChatGPT Advanced Voice Mode counting as fast as it can to 10, then to 50 (this blew my mind – it stopped to catch its breath like a human would) pic.twitter.com/oZMCPO5RPh
— Cristiano Giardina (@CrisGiardina) July 31, 2024

Giardina ha poi chiarito in un post su X che la modalità vocale avanzata di ChatGPT ha semplicemente acquisito i modelli di conversazione naturali, che includono le pause di respirazione, e che la trascrizione dell’esperimento di conteggio non mostrava respiri.

Come dimostrato nel video di YouTube qui sotto, la modalità vocale avanzata di ChatGPT può persino imitare un applauso e schiarirsi la voce.

>>> LaMDA, l'intelligenza artificiale di Google, è senziente?

Beatbox

In un video caricato su X, il CEO della startup Ethan Sutin ha dimostrato come è riuscito a far sì che la modalità vocale avanzata di ChatGPT facesse beatboxing in modo convincente e fluente come un essere umano.

Yo ChatGPT Advanced Voice beatboxes pic.twitter.com/yYgXzHRhkS
— Ethan Sutin (@EthanSutin) July 30, 2024

Narrazione audio e giochi di ruolo

Se l’utente ordina a ChatGPT di “stare al gioco” e di creare una situazione fittizia, come ad esempio un viaggio indietro nel tempo fino all’antica Roma, ChatGPT può anche giocare di ruolo (del tipo SFW), come ha dimostrato Ethan Mollick della University of Pennsylvania Wharton School of Business in un video caricato su X:

ChatGPT, engage the Time Machine!

(A big difference from text is how voice manages to keep a playful vocal tone: cracking and laughing at its own jokes, as well as the vocal style changes, etc.) pic.twitter.com/TQUjDVJ3DC
— Ethan Mollick (@emollick) August 1, 2024

In questo esempio, ottenuto da Reddit e caricato su X, l’utente può chiedere a ChatGPT Advanced Mode di raccontare una storia. Lo farà completamente con effetti sonori creati autonomamente, come i passi e i tuoni.

‼️A Reddit user (“u/RozziTheCreator”) got a sneak peek of ChatGPT’s upgraded voice feature that's way better and even generates background sound effects while narrating !

Take a listen 🎧 pic.twitter.com/271x7vZ9o3
— Sambhav Gupta (@sambhavgupta6) June 27, 2024

Inoltre, è in grado di imitare la voce di un citofono:

Testing ChatGPT Advanced Voice Mode’s ability to create sounds.
It somewhat successfully sounds like an airline pilot on the intercom but, if pushed too far with the noise-making, it triggers refusals. pic.twitter.com/361k9Nwn5Z
— Cristiano Giardina (@CrisGiardina) July 31, 2024

Imitare e riprodurre accenti diversi

Giardina ha dimostrato come sia possibile imitare numerosi accenti regionali britannici utilizzando la modalità vocale avanzata di ChatGPT:

>>> L'antropomorfismo nell'era dell'Intelligenza Artificiale

ChatGPT Advanced Voice Mode speaking a few different British accents:
– RP standard
– Cockney
– Northern Irish
– Southern Irish
– Welsh
– Scottish
– Scouse
– Geordie
– Brummie
– Yorkshire
(I had to prompt like that because the model tends to revert to a neutral accent) pic.twitter.com/TDfSIY7NRh
— Cristiano Giardina (@CrisGiardina) July 31, 2024

…così come interpretare la voce di un commentatore di calcio:

ChatGPT Advanced Voice Mode commentating a soccer match in British English, then switching to Arabic pic.twitter.com/fD4C6MqZRj
— Cristiano Giardina (@CrisGiardina) July 31, 2024

Sutin ha dimostrato la sua capacità di imitare una varietà di accenti regionali americani, come quello della California meridionale, del Maine, di Bostonia e del Minnesota/Midwest.

a tour of US regional accents pic.twitter.com/Q9VypetncI
— Ethan Sutin (@EthanSutin) July 31, 2024

E può imitare anche personaggi di fantasia…

In conclusione, Giardina ha dimostrato che ChatGPT Advanced Voice Mode è in grado di imitare i modelli vocali di molti personaggi fittizi, oltre a riconoscerne e comprenderne le differenze:

ChatGPT Advanced Voice Mode doing a few impressions:
– Bugs Bunny
– Yoda
– Homer Simpson
– Yoda + Homer 😂 pic.twitter.com/zmSH8Rl8SN
— Cristiano Giardina (@CrisGiardina) July 31, 2024

In ogni caso, quali sono i vantaggi pratici di questa modalità? Oltre a dimostrazioni ed esperimenti coinvolgenti e accattivanti, aumenterà l’utilità di ChatGPT o attirerà un pubblico più ampio? Porterà a un aumento delle frodi tramite fonti audio?

Se questa tecnologia diventasse maggiormente disponibile, potrebbe rivoluzionare campi come l’apprendimento delle lingue, la creazione di contenuti audio e i servizi di accessibilità. Tuttavia, solleva anche potenziali problemi di imitazione vocale e di creazione di contenuti audio ingannevoli. Man mano che OpenAI continuerà a perfezionare ed espandere l’accesso all’Advanced Voice Mode, sarà fondamentale monitorare il suo impatto su vari settori e le sue potenziali implicazioni sociali.

LEAVE A REPLY Cancel reply

Seraphinite Accelerator

Optimized by Seraphinite Accelerator
Turns on site high speed to be attractive for people and search engines.