L’I.A. crea coinvolgimento anche usando una voce simile a quella umana
Da quando i chatbot sono stati introdotti, non hanno mai smesso di evolversi così come la tecnologia di Sintesi Vocale. Ora, grazie all’AI, queste tecnologie possono fondersi in nuove forme di assistenti virtuali con voci più simili a quelle umane. Di conseguenza le aziende possono ora impiegare voci artificiali per ascoltare e rispondere ai clienti con una voce espressiva che sia unica per il loro brand, con il risultato di conversazioni più coinvolgenti e piacevoli.
L’I.A. conversazionale è progredita negli ultimi tre anni per incorporare nuovi tipi di modelli che possono: riassumere e classificare meglio il testo, comprendere lo stato d’animo e realizzare nuove forme di discorso grazie all’Elaborazione del Linguaggio Naturale (NLP).
Recentemente, NVIDIA ha presentato Riva Custom Voice, un nuovo toolkit che permette ai clienti di creare la loro voce simile a quella umana con soli 30 minuti di dati di registrazione del parlato. Questo toolkit può essere utilizzato da altre aziende per ottenere il proprio assistente virtuale con una voce distintiva, mentre gli sviluppatori possono utilizzarlo per vendere voci e app proprietarie per aiutare le persone con problemi di pronuncia e di linguaggio.
La compagnia assicurativa Progressive, per esempio, ha impiegato l’intelligenza artificiale per costruire un chatbot su Facebook Messenger con la voce di Stephanie Courtney, che interpreta Flo. Duolingo invece sta usando l’intelligenza artificiale per produrre voci per le sue app di apprendimento delle lingue, mentre per i clienti che chiamano nei centri di contatto della National Australia Bank, è stata installata una voce in inglese australiano basata sull’intelligenza artificiale.
Riva Custom Voice utilizza l’apprendimento semi-supervisionato per creare voci sintetiche su misura per software, IVR e altre applicazioni aziendali ed è incluso nella versione più recente del kit di sviluppo software dell’intelligenza conversazionale artificiale Riva di Nvidia.
L’apprendimento semi-supervisionato può essere usato per risolvere diverse situazioni del mondo reale in cui gli algoritmi di apprendimento supervisionato fallirebbero a causa della mancanza di dati classificati.
Le voci basate sull’AI possono dare coerenza ai brand, che è una delle chiavi per aumentare la fedeltà dei clienti.
Anche Amazon ha implementato il proprio servizio vocale attraverso la piattaforma Amazon Polly, un servizio cloud che converte il testo in un discorso realistico che include Brand Voice, un servizio che produce voci generate dalla IA che rappresentano personaggi specifici. Il colonnello Sanders di KFC è un esempio di voce clonata con il suo tipico accento inglese del sud degli Stati Uniti attraverso un sistema che può imparare ad adottare un nuovo stile di conversazione partendo da poche ore di allenamento.
Ci sono 2 componenti nel modello di intelligenza artificiale di Amazon. Il primo è una rete neurale generativa che trasforma una serie di fonemi in spettrogrammi, che sono rappresentazioni visive dello spettro delle frequenze sonore mentre cambiano nel tempo. Il secondo è un vocoder, un dispositivo che trasforma gli spettrogrammi in un output audio continuo.
Anche se questa tecnologia può aiutare ad ottenere conversazioni più realistiche, può anche essere utilizzata impropriamente, come nel caso di un CEO la cui voce è stata riprodotta per eseguire un bonifico di 243.000 dollari. Ci sono molti dati audio e video che possono essere inseriti in un sistema di apprendimento automatico per creare una copia persuasiva. Pare che dei malintenzionati stiano progettando di utilizzare contenuti artificiali per operazioni criminali stando all’FBI.
Per questo, alcuni operatori richiedono che i proprietari delle voci acconsentano al loro utilizzo prima di distribuire una voce artificiale, o che ogni potenziale caso d’uso sia esaminato, e che i consumatori firmino un codice di comportamento. Microsoft sta lavorando ad un modo per includere una filigrana digitale all’interno di una voce artificiale per identificare che il contenuto sia stato realizzato con Custom Neural Voice. Altri hanno sviluppato tecniche open-source per rilevare i deepfake vocali, come Resemble AI, un altro servizio di duplicazione della voce.
In ogni caso, Nvidia non ha annunciato alcuna salvaguardia per prevenire l’abuso di Riva Custom Voice inizialmente, ma i termini di servizio della società Riva vietano la creazione di contenuti “fraudolenti, falsi, fuorvianti o ingannevoli”, così come contenuti che “promuovono la discriminazione, il fanatismo, il razzismo, l’odio, le molestie o il danno contro qualsiasi individuo o gruppo”.
Tuttavia, se immaginiamo una voce clonata su un volto deepfake che può parlare utilizzando la tecnologia gpt-3 potrebbe risultare sorprendente e spaventoso allo stesso tempo. Potremmo avere un’intera replica di una persona che può essere molto coinvolgente quando viene utilizzata dalle aziende per scopi di marketing, assistenza, giochi o film, ma questo rende anche più facili i furti di identità. Quindi, sarebbe utile che tali entità artificiali fossero riconoscibili, magari realizzandoli come avatar di bassa qualità per farli sembrare più digitali che reali o includendo una filigrana digitale come menzionato precedentemente.
Fonte venturebeat.com