Piccolo esperimento di voce sintetica con intonazioni decise dall’intelligenza artificiale
2023-9-30 01:19:0 Author: attivissimo.blogspot.com(查看原文) 阅读量:10 收藏

Per il podcast settimanale per la RSI preparo un cosiddetto lancio: un breve intervento preregistrato che viene trasmesso sulla Rete Tre della RSI e serve a presentare i temi della puntata. Questa settimana ho provato a generarne due versioni: una naturale, usando la mia voce dal vivo, e una sintetica, basata sulla mia voce clonata a pagamento da ElevenLabs. Eccole.

Riuscite a riconoscere quella sintetica?

Non dovrebbe essere difficile; quello che mi preme far notare, però, è il fatto che la versione sintetica è stata generata partendo da un testo completamente privo di informazioni di intonazione. Molti di questi software di sintesi vocale richiedono che vengano specificati, parola per parola, i toni e altre informazioni, e questo è un lavoro tedioso e lungo.

Il software di ElevenLabs, invece, determina automaticamente le intonazioni da usare, in base al contesto e alla struttura delle frasi: l’unica indicazione che gli ho fornito è il preambolo prima delle virgolette. Eppure notate il modo in cui cambia il tono alle parole “non vi preoccupate”, per esempio. Questo è il testo che gli ho dato in pasto pari pari, scegliendo poi il “ciak” migliore fra i tre o quattro che ho generato per prova:

Paolo parla con voce veloce ed eccitata da disk-jockey radiofonico: "Se qualcuno vi dice che si sta dedicando al dropshipping, ma è stato coinvolto in una sextortion e sta cercando aiuto per un cryptoscam, e non avete la minima idea di cosa stia dicendo, non vi preoccupate: è normale! Sono parole recenti, create per descrivere nuovi fenomeni legati a Internet. Se volete sapere cosa significano o volete approfondirne la conoscenza, c’è una nuova puntata del podcast Il Disinformatico, pronta da scaricare o mettere in coda per l’ascolto, che risponde alle domande degli ascoltatori su trappole e truffe della Rete! Si possono davvero fare soldi con la tecnica di compravendita del "dropshipping", come sembrano voler fare anche molti minorenni? Qual è la strategia per difendersi dai ricatti basati su immagini esplicite ottenute con l'inganno? C’è qualcosa di vero dietro le agenzie che promettono di recuperare i soldi persi in truffe legate alle criptovalute? Sono Paolo Attivissimo, e vi aspetto presso vu vu vu punto erre esse i punto ci acca slash ildisinformatico e su tutte le principali piattaforme podcast!!"

Nel mio caso, il tempo necessario per generare varie volte la voce sintetica è grosso modo lo stesso che ci ho messo a dire il testo dal vivo senza impaperarmi e con l’intonazione che avevo in mente, per cui non si può ancora parlare di risparmio di tempo. Ma ho potuto generare il lancio senza aver bisogno di un microfono e di un ambiente silenzioso, e avrei potuto generarlo anche se fossi stato afono per qualunque motivo.

Ora immaginate questa tecnica applicata alla lettura di un intero libro per produrre un audiolibro, cosa che normalmente richiede decine di ore di disponibilità di uno speaker o di un attore professionista.


文章来源: http://attivissimo.blogspot.com/2023/09/piccolo-esperimento-di-voce-sintetica.html
如有侵权请联系:admin#unsafe.sh