ANTEPRIMA Podcast RSI - John Lennon restaurato dall’IA: nuove opportunità nell'elaborazione audio su computer

ALLERTA SPOILER: Questo è il testo di accompagnamento al podcast Il Disinformatico della Radiotelevisione Svizzera che uscirà questo venerdì presso www.rsi.ch/ildisinformatico/.

---

[CLIP: Spezzone della voce restaurata di Lennon da “Now and Then”]

La voce di John Lennon, recuperata da un’audiocassetta registrata a casa sua oltre quarant’anni fa e usata per il brano dei Beatles Now and Then appena uscito, stupisce non solo per le emozioni che evoca ma anche per la qualità tecnica del restauro, considerato a lungo impossibile, perché la voce era coperta dal pianoforte suonato dallo stesso Lennon. Questo restauro è ora reso possibile dall’informatica e specificamente dall’intelligenza artificiale.

Dappertutto ci sono discussioni animate su quanto sia “vera” o “falsa” un’operazione di questo genere, ma il clamore intorno a Now and Then è un’ottima occasione per esplorare il mondo ben più vasto del restauro sonoro basato sul software e per scoprire quali meraviglie e nuove possibilità ci offre non solo in campo musicale ma anche in termini di vera e propria archeologia sonora.

Benvenuti alla puntata del 10 novembre 2023 del Disinformatico, il podcast della Radiotelevisione Svizzera dedicato alle notizie e alle storie strane dell’informatica. Io sono Paolo Attivissimo.

[SIGLA di apertura]

Sottrazioni e isolamenti

L’elaborazione digitale delle voci dei cantanti ha radici molto lontane: già nel 1975, per esempio, la voce di Alan Parsons veniva trasformata digitalmente da uno dei primi vocoder digitali nel brano The Raven. Adesso non stupisce più nessuno, ma all’epoca tutto questo era molto innovativo.

[CLIP: Spezzone di “The Raven”]

Un altro tipo di elaborazione vocale digitale molto noto, e per alcuni famigerato, è l’Autotune, che corregge le intonazioni e crea effetti di distorsione particolari: è stato introdotto nel 1997 e reso celebre dalla canzone Believe di Cher nel 1998.

[CLIP: Spezzone di “Believe”, con la voce isolata dalla musica]

Oggi il trattamento digitale delle voci in campo musicale conosce mille sfumature ed è disponibile in quasi tutti i programmi per la produzione di musica. Ma si tratta sempre di elaborazione: si parte da una sorgente audio esistente e la si manipola in qualche modo per ottenere un determinato risultato.

L’intelligenza artificiale, però, consente di fare ben di più, vale a dire generare voci che nella realtà non esistono oppure isolare una voce da altri rumori o suoni. È quello che è successo con la voce di Lennon per Now and Then, che nell’audiocassetta originale era sovrastata dal suono del pianoforte di accompagnamento, impossibile da filtrare con tecniche convenzionali. È così che si è passati da questo…

[CLIP: Spezzone dell’audiocassetta di Lennon]

…a questo:

[CLIP: Spezzone della voce ripulita di Lennon]

in cui il pianoforte è completamente rimosso e la voce sembra registrata da un microfono professionale in studio.

L’isolamento di uno strumento o di un rumore indesiderato tramite software di intelligenza artificiale, specificamente di machine learning, lavora per sottrazione: al software vengono forniti molti campioni dello strumento o del rumore che si vuole rimuovere, e questo gli permette di riconoscere gli elementi della registrazione che corrispondono a quello strumento o rumore e quindi di sottrarli, lasciando così la voce originale e offrendola pulita per ulteriori elaborazioni.

Questa tecnica di isolamento è oggi liberamente disponibile anche in molte applicazioni, anche online, come Lalal.ai, al quale basta inviare una registrazione digitale per riottenerne, nel giro di qualche decina di secondi, una versione che isola la voce dagli strumenti oppure estrae solo la percussione, le chitarre elettriche o acustiche, il pianoforte e altri strumenti.

Software come questo, e come Magic Dust AI, possono anche rimuovere i rumori di fondo, per esempio da un’intervista in un ambiente affollato e rumoroso, diventando strumenti preziosissimi non solo per musicisti ma anche per giornalisti e anche per chi ha problemi di udito o più in generale fatica a isolare una conversazione in un ambiente pieno di persone che parlano.

Per esempio, se si addestra un software di machine learning dandogli campioni puliti delle voci di due persone, quel software diventa in grado di isolare le loro singole voci da una registrazione in cui parlano entrambe contemporaneamente, come negli esempi che vi proporrò tra poco, pubblicati dal professor Paris Smaragdis dell’Università dell’Illinois, che ha lavorato al restauro audio del documentario “Get Back” dedicato ai Beatles, realizzato con tecniche simili a quelle utilizzate per recuperare la voce di John Lennon. Queste sono le voci sovrapposte, che parlano in inglese:

[CLIP: voci sovrapposte]

E queste sono le singole voci:

[CLIP: voci separate]

Anche isolare una voce da un rumore di fondo particolarmente invadente è fattibile con ottimi risultati. Sentiamo la registrazione originale e poi la voce estratta dal software:

[CLIP: campione di voce con denoising]

Fin qui si tratta di togliere dei suoni indesiderati lasciando la parte che interessa. Ma si può fare di più. Molto di più.

Restauro troppo creativo?

L’elaborazione del suono tramite intelligenza artificiale può essere sottrattiva, come avete sentito fino a questo punto, ma può anche essere generativa: in altre parole, aggiunge all’originale delle parti mancanti. Per esempio, una registrazione molto vecchia o fatta usando microfoni di bassa qualità può essere elaborata per renderla qualitativamente più gradevole.

Magic Dust AI, per esempio, è in grado di prendere una registrazione fatta con i modestissimi microfoni integrati negli auricolari dei telefonini ed elaborarla per darle una qualità più vicina a quella di un microfono professionale.

Lo stesso principio è utilizzabile anche per i brani musicali. Un altro esempio pubblicato dal professor Smaragdis riguarda la cosiddetta bandwidth expansion, cioè l’espansione della larghezza di banda. Le registrazioni musicali d’epoca perdevano gran parte delle frequenze sonore più basse e più alte, ma con questa tecnica è possibile ricreare quelle frequenze mancanti. Il software viene addestrato dandogli dei campioni musicali equivalenti registrati con qualità migliore, che vengono aggiunti alla registrazione originale.

Per esempio, si prende questo brano musicale registrato in bassa qualità:

[CLIP: brano in bassa qualità]

poi si fornisce al software questo breve campione di strumenti analoghi registrati meglio:

[CLIP: campione strumenti]

e questo è il risultato dell’elaborazione:

[CLIP: risultato]

Il problema di fondo di questa elaborazione generativa è che aggiunge suoni che non erano presenti nella registrazione originale ma probabilmente erano presenti durante l’esecuzione dal vivo e si sono persi. Si tratta insomma di una approssimazione ragionevole, non di una elaborazione certa di un segnale esistente. In questo caso, si può ancora parlare di restauro puro o stiamo sconfinando nell’invenzione, in una sorta di equivalente sonoro del ridare le braccia alla Venere di Milo basandosi sulle braccia di altre statue analoghe?

Non è chiaro, al momento, se la voce di John Lennon sia stata elaborata da un software di questo secondo tipo o se sia stata fatta solo una sottrazione dei suoni indesiderati seguita da un’elaborazione del contenuto sonoro effettivamente esistente. E anche se dovesse trattarsi di elaborazione generativa per ridare ricchezza e corpo alla voce originale, si tratterebbe comunque di un’elaborazione basata su campioni di alta qualità della voce di Lennon, per cui la voce sarebbe comunque la sua. Forse quello che conta è che all’orecchio la voce che si sente in Now and Then sembra proprio quella dello scomparso John Lennon, fresca come se fosse stata registrata ieri, e alla fine l’emozione prevale sulla disquisizione tecnica.

E se schiudiamo le porte al restauro audio generativo diventano possibili scenari inaspettati e recuperi di suoni davvero straordinari.

Archeologia sonora

Il professor Smaragdis ha pubblicato anche altre dimostrazioni di usi inattesi dell’elaborazione dei suoni tramite intelligenza artificiale. Per esempio, il riconoscimento dei suoni può essere usato per l’analisi dei contenuti video, come nel rilevamento dei momenti salienti di un evento sportivo registrato. Normalmente è necessario far scorrere il video registrato fino a trovare l’istante del gol, del punto o dell’azione di gioco importante, ma se un software riconosce suoni come gli applausi o le esclamazioni di gruppo può localizzare automaticamente gli istanti che interessano.

Il machine learning applicato all’audio ha anche applicazioni interessanti nella sicurezza. È molto difficile rilevare automaticamente un evento nelle immagini di una telecamera di sorveglianza se ci si basa appunto sulle immagini, perché il riconoscimento delle immagini ha un tasso d’errore molto alto. Ma se ci si basa sull’audio, per esempio riconoscendo grida, voci sotto stress o rumori improvvisi, diventa relativamente facile identificare queste situazioni e inviare un avviso automatico che consenta di intervenire più prontamente.

[CLIP: Spezzone di aggressione simulata, usato per testare il sistema]

Ma l’applicazione più affascinante resta l’archeologia sonora. Generando i suoni mancanti, è possibile rendere fruibili registrazioni la cui qualità scadente le relegherebbe nell’oblio, come nel caso delle registrazioni tremolanti e gracchianti degli inizi dell’era del fonografo o dei cilindri di cera, ed è possibile estrarre suoni da fonti quasi inimmaginabili.

Nel 1860, quando negli Stati Uniti iniziava la presidenza di Abramo Lincoln, Garibaldi [in Italia] iniziava la spedizione dei Mille e in Francia c'era Napoleone III, il francese Édouard-Léon Scott de Martinville usò un apprecchio rudimentale, il fonautografo, per catturare suoni su un foglio di carta coperto di nerofumo, quella finissima fuliggine prodotta dalle lampade a olio. Il suono veniva inciso nel nerofumo usando una setola di maiale collegata a una membrana di pergamena che si muoveva in base al suono raccolto da un cilindro o da un corno. Queste incisioni all’epoca erano impossibili da riascoltare, ma sono state conservate e ricostruite digitalmente già alcuni anni fa, sia pure con un fortissimo fruscio di fondo:

[CLIP: ricostruzione originale]

Ora sono elaborabili anche con l’intelligenza artificiale. E così oggi possiamo sentire, sia pure con una certa fatica, una persona che nel 1860 cantava Au clair de la lune.

[CLIP: versione ripulita]

Con i progressi dell’elaborazione dei suoni che prima venivano considerati irrecuperabili, viene da chiedersi quale sarà la prossima frontiera inattesa del restauro sonoro.

Nel 1969, la rivista scientifica Proceedings of the Institute of Electrical and Electronics Engineers ospitò sulle sue auguste pagine una lettera firmata da un certo R.G. Woodbridge [Acoustic recordings from antiquity], che affermava di aver scoperto registrazioni sonore accidentali sulle superfici di oggetti antichi e in particolare su vasi lavorati sui torni da vasai, in cui il tornio poteva essere immaginato come una sorta di primitivo giradischi e la mano del vasaio come una puntina da incisione sonora molto grossolana.

[Il testo della lettera è dietro paywall, ma Bldblog.com ne ospita qualche estratto, notando che secondo Woodbridge i suoni sarebbero registrati anche nei quadri dipinti a olio e sarebbero riascoltabili tenendo la puntina di un giradischi in contatto con la superficie del vaso in questione, che viene fatto girare, oppure muovendo la puntina sopra una pennellata di un quadro: “positioned against a revolving pot mounted on a phono turntable (adjustable speed) ‘stroked’ along a paint stroke, etc.” Grazie a questo gesto, “low-frequency chatter sound could be heard in the earphones.”

Woodbridge suggerisce anche applicazioni alternative:“This is of particular interest as it introduces the possibility of actually recalling and hearing the voices and words of eminent personages as recorded in the paint of their portraits or of famous artists in their pictures.” Inoltre descrive un esperimento: “With an artist’s brush, paint strokes were applied to the surface of the canvas using “oil” paints involving a variety of plasticities, thicknesses, layers, etc., while martial music was played on the nearby phonograph. Visual examination at low magnification showed that certain strokes had the expected transverse striated appearance. When such strokes, after drying, were gently stroked by the “needle” (small, wooden, spade-like) of the crystal cartridge, at as close to the original stroke speed as possible, short snatches of the original music could be identified. […] Many situations leading to the possibility of adventitious acoustic recording in past times have been given consideration. These, for example, might consist of scratches, markings, engravings, grooves, chasings, smears, etc., on or in “plastic” materials encompassing metal, wax, wood, bone, mud, paint, crystal, and many others. Artifacts could include objects of personal adornment, sword blades, arrow shafts, pots, engraving plates, paintings, and various items of calligraphic interest.”]

Le sue affermazioni non furono mai verificate, ma di fronte a queste nuove meraviglie del restauro dei suoni la sua proposta sembra un pochino meno fantascientifica. Staremo a vedere; anzi, a sentire.