Cerchiamo di capirlo partendo da un video di Reaperiani e allarghiamo il discorso a un altro tema per noi ben più impattante nel causare “ear fatigue”.

Premessa: pur non essendo un fonico o uno che lavora con qualsiasi altro titolo nel mondo dell’audio, da semplice ascoltatore mi interesso, da anni, dei temi che stanno dietro alla produzione degli album, e per questo mi capita di seguire canali YouTube di mixing o mastering engineer, produttori o fonici.
Tra questi vi è quello di Francesco Bonalume, in arte Reaperiani, uno dei canali più seguiti in Italia nel perimetro dell’audio engineering. Sono iscritto al canale e, tra i video che pubblica, guardo spesso quelli che vertono sulla fase di ascolto o sulla produzione di musica.
Nell’articolo sulla loudness war abbiamo incluso un suo video in cui commentava i master dei brani dell’edizione 2021 di Sanremo.

La premessa è dovuta per sgombrare il campo dagli equivoci: questo non vuole essere un articolo di risposta a Reaperiani, né tantomeno un rant o quel tipo di articoli odiosi con titolo “vi spieghiamo perché tizio sbaglia”. 

Semplicemente trovo molto importanti (per chi è interessato alle questioni legate all’ascolto di musica) i temi di cui parla Francesco nel video di cui sotto e personalmente credo sia altrettanto importante precisare alcuni aspetti di quegli stessi temi (o quantomeno, provarci) e arricchire la discussione spostando il focus su un tema che ho già trattato spesso su queste pagine e che leggerete nella seconda parte di questo articolo, con nuovi contributi.

Nel video ci sono in particolare due punti del discorso che hanno catturato la mia attenzione: 

  • l’ascolto di musica in formato lossy che causerebbe fatica d’ascolto in sessioni più o meno lunghe, 
  • la capacità che avrebbe la musica hi-res – quando riprodotta su diffusori – di regalarci un’esperienza di ascolto superiore grazie a delle vibrazioni che in qualche modo percepiamo anche se fuori dal nostro range di frequenze udibili.

Il primo ritengo sia un punto importante perché in qualche modo coinvolge anche un aspetto di salute mentale. Pur non essendo ancora identificato come caso clinico, la fatica d’ascolto è un concetto citato da diversi studi e ormai ampiamente riconosciuto e associato a sintomi quali stanchezza mentale e stress. Se tra le cause contribuisce anche il formato audio penso sia importante saperlo (anche e soprattutto considerando il numero di ascoltatori nel mondo che ascolta musica lossy su piattaforme come ad esempio Spotify).

Il secondo invece è un aspetto forse meno importante ma per certi versi affascinante, e su cui spesso mi sono fatto io stesso delle domande: al di là di ciò che siamo in grado di percepire a livello uditivo (ormai accertato e misurato), esiste uno strato di frequenze che non percepiamo con le orecchie ma percepiamo esclusivamente a livello osseo, delle cartilagini o degli organi? E questa percezione potrebbe contribuire a un maggior coinvolgimento all’ascolto? 

Se questo fosse vero, sarebbero poste in discussione anche le conclusioni del mio articolo sulla musica hi-res (seppur comunque lì mi sia riferito solo a ciò che siamo in grado di percepire a livello uditivo), ma ne potremo parlare in un altro articolo, oppure potrei scrivere un’appendice a quello già pubblicato. Vedremo.

Così su due piedi posso dirvi che le evidenze scientifiche – da una prima ricerca – mi sembrano ancora molto deboli. Inoltre, eventuali maggiori coinvolgimenti di aree cerebrali (così come sembrano evidenziare studi citati dall’autore del video) durante l’ascolto di musica hi-res, non è detto che si traducano necessariamente in esperienze di ascolto più coinvolgenti (sostiene qualcosa di molto simile a quanto sto affermando anche Floyd Toole in “Sound Reproduction: The Acoustics and Psychoacoustics of Loudspeakers and Rooms”).

Ascoltare musica in formati lossy è più stancante rispetto all’ascolto di formati lossless?

Prima di provare a dare una risposta, facciamo un passo indietro e vediamo quali sono i concetti che hanno portato allo sviluppo in primis dell’mp3 e poi degli altri formati lossy.

Gli algoritmi di compressione che sono alla base dei formati con perdita di dati, cosiddetti lossy (mp3, AAC, Ogg Vorbis, solo per citare i più utilizzati), sfruttano alcune “debolezze” interpretative del nostro udito per poter risparmiare spazio in bit nel campionamento e quindi ridurre le dimensioni del file. Tutti questi algoritmi si fondano su dei principi di base elaborati già intorno agli anni ‘70 da Eberhard Zwicker, considerato il padre della psicoacustica, disciplina che Wikipedia definisce come “lo studio della percezione soggettiva umana dei suoni. Più precisamente, lo studio della psicologia della percezione acustica.

Zwicker aveva posto le basi per la creazione di alcuni “trucchi psicoacustici”, qui di seguito brevemente esposti:

  1. L’udito umano funziona meglio su una determinata gamma di frequenze: quello che copre più o meno l’estensione della voce umana. Negli altri registri, specie quelli corrispondenti a frequenze più alte, la capacità di distinguere i suoni declina rapidamente. Questo nella creazione di un algoritmo di compressione si traduce nella possibilità di assegnare meno bit agli estremi dello spettro sonoro, lontani dal range della voce.
  2. I suoni di altezza simile tendono a cancellarsi l’uno con l’altro e i suoni più bassi coprono quelli più acuti. Questo, in un brano in cui, ad esempio, si sovrappongono un violino e un violoncello, offre la possibilità di poter assegnare meno bit al violino.
  3. Il sistema uditivo cancella i suoni che seguono uno schiocco forte. Questo permette di assegnare meno bit ai millisecondi immediatamente successivi a un colpo di piatto della batteria, per esempio. 
  4. Il sistema uditivo cancella anche i suoni che precedono uno schiocco forte. Sì, è strano, ma si spiega con il fatto che il nostro sistema uditivo impiega qualche millisecondo ad interpretare ciò che percepisce e questo processo si interrompe se nel frattempo arriva un suono molto forte. Quindi, tornando al caso del colpo del piatto della batteria, è possibile assegnare meno bit anche ai millisecondi immediatamente precedenti. 

Gli ingegneri della Fraunhofer sono stati i primi, a partire dalla fine degli anni ottanta, a lavorare su un formato lossy (l’mp3) e hanno sfruttato queste “falle” interpretative del nostro udito per porre le basi dell’ascolto di musica digitale in alta qualità attraverso file dalla dimensione estremamente ridotta. 

La squadra di ricercatori della Fraunhofer che ha portato avanti gli sviluppi fino alla formalizzazione del formato mp3 (immagine presa dal sito mp3-history.com della stessa Fraunhofer, tutti i diritti vanno ricondotti a loro).

Per quanto spesso bistrattato dagli audiofili, l’mp3 è da considerarsi un capolavoro di ingegneria acustica. Oggi lo stesso mp3, così come formati nati successivamente e più performanti nel rapporto qualità/dimensione del file (ad esempio AAC e Ogg Vorbis), hanno alla base degli algoritmi psicoacustici che hanno raggiunto una qualità impressionante. Quando la codifica viene fatta con un profilo molto alto (ad esempio 320 kbps per l’Mp3) e con software di qualità, diventa davvero molto difficile distinguere il file compresso da quello non compresso.

Tornando a Reaperiani, lui stesso afferma che sul breve periodo è quasi impossibile percepire differenze tra un file lossy con profilo alto di codifica e un file lossless (ad esempio FLAC o WAV). Ma – e qui sta forse il punto cardine del suo discorso e quello che più ha prodotto commenti sotto il suo video – Reaperiani aggiunge che è sul lungo periodo che la differenza si avvertirebbe, manifestandosi in fatica d’ascolto. 

Questo è il punto che mi ha triggerato (in senso positivo), perché in tutte le mie letture non avevo mai sentito parlare di fatica d’ascolto indotta dall’ascolto di file lossy. Nei commenti ho chiesto gentilmente a Francesco di fornirmi dei link/video per approfondire il tema. 

Uno dei contenuti suggeriti è questa conferenza di Andrew Scheps, famosissimo ingegnere audio (specializzato nel mix) che ha lavorato per band come Metallica e Red Hot Chili Peppers:

Scheps propone la teoria (che anche in altri video specifica essere personale e come tale non sostenuta da altri studi) secondo cui si potrebbe paragonare l’effetto della compressione su un audio a quello di un testo a cui si tolgono solo alcune lettere dalle parole. In entrambi i casi, sostiene Scheps, il cervello riesce ad interpretare il messaggio, ma con uno sforzo che porta, dopo un tot di tempo, a stanchezza cerebrale.
Se consideriamo che l’audio dei formati lossy è effettivamente un audio a cui sono state sottratte delle informazioni, il paragone potrebbe reggere.

Tuttavia, personalmente continuo a nutrire forti dubbi sulla rispondenza del confronto tra i due ambiti, quello della lettura e quello dell’ascolto. Nel parlato e nella lettura si cerca di cogliere ogni parola per una piena comprensione semantica ed è più facile immaginare che il cervello possa fare fatica se le parole, a causa della qualità di registrazione o di difetti del testo stampato, non sono perfettamente intellegibili. Pensare invece che il cervello possa fare una fatica analoga all’ascolto di un audio lossy di qualità (per i più indistinguibile da uno lossless), quindi senza mancanze così percepibili (come lo sono invece lettere assenti in un testo o parole incomprensibili in una registrazione audio di bassa qualità di un parlato), mi pare una forzatura evidente.

Inoltre, gran parte del discorso di Scheps verte sulle difficoltà di trasmettere in streaming una buona qualità audio: non possiamo non far notare che la conferenza è del 2013 e che, in 10 anni, sia gli algoritmi psicoacustici che le tecnologie relative alla connessione dati hanno fatto grossi miglioramenti. 

A mio avviso, il punto debole che sembra emergere da queste ricerche, confermato nei commenti dallo stesso Reaperiani, è che gli studi sul presunto sforzo interpretativo del cervello (e quindi fatica di ascolto) sono stati effettuati utilizzando file audio molto compressi e con profili di codifica bassi. 

Quando si ascoltano invece audio compressi di alta qualità (ad esempio un mp3 a 320kbps, ma anche a 256kbps), questo sforzo potrebbe non esserci. Una sintesi degli studi che sembrano dare proprio questa indicazione si può leggere qui

Tra le ricerche a cui sembra maggiormente riferirsi Reaperiani per sostenere la sua tesi, c’è questa, condotta nel 2016 e che in realtà è una meta analisi (dove si cercano quindi evidenze analizzando più ricerche già effettuate su un tema), la cui conclusione è che forse potrebbe esserci fatica d’ascolto con formati in qualche modo compressi (il tema viene posto come da approfondire in eventuali prossimi studi). 

Insomma, senza annoiarvi troppo, diciamo che le ricerche su questo tema sono ancora in corso e mancano certezze (anche Reaperiani nei commenti in riferimento a questo parla ironicamente di “manicomio”), soprattutto per quanto riguarda i file lossy di buona qualità.
Proprio sulla base di questo, personalmente vi consiglierei di non preoccuparvi dell’ascolto prolungato di formati lossy, ma semmai di quale musica (leggi: quali master) ascoltate per lungo tempo, a prescindere dal formato di riproduzione. E qui arriviamo a un tema che chi mi conosce o ha letto altri miei articoli conosce bene.

Loudness war e album con master schiantati: questo è il vero tema, questo ci sfascia le orecchie!

La compressione del master (attenzione: non la compressione del formato audio come nel caso dei formati lossy, qui mi riferisco alla compressione dei volumi nelle fasi di mixing e soprattutto mastering), è un fattore decisamente impattante nel causare fatica d’ascolto e penso che chiunque possa avvertirlo empiricamente. 

Non è necessario ripetermi in spiegazioni di cosa si intende per album dal master compresso, perché ne ho già parlato abbondantemente in questo articolo e nella parte finale di questo (che nella sua interezza potrebbe essere un buon corollario al video di Reaperiani, se siete interessati a capire come massimizzare l’esperienza di ascolto). 
Di cosa comporta l’ascolto di album con master schiantato (dove non esiste più la differenza tra piano e forte) ne hanno inoltre parlato diversi interpreti autorevolissimi come l’ingegnere di mastering Bob Ludwig, il musicista Damon Krukowski, il neuroscienziato Daniel Levitin, solo per citarne alcuni.

Ne parla anche Alan Silverman, pluripremiato mastering engineer, in questa conferenza che vi invito a guardare (sono appena 30 minuti e volendo potete impostare i sottotitoli con traduzione in italiano), soprattutto se di mestiere vi occupate di mix e/o mastering, ma in generale a chiunque sia arrivato fin qui a leggere:

Per quanto mi riguarda, forte delle conclusioni a cui arriva anche Silverman, il punto è sempre lo stesso: il colpo più dannoso che si possa arrecare a un brano o a un disco (e alle nostre orecchie) è l’eccessiva compressione del master (con conseguente restringimento delle differenze di volume tra piano e forte).

Mi rendo conto di essere fissato con questo tema e mi scuso con i lettori dei miei articoli se tendo a ripetermi. Allo stesso modo mi rendo conto che il discorso può essere sfuggente per chi è abituato ad ascoltare musica con cuffie economiche o casse Bluetooth, ma il problema esiste e prima o poi potreste trovarvi nella condizione di percepirlo nettamente (considerando quanto si sono abbassati i prezzi per permettersi un buon impianto o buone cuffie).
Un disco folk, jazz, pop o rock con master molto compresso potrà colpire inizialmente perché suona forte su qualsiasi dispositivo, ma con ascolti prolungati causa fatica d’ascolto. Inoltre, riservare un tale trattamento a un album dei generi sopracitati significa maltrattare ciò che l’artista ha suonato in sala registrazione.
Un discorso a parte va fatto per generi come IDM, drum and bass e simili, dove la compressione è una cifra stilistica (questo, ovviamente, non esclude il fatto che comunque possano provocare fatica d’ascolto).

Non si può negare la numerosa presenza di produzioni contemporanee che sul breve periodo hanno grande impatto e ci sembrano suonare benissimo, grazie ad un uso creativo proprio della compressione e di altri effetti e particolarità sonore che nei decenni precedenti non erano disponibili. Ma anche in questi casi di produzioni scintillanti e sorprendenti sul breve termine, se il range dinamico è troppo compresso e si parte con un ascolto ad alto volume, dopo pochi minuti solitamente si è portati ad abbassare, proprio perché il nostro udito fa fatica.

Pensateci: quante volte, con gli album contemporanei, riuscite ad ascoltare un disco dall’inizio alla fine a medio/alto volume? Quante volte vi ritrovate ad interrompere l’ascolto per passare ad altro o semplicemente perché sentite il bisogno di far riposare le orecchie? Certamente i fattori sono tanti e non si può ricondurre tutto alla mancanza di range dinamico, ma le ricerche sulla fatica d’ascolto e su cosa ci provoca più piacere quando ascoltiamo musica danno indicazioni chiare e inequivocabili.

Questo tendenzialmente non accade con la gran parte degli album prodotti fino alla metà degli anni novanta, oppure in splendide eccezioni contemporanee (vedi la nostra selezione nella rubrica Album of the Ear): album che non stancano mai nemmeno dopo ascolti ripetuti e con volume del proprio impianto o dispositivo al massimo, proprio grazie all’ampiezza del range dinamico e quindi al naturale rispetto dei rapporti di volume tra strumenti e voci. 

Silverman cita dei dati che parlano da soli: rispetto all’epoca precedente al 1996, oggi, mediamente, si pubblica musica con appena un quinto del range dinamico che avevano i brani fino al 1995.

Uno dei contributi mostrati da Silverman nella conferenza linkata sopra. Mostra l’impressionante crescita della distorsione (a causa dell’eccessivo aumento dei livelli sonori che visivamente si traduce in una forma d’onda che ha l’aspetto di un mattone compatto) e l’altrettanto impressionante diminuzione del range dinamico medio a partire dal 1996, ridotto ad appena un quinto del valore medio che avevano le produzioni discografiche fino al 1995.

Silverman pone anche l’accento sui danni provocati dalla normalizzazione automatica che le piattaforme streaming applicano alle tracce che superano un determinato livello: è un altro interessante piano d’indagine e un’ulteriore evidenza di quanto sia illogico riservare certi trattamenti al master.

Si può discutere per ore di quali siano i formati e le piattaforme migliori per la riproduzione di musica, ma l’incidenza sulla godibilità all’ascolto di questi aspetti è molto marginale se paragonata a quanto incide la qualità di produzione degli album. 

Una produzione di livello è caratterizzata da un lavoro di qualità in tutte e tre le fasi che la contraddistinguono: registrazione, mix e master. Spesso già nella fase di mixing (e volendo anche prima, nella registrazione) ma soprattutto in quella di mastering, si determina il trattamento da riservare al rapporto tra i volumi, quindi al range dinamico. Questo è un elemento che nella godibilità dell’ascolto incide in maniera netta e chiaramente percepibile da chiunque, senza bisogno di blind test ed esperimenti scientifici.
Un master dinamico e rispettoso delle differenze di volume permette al nostro cervello di percepire la completa pienezza timbrica di suoni e voci e di rendere piacevole l’ascolto per ore ed ore, anche ad alto volume.
Un master troppo compresso compromette invece irrimediabilmente il lavoro fatto in fase di arrangiamento, registrazione e mix, così come compromette la nostra esperienza causando fatica d’ascolto dopo pochi minuti. 

Volendo fare una gerarchia di quali sono gli elementi che più impattano sulla godibilità dell’ ascolto, in ordine di importanza, direi:

  1. Impianto e ambiente di ascolto (se si ascolta tramite diffusori)
  2. Produzione dell’album (dove tra gli elementi chiave c’è, appunto, il rispetto – o meno – del range dinamico)
  3. Formato di ascolto

I primi due punti a mio avviso possono essere posti in percentuali di importanza molto vicine e volendo potrebbero scambiarsi di posizione. 

Al contrario, escludendo il caso di rip lossy infimi (per esempio mp3 a 128kbps o anche peggio), il formato di riproduzione ritengo abbia un ruolo molto marginale e sopravvalutato nel determinare la piacevolezza dell’ascolto, e ancora più marginale nel causare listening fatigue.

👆 QUANDO ASCOLTI DEATH MAGNETIC.
L’album del 2008 risulta avere un dynamic range medio di circa 3db, quando “Master of Puppets”, uscito nel 1986, conta circa 15db. Cosa significa in parole povere? Che nel primo caso praticamente non esiste differenza tra piano e forte, con tutto ciò che ne consegue in termini di fatica d’ascolto e godibilità generale.
Bonus: indovinate chi ha mixato con volumi già esasperati l’album, prima che Rick Rubin mettesse mano al master? Già, proprio chi è citato all’inizio del capoverso qui sotto.

Andrew Scheps, nella conferenza a Google Talks linkata sopra, racconta che uno degli episodi che lo hanno spinto ad elaborare la sua teoria è quello avvenuto quando un amico di sua figlia gli disse di essere stanco perché aveva ascoltato musica tutto il giorno. Scheps racconta di essersi stupito perché quando ascoltava musica lui da ragazzino, anche per diverse ore, non aveva mai provato una tale sensazione di stanchezza, e quindi usa questo racconto per dare forza alla sua teoria e sostenere che la colpa sia dei formati compressi.
A me onestamente viene il forte sospetto che il motivo per cui Scheps da ragazzino non provasse fatica d’ascolto è da ricercarsi nei dischi che allora ascoltava – tutti presumibilmente con master dinamico – e non nei formati o i dispositivi.

Alan Silverman conclude la sua conferenza suggerendo che il limite di volume introdotto nel 2017 da Spotify e altre piattaforme (per far seguito, con qualche anno di ritardo, a quanto previsto dalla EBU R 128) dovrebbe portare tutti alla decisione saggia di sfruttare tale limite per master più dinamici (qual è il ragionamento alla base di tale conclusione lo spieghiamo in parole semplici qui), ma purtroppo questo non sta avvenendo, a dispetto di chi sostiene che questa misura abbia posto la parola fine alla Loudness war.

Artisti, etichette e ingegneri continuano a far uscire album con master che sono dei mattoni sfascia orecchie (anche quando il genere non lo richiederebbe, risultando, anzi, palesemente impoverito da questo trattamento).

Il problema poi sembra generalmente essere ignorato o preso in scarsa considerazione. A livello divulgativo, infatti, nel riferirsi agli elementi che possono compromettere la qualità dell’ascolto si continua spesso a porre l’attenzione su aspetti molto marginali, ignorando invece il danno enorme che la diminuzione continua del dynamic range e il parallelo aumento della distorsione stanno portando al mondo della musica registrata

Non sono solo io, povero audionerd sfigato, a puntare l’attenzione su questo problema, ma lo fanno da anni anche figure con attributi quadrati come Bob Ludwig o Alan Silverman, che dovrebbero essere dei fari guida e che invece vengono bellamente e largamente ignorati per bieche e cieche logiche di vendita che non hanno riscontro effettivo dimostrabile

Chiudo con una citazione di Bob Ludwig che, riferendosi al digital limiter e le tecniche usate oggi per esasperare i volumi nel master, centra pienamente il punto in poche parole:

Thank God these things weren’t invented when the Beatles were around, because for sure they would’ve put it on their music and would’ve destroyed its longevity. I’m totally convinced that over-compression destroys the longevity of a piece.

Bob Ludwig

Per la parte su Zwicker e la psicoacustica si è utilizzato come riferimento il primo capitolo del libro “Free” di Stephen Witt (Einaudi, 2016).