La percezione della Microdinamica

Test di Capraro-Bon

(o Kobayashy-Maru)

 

6 novembre 2016

 

Nota:

È evidente che, oltre che al livello, si dovrebbe considerare anche la durata di un suono ed è altrettanto evidente che, affinché un suono breve sia intelligibile, la sua intensità deve essere inversamente proporzionale alla sua durata. In questo test non ci si occupa della percezione dei segnali transitori deboli.

 

Il termine “microdinamica” non è un termine scientifico ma viene spesso utilizzato (anche dalle riviste).

Con esso si vorrebbe intendere la capacità di distinguere i dettagli presenti in un programma musicale.

 

Lo scopo è valutare la percezione della “microdinamica” ovvero dei dettagli presenti in un programma musicale. La domanda è: quanto deve essere intenso un “dettaglio” per essere percepito in modo intelligibile?

Il modo per scoprilo è inserire un dettaglio in un brano musicale (a diversi livelli) per poi sperimentare a quale livello venga percepito.

Il primo problema è decidere che tipo di dettaglio inserire per poter essere sicuri che il tester individui proprio il dettaglio che è stato inserito. Scartati rumori  e  segnali artificiali, si è optato per il parlato. In questo caso infatti, se il parlato viene percepito in modo intelligibile, il tester sarà in grado di ripetere le parole che ha sentito.

 

È stato scelto un brano musicale “tranquillo”: con pochi strumenti e un fattore di cresta moderato. Con il brano scelto sono stati preparati due file:

 

-          nel primo è stato mixato un “suono nascosto” con livello di 60 dB più basso rispetto al programma musicale

-          nel secondo il “suono nascosto” è attenuato di 40 dB.

 

Il “suono nascosto” è costituito da una voce che pronuncia la frase che segue:

 

Si prega il pubblico in sala di spegnere i telefoni cellulari e si ricorda che è vietato scattare foto ed effettuare riprese… (segue la stessa frase in inglese)

 

La lunghezza del brano è stata limitata a 30 secondi per consentire ai teste di ripetere l’ascolto più volte.

 

 

La scelta dei livelli

 

Il suono nascosto è stato mixato a –40 e a –60 dB. La scelta dei 60 dB deriva dalla definizione del tempo di riverberazione: un suono viene considerato estinto quando si è attenuato di 60 dB. Durante la misura del tempo di riverberazione l’attenuazione del suono avviene nel giro di secondi.

Quindi si dovrebbe dire che:

 

in presenza di un suono persistente che viene interrotto bruscamente, esso diventa non udibile quando si è attenuato di 60 dB (nel giro di alcuni secondi).

 

Il criterio utilizzato per misurare il tempo di riverberazione è in uso da un secolo. Se non fosse corretto sarebbe stato modificato specie in questi ultimi 20 anni in cui si sono resi disponibili strumenti di misura particolarmente potenti e conoscenze molto più accurate..

 

Per quanto riguarda i 40 dB, essi sono in accordo con il rapporto tra le intensità del suono trasmesso per via timpanica e per via ossea (indicato in letteratura tra -40 e -50 dB). Si considera che, quando il suono che perviene per via ossea sia attenuato di 40 dB, esso sia non udibile.

 

I livelli di attenuazione non sono stati scelti a caso.

 

 

I risultati attesi

 

Per come è stato preparato il segnale, ci si aspetta che il suono a –60 dB possa essere percepito con grande difficoltà (il che significa da pochi individui) mentre il suono a –40 dB potrebbe essere percepito da un numero consistente di tester.

 

I risultati ottenuti

 

Non si può parlare di valenza scientifica dei dati ottenuti perché

 

-          il numero di tester è limitato

-          le condizioni di test non sono controllate.

 

Ciascun tester ha condotto il test in modo autonomo ed autogestito con sistemi di riproduzione diversi e modalità diverse.

Proprio l’autogestione del test rende significativo il risultato ottenuto con il segnale a –60 dB.

Tale suono risulta mascherato (non intelligibile) anche se viene percepita  una forma di rumore o disturbo. Qualche cosa c’è ma non si capisce cosa.

 

Il segnale a –40 dB  (con punte a –25,-30 nei momenti più tranquilli) è rimasto ai limiti della percezione intelligibile.

 

 

Considerazioni sui risultati

 

Questo test  mostra almeno due cose:

 

 

1

un "segnale spurio", di livello compreso tra -40 e -60 dB, viene percepito come rumore o come   disturbo (ma viene percepito) quindi non è inutile puntare su sistemi a basso rumore, bassa distorsione,  ecc. ecc. . Dato che l'intermodulazione dipende dalla particolare forma del segnale non è   sbagliato puntare sulla minima distorsione possibile.

 

2

 

affinché il "segnale spurio" sia intelligibile deve essere almeno superiore a  -40 dB .

Quindi i cosiddetti "microdettagli" si trovano, con buona approssimazione, entro i primi 40 dB dB.

(ora che siano 40 o 50 dB ha poca importanza: è chiaro che non sono né 90 né 80 e tanto meno 150). Si noti che ciò è indipendente dal fatto che il segnale sia analogico o digitale, quantizzato a 16 o 24 bit.

 

Si possono poi fare una altro paio di considerazioni. La prima riguarda il rapporto segnale rumore. Se un segnale a –60 dB non può essere distinto c’è da aspettarsi che un segnale a –80 dB non possa essere udito. Ne segue che un rapporto segnale/rumore complessivo (per l'intera catena) di 80 dB potrebbe essere sufficiente. Diciamo che 80 dB è il minimo sindacale, di più è evidentemente meglio. I dispositivi a valvole presentato rapporti S/N non molto superiori a 80 dB. Ciò non significa che avere un ampli con S/N di 100 dB sia inutile sia perché il rumore di dispositivi collegati in cascata aumenta e sia perché anche il rumore concorre a generare intermodulazione. 

 

Possiamo anche fare una seconda considerazione sulla distorsione.

L’1% di distorsione corrisponde a –40 dB,  lo 0.1% corrisponde a –60 dB. In un dispositivo elettronico si riscontrano distorsione armonica e di intermodulazione. Nei sistemi di altoparlanti è presente anche la distorsione Doppler.   È noto che la presenza di distorsione armonica comporta sempre distorsione di intermodulazione e viceversa. Se fosse possibile realizzare un  dispositivo che distorcesse solo per distorsione armonica di ordine pari, questa produrrebbe soltanto una modesta (e tollerable) alterazione del timbro degli strumenti. In realtà la distorsione fastidiosa è costituita dalle componenti dispari della distorsione armonica  e la distorsione di intermodulazione (ovvero le componenti non armoniche della distorsione). Per questo motivo oggi le misure di distorsione utilizzano, come stimolo, i segnali multitono. Tali misure mostrano tutte le componenti di distorsione contemporaneamente (vds Distorsione Integrale o DI).

 

Se lo spettro della distorsione di DI risulta essere 60 dB sotto allo stimolo, la distorsione produrrà una alterazione molto modesta o non udibile.  Il problema è che la distorsione di intermodulazione dipende dalla particolare forma del segnale e  una DI soddisfacente è una condizione necessaria ma non sufficiente ai fini di una qualità di riproduzione ottimale (almeno dal punto di vista teorica dobbiamo dire così).

 

La DI misura la componente di distorsione stazionaria che genera la componente più rilevante della fatica da ascolto. Esiste però anche la distorsione di forma che riguarda la riproduzione dei picchi dei “grandi segnali” (vds compressione termica e meccanica). La distorsione di forma è molto più tollerabile (ma tollerabile non significa “non udibile”).

 

Quindi, per quanto riguarda la distorsione stazionaria, il limite dell’eccellenza, nel range da 80 a 8000Hz, va fissato allo 0.1% quando il diffusore produce l’equivalente di 90 dB a un metro sull’asse privilegiato di ascolto. Per frequenza sotto gli 80 Hz  l’andamento della distorsione dipende anche dal tipo di sistema (2 vie, 3 vie, ecc). La distorsione sull’ultima ottava ha un significato diverso (in quella regione di frequenze l’orecchio è più sensibile all’energia che all’ampiezza). Ricordiamo che la distorsione va misurata alla stessa distanza a cui si misura la risposta in frequenza (non come fa la rivista Stereoplay che misura la risposta in frequenza  a 2 metri e la distorsione a 1 metro).

 

Per concludere possiamo valutate positivamente un diffusore con distorsione minore dell’1%   e molto positivamente un diffusore acustico con distorsione entro lo 0.1%. Per le elettroniche a stato solido (che precedono gli altoparlanti) di deve ricercare una distorsione almeno inferiore di un fattore 10 (0.01%).

Ciò in accordo con il limite dello 0.02% riportato da qualche autore.

 

Per gli amplificatori a valvole il discorso è diverso perché la distorsione cresce con il livello del segnale e l’orecchio reagisce come se l’SPL della riproduzione fosse aumentato. Da qui la sensazione che un amplificatore a valvole sia più potente di quanto non dichiarato  (vds distorsione aurale).

 

Altre considerazioni sui risultati

 

Sempre alla luce dei risultati ottenuti si può sostenere che, benché la quantizzazione a 24 bit sia oggettivamente preferibile alla quantizzazione a 16 bit, questi ultimi sono potenzialmente sufficienti per ottenere una qualità sonora soddisfacente. Certo richiedono una maggiore attenzione nella realizzazione.

 

Ancora una volta, e non ci sarà mai prova del contrario, i dati raccolti confermano che conviene ridurre il rumore ambientale di fondo. 

 

 

Un segmento del parlato mixato al segnale musicale

 

ASDA della traccia del parlato Il valore RMS (riferito ad un amplificatore da 100 Watt ovvero a 28.3 Vrms) vale 3.52 e 2.95 Vrms per i due canali.

 

Segmento estratto dal brano Dreams

 

Per il futuro

 

Visti i risultati si possono pensare altri test più specifici e mirati. Si dirà: ma ormai conosciamo il trucco....E' vero ma non si saprà  mai il testo da riconoscere che può cambiare in infiniti modi.

 

Un aspetto che potrebbe essere investigato riguarda il tempo di riverberazione ed il rumore ambientale.

Nel vostro ambiente ci sono 60 dB di dinamica? Ovvero: al volume di ascolto abituale, ci sono 60  dB di dinamica?

 

Definizione dei segnali di test

 

Per il futuro si dovranno anche stabilire dei criteri per la realizzazione dei segnali di test.

Questa necessità deriva dall’andamento delle curve di loudness ovvero dal fatto che la sensibilità dell’orecchi dipende della frequenza e dalle caratteristiche degli ambienti (ricordiamo che i test di cui stiamo parlando vengono svolti da ciascun tester in condizioni “autogestite”).

I criteri proposti sono i seguenti:

 

1

possono essere paragonati suoni con la stessa banda passante e fattore di cresta simile.

 

2

La banda passante del segnale di test deve essere limitata per escludere gli effetti dell’ambiente

 (sotto 350 Hz) e l’ultima ottava (per non essere condizionati dalla direttività e dal livello di emissione del tweeter).

3

Preferibilmente si dovranno utilizzare segnali “naturali”  o riferibili a segnali naturali. Sono quindi esclusi toni puri e onde quadre  e simili.

 

In sostanza il segnale sarà limitata tra 350 e 4000 Hz o tra 350 e 8000 Hz. Ricordiamo che la rivista  americana Stereophile valuta la “piattezza” della risposta dei diffusori acustici nella decade 500-5000Hz. mentre Audio Review valuta la sensibilità nel range da 300Hz a 10kHz. In entrambe i casi ci si è preoccupati di escludere le basse e le alte.