Una critica (costruttiva) alla misura di distorsione TND di Audio Review

di Mario Bon

25 ottobre 2015, 7 Aprile 2016, una aggiunta il 10 Aprile 2017

 

La descrizione di una misura di distorsione di intermodulazione con rumore “bucato” è descritta a pag. 42 del libro di Oliver, Cage Electonic Measurements and Instrumentation edito da Mc Graw Hill del 1971 – ISBN  0-07-085544-7

 

Nel seguito si fa riferimento alla Teoria Unificata dei Segnali Osservabili.

http://www.mariobon.com/articoli_academia/Teoria_Unificata_dei_Segnali_2015_1_2.pdf

http://www.mariobon.com/articoli_academia/Teoria_Unificata_dei_Segnali_2015_3_5.pdf

in particolare alla parte quinta: “misure di distorsione non lineare con l’analizzatore di spettro”

I segnali vengono rappresentati, nel dominio del tempo, con la notazione di Dirac. Si ricorda che la scrittura

|c(t)>=<a(T-t)| b(T)> = F-1[A(jw)B(jw)]

rappresenta la convoluzione dei due segnali a(t) e b(t) mentreF-1[] indica l’antitrasformta di Fourier).

Si ricorda anche che, essendo la trasformata di Fourier una applicazione lineare:

<a(t)|b(t)>=0 implica che il prodotto A(jw)B(jw)=0

L’uso della notazione di Dirac serve ad evitare l’uso di integrali e per mettere in evidenza la natura vettoriale dei segnali. Essendo i segnali funzioni reali monodrome di L2, i versori di base sono ortonormali e le basi dei bra e dei ket coincidono. Ne segue che il complesso immaginario coincide con il complesso coniugato.

Quindi è tutto molto semplice.

 

La Total Noise Distortion o TND è una procedura di misura introdotta da Audio Review per stimare la distorsione non lineare prodotta da un sistema di altoparlanti. La procedura si basa sull’uso di due stimoli complementari ottenuti filtrando un rumore rosa a terzi di ottava a bande alternate (vedi figura).  Tanto per intenderci diremo che uno stimolo contiene i terzi “dispari” e l’altro i terzi “pari”. Nel seguito faremo riferimento allo “stimolo dispari” ed allo “stimolo pari”. Il modo formalmente corretto per definire gli stimoli è il seguente:

 

detto |R>  un segnale pseudocasuale con spettro isoenergetico (rosa) rigorosamente limitato in banda da 20 a 20000 Hz, deve essere:

 

|Sd>  + |Sp> = |R>   

La somma dei due stimoli è uguale al rumore rosa da cui sono stati estratti

(i due segnali sono complementari)

<Sd|Sp> = 0

il prodotto scalare pre hermitiano dei due stimoli è nullo

(i due segnali sono ortogonali)

 

|R>,|Sp> e |Sd> sono i segnali reali nel dominio del tempo (si dovrebbe scrivere |R(t)>). Dato |R>, e definito uno degli stimoli, l’altro è univocamente determinato. Su queste definizioni c’è poco da discutere.

 

Spettro dello stimolo “dispari” da 20 a 20000  Hz. I terzi di ottava sono stati ottenuti direttamente via FFT (equivalente a  filtri a pendenza infinita). Lo stimolo è pseudocasuale composto da 216 campioni a 16 bit campionati a 44.1kHz (standard CDA). Uno pseudoperiodo dura 1.486 secondi  (circa un secondo e mezzo) e la frequenza minima è 0.673 Hz

Non ci sarebbe alcun problema ad aumentare lo pseudoperiodo a 218 campioni riducendo la frequenza minima a 0.168 Hz (circa) aumentando lo pseudoperiodo a poco meno di 6 secondi.

 

Stima degli spettri  degli stimoli  “pari” e “dispari” usati da Audio Review. Si noti che, in realtà, gli stimoli usati non sono complementari.

 

L’ortogonalità di |Sd> e |Sp> implica che gli spettri dei due stimoli non hanno alcuna componente spettrale in comune. Nel dominio della frequenza Sd(jw)Sp(jw)=0. Nella pratica tale condizione si ottiene solo se è possibile trascurare il rumore di quantizzazione. In ogni modo il rumore di quantizzazione, che fa parte dello stimolo, può essere ridotto utilizzando segnali quantizzati a 24 bit.

 

La procedura di misura prevede l’esecuzione di due misure distinte con il DUT sollecitato da |Sp> e |Sd>. Quindi i due  risultati vengono elaborati  e presentati in un unico grafico nel dominio della frequenza. Senza indugiare oltre passiamo al problema delle “bande laterali” ovvero ai picchi di distorsione che si osservano nelle regioni di transizione tra due terzi di ottava contigui quando le due misure vengono composte in un unico grafico..

 

 

 

Misura di TND eseguita su un diffusore a 2 vie

Si notino le bande laterali ben visibili tra 1000 e 2000 Hz.

 

Il fatto che a volte le bande laterali siano più evidenti non significa nulla: le bande laterali non  devono mai essere presenti.

 

 

Se le bande laterali fossero una peculiarità riferibile al DUT sarebbero sempre presenti ma, se si usano stimoli con bande alternate di larghezza diversa (per es.  mezza ottava) le bande laterali si osservano sempre e solo nelle regioni di transizione tra bande contigue. In realtà le bande laterali non ci dovrebbero essere perché la relazione  <Sd|Sp> = 0   deve essere sempre rispettata.

 

Le “bande laterali” dipendono:

 

-          da come vengono generati i due stimoli (I filtri che limitano i terzi di ottava devono avere pendenza infinita) 

-          dalla applicazione di finestre di pesatura nel tempo

-          dal tipo di “composizione” dei due risultati che viene attuata per ottenere il grafico finale.

 

Per fissare le idee diciamo che

 

-          lo stimolo |Sp> viene applicato al sistema e produce la risposta |TNDpari>

-          lo stimolo |Sd> viene applicato al sistema e produce la risposta |TNDdispari>

-          h(t) è la funzione impulsiva del DUT.

 

Esprimiamo la risposta del DUT come somma di una componente lineare e delle componenti non lineari. Distinguiamo, nella componente non lineare, i contributi pari e dispari. In sostanza scriviamo:

 

|TNDpari>      = a<h(T-t)|Sp(T)> + |Disto(t,a)>

dove  |Disto(t,a)>= |DistoPari1(t,a)>  + |DistoDispari1(t,a)> e <DistoPari1(t,a)|DistoDispari1(t,a)>=0

Facciamo questo sia per la risposta pari che per la dispari.

 

|TNDpari>      = a<h(T-t)|Sp(T)> + |DistoPari1(t,a)>  + |DistoDispari1(t,a)>

|TNDdispari> = a<h(T-t)|Sd(T)> + |DeltaPari2(t,a)> +  |DeltaDispari2(t,a)>

 

<h(T-t)|Sp(T)>  =  convoluzione dello stimolo  |Sp> con la h(t) del DUT (componente lineare della risposta)

|DistoDispari1(t,a)> = la distorsione non ortogonale a |Sp>

|DistoPari1(t,a)> = la distorsione ortogonale a |Sp>

e analogamente per gli altri ket. Si noti che  |DistoPari1(t,a)>  è diverso da |DistoPari2(t,a)> (e lo stesso per la parte dispari).  La presenza di a ci ricorda che la distorsione dipende dall’ampiezza dello stimolo.

 

Se calcoliamo la convoluzione <TNDpari(T-t) | Sd(t)> i ket ortogonali (quelli dispari) vanno a zero e resta solo |DistoDispari1(t)>. Analogamente per la parte pari.

 

Ne segue che  |DistoPari2> e |DistoDispari1>  (che sono quello che interessa) sono ortogonali ovvero

 

<DistoPari2 |DistoDispari1> = 0

 

Quindi la somma |Disto> = |DstoDispari1> + |DistoPari2> non può presentare “bande laterali” di alcun tipo perché i segnali sono privi di componenti spettrali comuni che si possano sommare. 

 

Stando così le cose la composizione dei risultati (nel dominio della frequenza) può essere fatta graficamente  sovrapponendo nello stesso grafico TNDpari e TNDdispari (nel dominio della frequenza) in modo che le parti sovrapposte siamo colorate in modo diverso (in nero nell’esempio che segue).

 

 

Nella figura qui sopra si vede la prima misura (blu) con lo stimolo pari, la seconda (rosso) con lo stimolo dispari e la composizione grafica delle due con la distorsione e evidenziata in nero (rosso-blu=nero). Lo stimolo è composto da 216 campioni a 44100 Hz e 16 bit con banda passante da 32 a 16000Hz. Il fattore di cresta del segnale dispari vale 4.13 (12.66 dB). Lo spettro della distorsione, in questo particolare caso, si trova circa 40 dB sotto allo stimolo e vale quindi circa 1%  tranne nell’ultima ottava dove sale al 3% circa. Manca la valutazione del rumore ambientale che, in questo caso, è trascurabile perché le misure sono state fatte in campo vicino. Comunque non è l’effetto del rumore ambientale che si vuole evidenziare in questo caso (è sufficiente che si trovi almeno 20 dB sotto allo spettro della distorsione).

 

Come si vede non ci sono bande laterali e la composizione grafica risparmia una serie di calcoli che avrebbero comunque portato allo stesso risultato. Nello stesso grafico si vede la risposta al rumore rosa e la distorsione. Il fatto che la distorsione (la parte in nero) presenti un inviluppo “continuo” è sostanzialmente un fatto causale: non è prevedibile né previsto, semplicemente accade.

 

Nella misura portata ad esempio non sono state utilizzate finestre di pesatura nel tempo per due motivi:

-          primo: perché non servono (lo stimolo è sincronizzato con la base tempi dell’analizzatore e composto da un numero di campioni compatibile con la FFT),

-          secondo: perché provocherebbero il decadimento della condizione di ortogonalità degli stimoli.

 

La pesatura, nel dominio del tempo, è una modulazione di ampiezza e, come tale, produce essa stessa intermodulazione. Ciò aumenta la larghezza delle bande di rumore indipendentemente da quanto precisa sia stata la loro generazione. Se si applica una finestra di pesatura si distrugge l’ortogonalità degli stimoli che è una condizione necessaria per questo metodo di misura.

Gli stimoli devono essere segnali pseudo-casuali (generati digitalmente) ed il clock del generatore degli stimoli deve essere sincrono al clock dell’analizzatore di spettro (vedere Teoria Unificata dei Segnali Osservabili). In questa situazione si dimostra che l’analisi spettrale è una misura con errore noto e che l’operazione di intermodulazione è chiusa indipendentemente dalla forma del segnale utilizzato (purché lo pseudoperiodo comprenda un numero di campioni pari o multiplo di 2N), le righe spettrali generate per intermodulazione appartengono tutte al set dei versori di base dell’analizzatore di spettro. 

Va da sé che, se lo stimolo è composto da 2N campioni, la FFT vada fatta su 2kN campioni (con k intero positivo diverso da 0).

 

La  misura di TND rielaborata graficamente. Le linee nere verticali sono causate dalla scarsa risoluzione della grafica.

 

Rumore ambientale a bassa frequenza

 

Una cosa che disturba parecchio la misura è il rumore ambientale ed in particolare il rumore a bassa frequenza quando contiene frequenze inferiori alla minima frequenza analizzabile.

Se si utilizza un segnale campionato a 44100Hz composto da 216 campioni, la frequenza più bassa, compresa nella finestra di acquisizione, vale 0.673 Hz circa. Tale frequenza (e quelle inferiori) è già attenuata dagli accoppiamenti in a.c. presenti lungo il percorso che va dal microfono all’ingresso dell’analizzatore di spettro.

Se non dovesse bastare si può eseguire la misura acquisendo 217 punti (o più…). L’intera procedura si completa in meno di un minuto (anche facendo le cose con calma…).

Se si applicano finestra di pesatura o se lo stimolo non è sincronizzato al clock dell’analizzatore, l’analisi spettrale che ne deriva non fornisce una misura con errore noto ma una stima (con errore “ad minchiam”). Quel che è peggio è che la condizione di ortogonalità, essenziale per questa misura, viene perduta (come ripetuto più e più volte perché questo è il nocciolo del problema).

 

Rumore e cervello

 

Il suono viene processato in aree diverse del cervello a seconda che venga riconosciuto come rumore, musica o linguaggio. Una quarta area del cervello si occupa della localizzazione della sorgente e di valutare le dimensioni dell’ambiente.

Il rumore non viene processato, dal cervello, allo stesso modo della musica quindi la distorsione misurata con il rumore non è, necessariamente,  direttamente riferibile alla distorsione percepita durante la riproduzione della musica (o alla fatica da ascolto).

Questo pone un problema nella determinazione della JDD e della JND relative alla misura di TND (come delle altre misure che utilizzano rumore). Anche le sinusoidi, che non sono suoni naturali, presentano delle limitazioni in tal senso. Affermare che le sinusoidi non sono suoni naturali sembra una assurdità... il fatto è che non esistono sorgenti naturali che producano toni puri.

 

In pratica è possibile dare un giudizio sicuro soltanto quando la TND è estremamente bassa o estremamente alta (come avviene per la THD). Ci sono poi dei casi dove un altoparlante, benché presenti una TND bassa,  “suona” peggio di quanto la misura non lasci prevedere. Questo avviene con alcune trombe ma anche con tweeter e midrange. Per fortuna le cause di questo comportamento sono note e tale comportamento facilmente evidenziato co opportune misure.

 

Quindi la misura di TND va eseguita come segue:

 

gli stimoli devono essere ricavati da un rumore pseudocasuale con spettro rosa composto da un numero di campioni pari a una potenza di 2 (minimo 216) campionato a non meno di 44.1kHz

i segnali pari e dispari vanno ottenuti operando direttamente sullo spettro.

Il generatore di stimoli e l’analizzatore di spettro devono condividere lo stesso clock

L’analisi va fatta su un numero intero di pseudoperiodi dello stimolo

non si devono usare finestra di pesatura nel tempo (ma piuttosto un adeguato filtro passa alto come mostrato nella Teoria Unificata dei Segnali Osservabili) (*)

Piuttosto che eseguire medie nel tempo o nella frequenza è meglio acquisire più pseudoperiodi in una unica finestra

I risultati vanno composti graficamente in una unica immagine

 (*) il vero problema sono le componenti a bassa frequenza del rumore ambientale che possono essere attenuate aumentando la durata dello pseudoperiodo dello stimolo a 217 o anche 218 campioni (in tal caso una acquisizione dura  6 secondi circa per 218 campioni cui si somma il tempo per la elaborazione).

 

In questo modo non si generano le bande laterali e si misura la distorsione corretta alle basse frequenze.

 

Ampiezza degli stimoli, livello di misura

 

Possiamo osservare subito che la distorsione di armonica pari generata da uno stimolo TND “cade”  in un terzo di ottava  presente nello stimolo stesso (quindi non viene evidenziata). Ma questo è un problema molto marginale.

Se il rumore rosa comprende 30 terzi di ottava, lo stimolo pari ne contiene 15 e altrettanti lo stimolo complementare. Questo significa che ciascuno stimolo possiede un livello RMS che è 3 dB più basso del rumore rosa dal quale è stato estratto (almeno in teoria). Per quanto riguarda i valori di picco ed il  fattore di cresta, a priori,  non si può dire molto.

Quindi se, con rumore rosa “intero”, il diffusore con risposta in frequenza piatta da 20 a 20kHz produce 90 dB SPL, con uno stimolo composto da 15 terzi di ottava ne produce 87.

Se invece regoliamo il livello affinché il diffusore produca 90 dB con 15 terzi di ottava  il livello RMS del rumore da cui è stato estratto vale 93 dB.

La TND viene misurata applicando due segnali ciascuno di 15 terzi in tempi diversi: la misura di TND va riferita a 87, 90 o 93 dB? Dato che interessa soprattutto il confronto tra misure di diffusori diversi nelle stesse condizioni  possiamo trascurare anche questa piccola difficoltà.

 

L’altro problema è il fattore di cresta: i segnali “pari” e “dispari” presentano fattori di cresta diversi e, a loro volta, diversi dal fattore di cresta del rumore da cui sono stati estratti.

Dato che la distorsione di intermodulazione dipende dalla forma nel tempo dello stimolo questo introduce una incertezza: stiamo facendo una misura con due segnali con livello RMS  uguale ma con fattore di cresta diverso quindi il sistema viene eccitato con valori RMS e di picco diversi durante le due misure. Il risultato di una misura di intermodulazione dipende dalla particolare forma nel tempo dello stimolo quindi viene da chiedersi se abbia veramente senso utilizzare due stimoli diversi (e incorrere in queste incertezze) o se non sia meglio (almeno dal punto di vista metodologico) progettare una misura che preveda l’uso di un solo stimolo.

Queste comunque sono osservazioni che hanno una valenza più teorica che pratica (anche se la teoria ha la sua importanza).

 

Le effettive condizioni d’uso

 

Il rumore rosa è un segnale adatto per eseguire misure di distorsione? La cosa migliore sarebbe utilizzare direttamente un segnale musicale dal quale si potrebbe estrarre la distorsione analizzando la parte non coerente (Random Distortion, proposta da Temme). Questa procedura tuttavia risulta molto sensibile al rumore introdotto tra il DUT e il microfono (che non sarebbe un problema) ma anche alla presenza di sorgenti secondarie che producono interferenza (stiamo misurando la coerenza). Quindi le interferenze che si riscontrano nei sistemi multivia e la diffrazione ai bordi limitano la applicabilità della Random Distortion. La RD è decisamente più adatta per misurare un amplificatore piuttosto che un diffusore acustico.

Abbandoniamo l’idea di utilizzare direttamente segnali musicali e cerchiamo di preparare un segnale che abbia la stessa distribuzione energetica e lo stesso fattore di cresta di un segnale musicale. La soluzione può essere un rumore rosa a larga banda (anche attenuato agli estremi della banda se lo si desidera) con un fattore di cresta superiore a tre (che è il minimo FC della musica su CD).

La misura di distorsione armonica viene fatta applicando al DUT uno stimolo sinusoide. Per esempio si può scegliere di regolare l’ampiezza dello stimolo per ottenere 90 dB SPL al microfono posto a un metro. Se applichiamo allo stesso DUT uno stimolo in forma di rumore rosa che produce sempre 90 dB di SPL al microfono il risultato della misura è profondamente diverso e sembra che la distorsione misurata con il rumore sia molto inferiore. Infatti ciascuna componente spettrale del rumore rosa è almeno 14 dB più bassa della sinusoide che produce lo spesso SPL. Il rumore rosa, tuttavia, corrisponde maggiormente alle effettive condizioni d’uso. Chi utilizza l’impianto stereo per ascoltare toni sinusoidali troverà più rappresentativa delle proprie effettive condizioni d’uso  la misura di distorsione armonica.

 

Alternative alla TND

 

Invece di usare due stimoli con rumore filtrato a terzi di ottava, si può utilizzare un unico segnale con bande alternata a noni o dodicesimi si ottava. Con un tali stimoli basta eseguire una unica misura.

La densità spettrale a bassa frequenza è un falso problema: qualsiasi sistema di altoparlanti che si rispetti sopporta qualche Watt continuo per almeno per alcuni minuti. 

 

Esempi

 

Tutti i segnali mostrati qui di seguito sono “estratti” da un rumore rosa pseudocasuale con spettro limitata da 20 a 20000 Hz..

L’immagine che segue mostra il generatore di segnali (gen.exe) che ha generato lo stimolo pari (216 campioni a 44100 Hz). La quantizzazione corrisponde a 64 bit.  Come si vede i terzi di ottava sono perfettamente definiti (il fondo del grafico sta a-144 dB).

 

 

La figura che segue è l’analisi ASDA del segnale precedente ma salvato in formato WAVE  a 16 bit. Questa volta è presente il rumore di quantizzazione (programma wavestat.exe che esegue l’analisi ASDA).

 

 

Nella prossima figura si vedono tre grafici.

-          il primo è l’andamento del tempo del segnale con applicata la finestra di pesatura  Parzen

-          il secondo è lo spettro del segnale non pesato

-          il terzo è lo spettro del segnale pesato.

Nello spettro del segnale pesato le bande a bassa frequenza sono “sbrodolate” e si è persa l’ortogonalità.

 

 

Nella prossima figura si vedono tre grafici.

 

 

Quindi in questo esempio sono state fatte due cose “proibite”: è stata applicata una finestra di pesatura ed il segnale non è stato analizzato su un intero periodo. Il risultato è apparentemente migliore del precedente ma si osserva comunque uno “sbrodolamento” a bassa frequenza. Si noti anche il “rumore  di fondo” .

 

 

Generazione di  rumore rosa

 

In passato, la generazione di un rumore pseudocausale  veniva affrontata utilizzando registri a scorrimento con controreazione digitale. Il risultato era una sequenza telegrafica di 2N-1 campioni. In sostanza mancava sempre uno zero. Oggi si generano sequenze MLS di 2N campioni perfettamente compatibili con la FFT.

Rimane il problema del fattore di cresta. Non è facile ottenere stimoli con fattori di cresta inferiori a 3 (o 9.5 dB) nel senso che servono anche decine di ore di computo. Però è molto facile (veloce)  ottenere stimoli con fattore di cresta compreso tra 3 e 4  (9.5 e 12 dB).

Considerato che una grandissima parte della musica disponibile su CD presenta un fattore di cresta minore di 4, un tale stimolo rappresenta (almeno nel fattore di cresta) una buona percentuale delle “effettive condizioni d’uso”.

 

 

Conclusione

 

A causa della presenza delle bande laterali la TND sovrastima la distorsione prodotta da un sistema di altoparlanti. Con poche modifiche le bande laterali possono essere eliminate (e la procedura di misura diventa anche più semplice).

Sarebbe ancora più semplice eseguire una unica misura con un segnale a bande alternate di un nono o di un dodicesimo di ottava.

 

Figura: segnale a bande alternate da un dodicesimo di ottava composto da 217 campioni (16 bit/44100 Hz) da 20 a 20000 Hz. La minima frequenza è pari a 0.336 Hz circa  e lo pseudoperiodo vale 2.97 secondi.

L’ulteriore alternativa sono i segnali multitono (vds Temme,  Klippel e altri).

 

Appendice

 

Come ottenere un rumore rosa da un rumore preesistente.

 

Supponiamo di disporre di un segmento di rumore con spettro diverso da zero tra 20 e 20000 Hz.

Supponiamo di disporre di 8 milioni di campioni.

 

-          selezioniamo il numero di campioni che servono (per esempio 216)

-          via software normaliziamo l’ampiezza del modulo di ciascuna riga spettrale (senza alterare la fase)

-          si ottiene un rumore bianco (spettro piatto)

-          applichiamo la pesatura 1/f  e otteniamo il rumore rosa che serve.

-          Ottenuto uno pseudoperiodo si genera lo stimolo della durata voluta.

 

In sostanza si mantengono i rapporti di fase (che sono casuali) e si normalizza l’ampiezza del modulo delle singole componenti spettrali.  A questo punto calcoliamo il fattore di cresta. Se il fattore di cresta è troppo alto non resta che scegliere una sottosuccessione diversa.

 

Il generatore di rumore, che utilizza chi scrive, genera sequenze pseudocasuali con distribuzione casuale delle fasi relative. In teoria basta farlo girare per un tempo sufficiente e scegliere il rumore con il fattore di cresta desiderato. Questo comunque non garantisce che i segnali “pari” e dispari” abbiano fattori di cresta altrettanto bassi e men che meno uguali quindi viene scelto un rumore con fattore di cresta prossimo a 3 (o compreso tra 3 e 4 pari a 9-12 dB).

 

Da qualche anno i diffusori Opera vengono testati misurando la DI (distorsione integrale) che usa come stimolo un segnale mutitono formato da 120 toni sinusoidali isoenergetici (uno per ogni semitono). Questo segnale all’ascolto appare come quello prodotto da un organo elettronico quando si premono contemporaneamente tutti i tasti. Non si tratta quindi di un “rumore” ed è più facilmente correlabile alle effettive condizioni d’uso.

 

Confronto della distorsione TND misurata con segmenti musicali e con il segnale di prova. Si noti come i tre “picchi” attorno a 1200, 3500 e 16k Hz, siano comunque presenti mentre la distorsione attorno a 100 Hz sia ben inferiore con il segnale musicale rispetto al segnale di prova.