La distorsione di fase si sente?

È possibile sconfiggerla con le più moderne tecniche di riproduzione?

 

Osservazioni di Mario Bon del 20 giugno 2017.

 

Questa è una versione preliminare che sarà soggetta a revisione.

Versione 5

 

 

L’esperimento di AR ha paragonato, a giudicare dalla risposta impulsiva di pag 29 e 35, un sistema a fase mista con un sistema a fase minima. Il risultato era prevedibile: il sistema a fase minima “suona meglio” benché non conservi i segnali in forma. Il problema, quindi, non può dirsi completamente risolto.

 

 

 

Va detto che il metodo usato è l’unico possibile perché conserva correttamente la struttura della sorgente e confronta effettivamente le caratteristiche di fase. In particolare entrambe i sistemi (corretto e non corretto) soffrono della stessa diffrazione ai bordi. Ne segue che, in questo caso, la diffrazione ai bordi si è dimostrata un effetto “di ordine superiore” rispetto alla fase che è stata corretta. C’è da dire che la diffrazione ai bordi del diffusore utilizzato è molto ridotta. C’è da chiedersi se, usando una Spendor S100 al posto della B&W 88 D3, i risultati sarebbero stati gli stessi. Una risposta si può dare: se l’elettronica avesse corretto anche la diffrazione ai bordi …sì.

Il metodo di AR potrebbe quindi essere usato anche per confermare l’udibilità della diffrazione ai bordi (già riconosciuta come udibile da diversi autori).

 

Caratteristiche primarie e secondarie

 

Il suono riprodotto presenta delle caratteristiche “primarie” e delle caratteristiche “secondarie”. La risposta in frequenza è una caratteristica primaria: se è troppo sbilanciata il sistema è affaticante anche se la distorsione è nulla. La distorsione è anch’essa una caratteristica primaria: se non è abbastanza bassa la riproduzione è affaticante…Quando le caratteristiche primarie sono decenti allora si cominciano a percepire effetti di ordine superiore (per esempio la Spazialità). L’eccesso di fase è una caratteristica secondaria facilmente mascherabile, per esempio, in ambienti troppo riverberanti. Ci stiamo quindi occupando di una caratteristica secondaria che, per essere messa in evidenza, richiede un sistema con una risposta estesa e regolare, bassa distorsione, ambiente con basso rumore di fondo e  tempo di riverberazione adeguato, ecc. ecc. ecc. .

Ricordiamo che gli attributi del suono di un sistema di altoparlanti (passivo) sono: Calore, Fatica da Ascolto, Forza, Chiarezza, Spazialità e Brillanza. Per un sistema attivo si dovrebbe aggiungere il Rumore che di norma è trascurabile.

 

Definizioni:

 

Sistema a fase minima: un sistema è a fase minima se la funzione di trasferimento H(jw) che lo caratterizza è invertibile. Un sistema a fase minima conserva l’informazione. Condizione necessaria affinché un sistema sia a fase minima è che il segnale, tra l’ingresso e l’uscita, percorra un unico canale non dispersivo.

Ne segue che un sistema multivia, con centri di emissione non coincidenti non è, in generale, un sistema a fase minima. In particolare (in base a considerazioni puramente geometriche):

 

-          per un sistema a due vie con centri acustici non coincidenti è sempre possibile trovare un asse lungo il quale il sistema può essere a fase minima (esiste una retta unica equidistante da due punti non coincidenti)

-          per un sistema a tre vie, al massimo, si può trovare un punto nello spazio dove la funzione di trasferimento è a fase minima (per tre punti non allineati passa una unica circonferenza)

-          per un sistema con più di tre vie la condizione di fase minima può non essere realizzabile in nessun punto dello spazio

 

Per qualsiasi sistema è possibile intervenire introducendo opportuni ritardi (per via elettronica) ed ottenere la condizione di fase minima almeno in un punto.

 

Sistema a fase lineare: un sistema si dice a fase lineare se il ritardo di fase risulta proporzionale alla frequenza. Un canale non dispersivo è un sistema a fase lineare  (per esempio l’aria libera in assenza di gradienti di temperatura e umidità, una linea di trasmissione con banda passante infinita, ecc.).

 

Sistemi a fase mista: sono i sistemi che non sono completamente né a fase lineare né a fase minima: in pratica tutti i sistemi di altoparlanti non elettronicamente corretti.

 

 

Riproduzione in forma dei segnali

 

Se la risposta in frequenza di un sistema a fase lineare è piatta, il sistema riproduce in forma tutti i segnali con larghezza di banda che cade all’interno della parte piatta della risposta del sistema.

Se la risposta in frequenza di un sistema a fase minima è piatta e la risposta in fase è nulla, il sistema riproduce in forma tutti i segnali con larghezza di banda che cade all’interno della banda dove la risposta in fase del sistema è nulla.

Ne segue che un sistema a fase minima con risposta piatta (con punti a –3 dB) che si estende da 2Hz a 200kHz (5 decadi) riproduce in forma segnali con spettro compreso tra 20Hz e 20kHz (3 decadi). Un sistema a fase lineare con risposta piatta da 2Hz a 200kHz riproduce in forma segnali con la stessa estensione di frequenza. Da questo punto di vista un sistema a fase lineare consente di riprodurre in forma segnali con una banda passante più estesa (di due decadi).

Se il criterio è riprodurre un segnale in forma. I sistemi a fase lineare, dal punto di vista della estensione della banda del segnale, appaiono avvantaggiati.

 

Il confronto da fare, quindi, è tra:

 

-          un sistema a fase minima con banda passante piatta (-3dB) da 20Hz a 20kHz

-          un sistema a fase lineare con banda passante piatta (-3dB) da 20Hz a 20kHz

 

i due sistemi devono avere la stessa struttura (numero di vie, altoparlanti ecc.) come fatto da AR. In questo modo si verificherebbe la sensibilità dell’apparato uditivo rispetto alla fase. In un momento successivo si potrebbe valutare la sensibilità dell’apparato uditivo rispetto all’eccesso di fase (introducendo un eccesso di fase nel sistema a fase minima).

 

Sulla localizzazione

 

La prima osservazione riguarda la localizzazione della sorgente.

Per prima cosa, se la sorgente reale è visibile, la localizzazione avviene attraverso la vista quindi “distorsione di fase”, “eccesso di fase, “ritardo di gruppo”… perdono di significato. Se la sorgente reale non è visibile, la localizzazione avviene a cura dell’apparato uditivo. Va notato che, se la sorgente non è visibile, l’apparato uditivo non può sapere, a priori, se si tratta di una sorgente reale o virtuale.

La localizzazione della sorgente avviene entro i primi 1-2 millisecondi (sull’emissione del campo diretto) e sfrutta, normalmente, il segnale che perviene alle due orecchie (*). Le orecchie distano tra loro di circa 17 centimetri che corrisponde alla lunghezza d’onda di 2kHz.

Per frequenze inferiori a 2kHz l’orecchio può confrontare la fase del suono che si presenta alle due orecchie, per frequenze superiori la fase sarebbe incerta e quindi l’orecchio si basa sulla diversa attenuazione.

Le frequenze basse (con lunghezza d’onda molto maggiore di 17 centimetri) presentano differenze di fase (alle orecchie) troppo modeste per essere interpretate e quindi la localizzazione delle frequenze basse (per toni sinusoidali) non può essere fatta.

Alla fine, per localizzare un suono, è necessario che questo contenga delle componenti spettrali superiori a 500 Hz (circa).

La lunghezza d’onda a 500 Hz vale 4 volte quella a 2kHz.

Ne segue che, ai fini della determinazione della posizione della sorgente, ancor più in un ambiente riverberante, le frequenze inferiori a 500 Hz (circa) non servono. Ne segue ancora che allineare l’emissione del woofer con quella del medio è utile solo quando l’emissione del woofer sconfina oltre i 500 Hz.

Questo dipende anche dalla pendenza dei filtri: in un sistema dove il woofer è tagliato a 125 Hz con una pendenza di 18 dB/ottava, le componenti spettrali oltre i 500 Hz che provengono dal woofer sono attenuate di 36 dB e sono mascherate dall’emissione del medio. Se invece il taglio fosse a 300 Hz con pendenza di 6dB/ottava la situazione sarebbe completamente diversa.

 

Lo stesso discorso si applica all’incrocio tra medio e tweeter. Se questo è posto a 2000 Hz è l’emissione del tweeter che va a “disturbare” la localizzazione.

 

Incrocio tra woofer e medio

è richiesto un filtro passa basso (woofer) molto pendente

Incrocio tra medio e tweeter

è richiesto un filtro alto (tweeter) molto pendente

 

Quando siano presenti più di tre vie, gli altoparlanti che operano tra 500 e 2000 Hz devono essere molto “coerenti” (ben allineati).

 

Nel caso della B&W 800 D3 il taglio tra woofer e medio avviene a 500 Hz e a tale frequenza nemmeno il tweeter è tanto attenuato. In più nella regione tra 500Hz e 2kHz tweeter e medio risultano sovrapposti (il tweeter è attenuato meno di 10 dB a 800 Hz e tra 500 e 800 Hz “convivono tutti e tre gli altoparlanti). Ne segue che la correzione di fase ha buone probabilità di essere necessaria e “udibile”. Altri sistemi con frequenze di taglio più distanziate e pendenze maggiori potrebbero non mostrare gli stessi vantaggi rispetto alla correzione della fase.

Diciamo che AR ha scelto un diffusore adatto allo scopo.

                                                                                                                                                                                                                                                                                                                                                                  

Prima ancora di correggere la fase si potevano fatte una prima serie di misure:

 

-          medio e tweeter in fase

-          medio e tweeter in controfase

 

in questo modo sarebbe stato subito chiaro che i due altoparlanti si compongono con la fase corretta oppure no.

La seconda serie di misure riguarda:

 

-          woofer+medio+tweeter con tweeter in fase

-          woofer+medio+tweeter con tweeter in controfase

 

In questo modo si vede se il tweeter interferisce in modo costruttivo o distruttivo nella regione di incrocio woofer-medio (e quindi la necessità di applicare o meno una correzione alla fase del tweeter).

 

(*) la sorgente viene localizzata anche da chi è dotato di un solo orecchio.

 

Rapporto di fase tra le armoniche di un suono dotato di timbro

 

Una variazione di pressione (un suono) è un segnale con un inizio, una fine ed un valore medio nullo. Come tutti i segnali può essere rappresentato nel dominio della frequenza grazie alla trasformazioni di Fourier. Ogni componente spettrale del segnale ha un modulo e una fase. Tale fase è relativa nel senso che hanno significato fisico solo le differenze di fase tra le componenti spettrali e non il loro valore assoluto (che dipende dalla scelta a arbitraria dello zero dell’asse temporale). Il ritardo di gruppo, invece, ha significato fisico.

Se si alterno le differenze di fase tra le componenti spettrali di un segnale, si altera la sua forma nel tempo. Un esempio interessane è il rumore rosa:

 

differenze di fa casuali

Un rumore casuale

Differenze di fase nulle

Un impulso

Differenza di fase “opportuna”

Uno sweep logaritmico

 

Quindi alterando solo le relazioni di fase tra le componenti spettrali si ottengono tre segnali (tre suoni) molto diverti tra loro e che “suonano” in modo assolutamente diverso tra loro benché lo spettro sia (in modulo) lo stesso.

 

Si pone quindi il problema della riproduzione “in forma” dei segnali. Non c’è dubbio che, se la forma del segnale è correttamente riprodotta, la riproduzione è migliore. La riproduzione in forma richiede che siamo rispettati i rapporti di ampiezza ed i rapporti di fase delle componenti spettrali che formano il segnale.

 

Per quanto riguarda i rapporti delle ampiezza sappiamo che è ammessa una certa tolleranza che dipende dalla densità e dalla larghezza dello spettro nel segnale. Questo implica che sia ammessa una tolleranza anche sulle relazioni di fase.

Per un rumore rosa a largo spettro è possibile percepire variazioni sulla risposta in frequenza di frazioni di dB (per individuo “allenati”). Un altro strumento molto sensibile alle variazioni della risposta in frequenza è il pianoforte. Per contro ci sono strumenti che presentano un numero esiguo di armoniche (Xilofono, flauto,…).

 

C’è poi da fare una ulteriore considerazione: il cervello riconosce il “suono del pianoforte” prima come categoria e poi come oggetto. Quindi possiamo imparare a distingue il suono di pianoforti di marca diversa ma, se sentiamo il suono di un pianoforte di marca sconosciuta, lo riconosciamo ugualmente come pianoforte”. In più possiamo riconoscere il suono del pianoforte anche se suonato in un ambiente più o meno riverberante o se i tasti sono percossi con più o meno forza, o che sia riprodotto da un diffusore per alta fedeltà, una radiolina a transistor o attraverso il citofono.

In tutti questi casi, se andiamo ad osservare il suono con un analizzatore di spettro avremo risultati molto diversi.

Nella musica riprodotta è raro sapere cosa sta effettivamente suonando. Se non si conosce il timbro del singolo strumento ha poca importanza che la sua riproduzione sia “perfetta”. Tuttavia si potranno facilmente percepire le differenze di riproduzione attraverso sistemi diversi posti in commutazione.

 

L’apparato uditivo è specializzato nel riconoscimento della voce umana. La voce umana ha uno spettro limitato. È ipotizzabile che l’apparato uditivo dimostri tutte le sue abilità nella “banda vocale”. Nelle telecomunicazioni, per garantire la intelligibilità della voce si utilizza una banda passante che va da 300 a 3500 Hz (circa). 

 

 

Per concludere la riproduzione in forma di un segnale è importante e, a livello spettrale, devono essere rispettate sia le relazioni tra le ampiezze che le relazioni tra le fasi. Dato che un sistema a fase minima è in grado di riprodurre i segnali in forma (a patto che la loro estensione in frequenza sia “comodamente” contenuta nella banda passante del sistema) si deve ridurre l’eccesso di fase del sistema di riproduzione.

 

L’eccesso di fase è la differenza di risposta in fase tra il sistema in esame e la risposta in fase che avrebbe se fosse a fase minima.

 

Perché la localizzazione della sorgente richiede condizioni meno stringenti rispetto al riconoscimento del timbro? Perché la localizzazione della sorgente è funzionale alla sopravvivenza: non interessa capire di che marca è il camion che ci sta per investire ma è essenziale capire subito da che parte sta arrivando.

 

Perché la localizzazione della sorgente richiede condizioni meno stringenti rispetto al riconoscimento del timbro di uno strumento? Perché il riconoscimento della voce è funzionale alla sopravvivenza: interessa riconoscere subito se abbiamo di fronte un amico o un nemico (anche quando sentiamo la sua voce al citofono).

 

In sostanza stiamo usando uno strumento che è stato messo a punto quando l’uomo razzolava nelle savane per valutare sistemi che, centinaia di migliaia di anni fa, non esistevano. La stereofonia stessa è una illusione acustica perché in natura non esistono sistemi “stereofonici” e l’apparato uditivo, tratto in inganno, ricostruisce arbitrariamente delle “sorgenti virtuali” che, in effetti, non esistono.

Detto questo ci sono sistemi che “traggono in inganno” meglio di altri.

 

Fase lineare o fase minima?

 

La cosa non ha molta importanza perché la riproduzione in forma di un segnale si può ottenere in entrambe le situaioni. Dato che gli altoparlanti hanno un comportamento più vicino alla fase minima che alla fase lineare è “più comodo” assecondarli (specie nei sistemi passivi). Del resto, in un sistema multivia, le caratteristiche di fase dipendono da dove si mette il microfono di misura. Se lo si mette in asse del woofer o del tweeter si ottengono risultati (molto) diversi. Si noti che ciò avviene sia in “campo lontano” che in “campo vicino”.

Verrebbe da pensare che i sistemi migliori fossero quelli monodia o i coassiali. Sarebbe così se questi sistemi non presentassero difetti sulle caratteristiche primarie che maschera completamente le caratteristiche secondarie.