Breve tutorial sulla compressione

di Mario Bon

18 ottobre 2010

(corretto il 23 aprile 2012)

Il termine “compressione” viene utilizzato in ambiti diversi con significati diversi.

In elettroacustica per compressione si intende il processo utilizzato, per esempio, per ridurre il rumore delle cassette audio (compressione in registrazione -> espansione all’ascolto = meno rumore di fondo). Si veda Dolby e DBX.

La compressione del segnale audio si basa sui sistemi di controllo automatico del guadagno (AGC) i quali, detto in soldoni, valutano l’ampiezza del segnale e alzano il volume quando questo è basso e lo abbassano quando è alto. In questo modo la musica viene riprodotta con un livello medio meno variabile (meno dinamica). La compressione viene “dosata” secondo le esigenze. Nel caso della realizzazione di un disco in vinile è necessario applicare una certa quantità di compressione per mantenere le dimensioni fisiche del solco del disco entro i limiti accettabili.

Uno dei vantaggi del CD audio rispetto all'LP è proprio la maggiore dinamica. Con i CD audio la compressione dinamica può essere utilizzata in modo più limitato o non usata per nulla. Dal punto di vista tecnico, la compressione modifica l'inviluppo del segnale e, di conseguenza, ne altera lo spettro (teoria dei segnali -> segnali analitici).

Sempre in elettroacustica, riferito agli altoparlanti, si parla di distorsione per compressione che è dovuta a due cause:

- il riscaldamento della bobina mobile (che aumenta Re e quindi riduce l’efficienza)

- la diminuzione di Bl quando la bobina mobile esce dalla regione dove il campo B è costante.

In entrambe i casi viene a mancare la proporzionalità tra la tensione applicata e la pressione prodotta dell’altoparlante, Da qui il nome distorsione per compressione o compressione.

In informatica il termine compressione indica invece una tecnica per ridurre le dimensioni fisiche di un file (ridurre lo spazio occupato nel disco fisso). Chi utilizza il PC sa che un documento "zippato" occupa meno spazio su disco rispetto all'originale. Quando si comprime un documento si pretende che l'operazione contraria (estrazione, espansione, decompressione….) restituisca il documento originale senza alterazioni (compressione senza perdita di informazioni). Lo zip di un file è un esempio di compressione “lossles” senza perdita di informazioni.

Per quanto riguarda le immagini ed i file audio, il continuo sforzo teso a ridurre le dimensioni di questi file hanno condotto i ricercatori a definire dei formati compressi “con perdita di informazioni”. In buona sostanza, pur di ridurre le dimensioni del file, si accetta di memorizzare un numero inferiore di informazioni. L'esempio più banale riguarda il numero di sfumature di colore presenti in una immagine: se i 64000 colori originali vengono ridotti a 256 le dimensioni del file si dimezzano (ma la qualità dell'immagine peggiora). La ricerca si è quindi sforzata di individuare quelle informazioni, presenti nelle fotografie e nella musica, che “occupano spazio” ma “non sono fondamentali”. Più si riduce il numero di informazioni più diminuiscono le dimensioni del file. Il non essere fondamentale non implica che una informazione sia inutile.

Quindi la compressione (o riduzione) delle dimensioni di un file può essere realizzata "senza perdita di informazioni" (lossles) o "con perdita di informazioni" (lossy). Ciò vale per le immagini (formati BMP e JPG) e per i file audio (formato .wav e mp3).

File audio

Il formato WAVE (estensione .wav) è un formato non compresso (senza perdita di informazioni) utilizzato per archiviare i contenuti musicali. Il formato .WAVE prevede molte varianti. Se il formato WAVE è realizzato “in qualità CD” allora il file contiene un segnale campionato a 44100 Hz (44100 campioni al secondo) e ogni campione è composto da 16 bit (2 byte) . Come per i CD. Ne segue che un secondo di musica richiede una quantità di memoria (o di spazio su disco) pari a :

2 x 44100 = 88200 kByte

se il segnale è stereofonico questo numero va raddoppiato. Per ottenere la dimensione di un file .wav che contiene un minuto di musica monofonica si deve moltiplicare 88200 per sessanta:

88200 X 60 = 5292000 (oltre 5 Mbyte)

se un CD contiene 74 minuti di programma stereofonico risulta

74 x 2 x 5292000 = 783216000 pari a circa 740 MByte ( 1 MByte = 1024*1024 byte)

Il formato MP3 (che è un formato compresso con perdita di informazioni) consente di ridurre le dimensioni del file musicale (fino a 11 volte) ma questo comporta una "semplificazione" del segnale al quale vengono tolti quei dettagli che, a giudizio di chi ha elaborato gli algoritmi di compressione, non sono essenziali o non sono udibili perché mascherati (almeno con i lettori portatili). Meno si comprime, meno si risparmia in dimensione, meno dettagli si perdono. Un minuto di musica dura sempre un minuto anche se è compresso in MP3 quello che cambia è la dimensione del file audio e la qualità della riproduzione.

Un file audio è caratterizzato da due parametri fondamentali: il numero di campioni al secondo e il numero di bit utilizzati per rappresentare l'ampiezza del singolo campione.

Aumentando il numero dei campioni al secondo	aumenta la banda passante (la massima frequenza riprodotta).
Aumentando il numero di bit della conversione	migliora la risoluzione del segnale (diminuisce la differenza tra segnale campionato e segnale reale) e diminuisce il rumore di quantizzazione.

Tutto ciò costa in termini di dimensioni del file audio.

Tanto per fare un esempio raddoppiando il numero di campioni da 44100 a 88200 la dimensione del file raddoppia. Passando da 16 a 24 bit di risoluzione la dimensione del file aumenta del 50% ( si passa da 2 byte a 3 byte per campione).

A conti fatti passando da 16bit/44100 a 24bit/88200 le dimensioni del file audio aumentano di 3 volte (invece di un CD ce ne vorrebbero 3). Che differenza ci può essere tra un file 16bit/44100 ed uno 24bit/88200? Dal punto di vista strettamente tecnico le differenze sono tre:

- rumore di quantizzazione ( teoricamente 256 volte più basso)

- banda passante (doppia: 44100 Hz invece di 22050 Hz)

- dinamica (teoricamente aumenta di +48 dB passando da 90 a 138 dB)

con queste premesse c'è da aspettarsi che anche il "suono" di una registrazione realizzata a 24bit/88200 sia diverso (e potenzialmente migliore) da quello di una 16bit/44100. I CD Audio (16bit/44100), al momento attuale, rappresentano un buon compromesso tra prestazioni, capacità di memorizzazione e prezzo. Altri formati, anche più performanti, non sembrano aver ottenuto il necessario successo commerciale (SACD).

Byterate (o anche bitrate)

il byterate è il numero di byte che devono essere processati ogni secondo per ricostruire il segnale musicale. Nel caso del CD audio questo vale 176400 byte/secondo (88200 per canale).

Nel caso di file compressi in MP3 il byterate è sempre inferiore a 176400 (altrimenti conviene utilizzare il file .wav). Più il byterate è basso, più il file è compresso (meno informazioni) e più bassa è la qualità. In ogni caso un minuto di musica rimane un minuto di musica (di qualità diversa).

Il bitrate è il numero di bit al secondo. Dato che un byte è composto da 8 bit il bitrate è pari a 8 volte il byterate.

Malgrado la superiorità dei formati digitali (specie ad alta risoluzione) molti audiofili preferiscono la riproduzione degli LP.