Codifica della voce e dell'audio/Conversione analogico/digitale

Copertina Codifica della voce e dell'audio/Copertina

Campionamento

Campionamento nel dominio del tempo.

Il campionamento di un segnale tempo-continuo $x(t)$ produce il segnale tempo-discreto $x[n]$ , che è una sequenza equispaziata di campioni del segnale originario.

Il campionamento consiste nella moltiplicazione del segnale analogico $x(t)$ per un treno di impulsi (delta):

x[n]=\sum _{n}x\left(t\right)\delta \left(t-nT\right)

Teorema del campionamento di Shannon

Il teorema del campionamento di Shannon definisce come campionare un segnale tempo-continuo senza perdita di informazioni: Definizione

Sotto certe condizioni, un segnale tempo-continuo può essere perfettamente ricostruito a partire dai suoi campioni se la frequenza di campionamento $F_{c}$ è maggiore del doppio della banda $F_{0}$ del segnale:

F_{c}>2F_{0}

Condizione 1

La banda $F_{0}$ del segnale di partenza deve essere limitata.

La maggioranza dei segnali utilizzati in realtà ha banda illimitata: esiste un intervallo al di fuori del quale il segnale è significativamente vicino a zero, ma non è mai identicamente nullo → l'eliminazione delle parti ad alta frequenza porta a un'approssimazione, e il teorema di Shannon non è fisicamente realizzabile.

Condizione 2

Il segnale campionato può essere ricostruito perfettamente se e solo se come filtro interpolatore viene usato il filtro passa-basso ideale, con frequenza di taglio pari alla banda $F_{0}$ , che corrisponde:

nel dominio del tempo: alla convoluzione con la risposta all'impulso del filtro (ovvero la funzione sinc):
$x(t)=\sum _{n}x[n]*\delta \left(t-nT\right)$
nel dominio della frequenza: alla moltiplicazione con la funzione di trasferimento del filtro:
$X(f)={\frac {1}{T}}\sum _{n}X\left({\frac {n}{T}}\right)\delta \left(f-{\frac {n}{T}}\right)$
- piatta nella banda del segnale (non distorcente);
- a pendenza infinita in corrispondenza della frequenza di taglio;
- nulla al di fuori della banda del segnale.

Anche in questo caso il filtro ideale non è fisicamente realizzabile, e i filtri reali introducono approssimazioni:

Confronto tra il filtro ideale (blu) e alcuni filtri reali.

Diagramma di uguale intensità sonora

Diagramma di uguale intensità sonora.

Definizione

suono: onde trasversali di pressione che si propagano in un mezzo (tipicamente l'aria)
audio: l'insieme dei suoni percepibili dal sistema uditivo umano

L'audio è caratterizzato da intensità e frequenza.^[1]

Intensità (dB)

La misura dell'intensità è il Sound Pressure Level (SPL):

{\text{SPL}}=10\log _{10}{\frac {P}{P_{0}}}\;{\text{dB}}

dove $P_{0}$ è la pressione della sinusoide minimamente udibile alla frequenza di riferimento (1 kHz).

Il suono udibile è compreso tra la soglia di udibilità e la soglia del dolore:

0 dB = soglia di udibilità: suoni al di sotto di questa soglia non sono udibili dal sistema uditivo umano;
100 dB = soglia del danno irreversibile: suoni al di sopra di questa soglia possono ridurre la capacità uditiva in maniera permanente;
120 dB = soglia del dolore fisico: suoni al di sopra di questa soglia provocano danni fisici al timpano.

Frequenza (Hz)

Il suono udibile è compreso tra 20 Hz e 20 kHz, per un'ampiezza pari a 10 ottave^[2]. La curva di udibilità è fortemente non lineare:

l'intervallo di frequenze tra 1 kHz e 4 kHz comprende i suoni a cui il sistema uditivo è maggiormente sensibile (soglia di udibilità molto bassa);
a frequenze molto basse o molto alte, possono essere sentiti solo suoni a intensità molto alte (soglia di udibilità molto alta).

Voce

La voce umana naturale è compresa:

intensità: entro una dinamica ampia 60 dB (dal bisbiglio all'urlo);
frequenza: nell'intervallo da 20 Hz a 12 kHz.

Tuttavia per la voce trasmessa via telefono si è visto empiricamente che è sufficiente una banda compresa tra 300 e 3400 Hz, detta banda telefonica, in modo da garantire:

l'intelligibilità (indispensabile): capire la sequenza di fonemi che viene pronunciata dall'interlocutore;
una sufficiente qualità (naturalezza): capire informazioni sul parlatore (come identità, sesso, età...).

La voce in banda telefonica (narrowband voice) deve essere campionata a una frequenza maggiore della minima frequenza di campionamento imposta dal teorema di Shannon → viene campionata alla frequenza di 8 kHz per tenere conto delle non idealità dei filtri.

Oggigiorno nuove tecnologie (ad es. VoIP) rendono possibile la voce a banda larga (wideband):

larghezza di banda = 50-7000 Hz
frequenza di campionamento = 16 kHz

Quantizzazione

La quantizzazione permette di trasformare un segnale tempo-discreto $x[n]$ in un segnale digitale (o numerico) ${\hat {x}}[n]$ .

La zona operativa (o dinamica, o fondo scala) $X_{m}$ è l'intervallo di valori che ogni campione può assumere sulla scala reale. Dati $N$ bit:

la zona operativa viene suddivisa in $2^{N}-1$ intervalli, chiamati gradini (o step) di quantizzazione;
ogni campione viene mappato su uno dei $2^{N}$ valori possibili, e in particolare al più vicino (secondo la distanza euclidea).

L'operazione di quantizzazione introduce un errore irreversibile, chiamato errore (o rumore) di quantizzazione $e\left[n\right]$ , pari alla differenza fra un campione reale $x\left[n\right]$ e la sua versione quantizzata ${\hat {x}}\left[n\right]$ :

\left|e\left[n\right]\right|=\left|{\hat {x}}\left[n\right]-x\left[n\right]\right|\leq {\frac {\Delta }{2}}

dove $\Delta$ è l'ampiezza del gradino di quantizzazione. Nel quantizzatore uniforme, tutti i gradini di quantizzazione hanno ampiezza costante $\Delta ={\frac {X_{m}}{2^{N}}}$ .

Un campione può assumere tipicamente tutti i valori sulla scala reale → la zona di saturazione (o overload) comprende i valori al di fuori della zona operativa, in cui l'errore di quantizzazione può essere potenzialmente infinito.

Progetto di un quantizzatore

Numero di bit per campione

Il numero $N$ di bit per campione dipende da:

ampiezza $X_{m}$ della zona operativa: a parità di qualità, il numero di livelli necessario cresce con l'ampiezza della zona operativa;
errore di quantizzazione $e[n]$ : a parità di ampiezza della zona operativa, il numero di livelli necessario cresce con la qualità (prestazioni) della quantizzazione.

Valori tipici

CD audio: 16 bit/campione
voce telefonica: 12 bit/campione (minore qualità della musica + minore potenza del segnale)
immagini in scala di grigi: 8 bpp (bit/pixel)
immagini a colori: 24 bpp

Ampiezza della zona operativa

A parità di numero $N$ di bit, la scelta dell'ampiezza $X_{m}$ della zona operativa deriva dal compromesso tra:

zona stretta: più la zona operativa è stretta e i livelli sono fitti, più l'errore di quantizzazione è basso e le prestazioni del quantizzatore sono alte;
zona ampia: la zona operativa deve includere i valori a probabilità più alta in modo da minimizzare la probabilità di overload, ossia la percentuale dei campioni il cui valore cade al di fuori della zona operativa.

Assumendo una distribuzione di probabilità gaussiana, si è visto empiricamente che la scelta di una zona operativa con un'ampiezza $X_{m}$ pari a $4\sigma$ comporta una percentuale di overhead pari allo 0,069% circa.

Rapporto segnale/rumore

La qualità del segnale quantizzato è espressa in termini del rapporto segnale/rumore SNR, definito come il rapporto tra la potenza $\sigma _{x}^{2}$ del segnale non ancora quantizzato $x\left[n\right]$ e la potenza $\sigma _{e}^{2}$ dell'errore di quantizzazione $e\left[n\right]$ :

{\text{SNR}}=10\log _{10}{\frac {\sigma _{x}^{2}}{\sigma _{e}^{2}}}\;{\text{dB}}

dove la potenza $\sigma _{x}^{2}$ di un segnale $x(t)$ avente una funzione densità di probabilità ${\text{PDF}}_{x}\left(t\right)$ è:

\sigma _{x}^{2}=\int _{-\infty }^{+\infty }x^{2}\left(t\right)\cdot {\text{PDF}}_{x}\left(t\right)dt

Quantizzatore ottimo

Un quantizzatore si dice ottimo per un certo segnale se la sua distribuzione di livelli è tale che:

tutti i livelli di quantizzazione vengono utilizzati con pari probabilità, cioè nessun livello è utilizzato più di altri;
l'energia $\sigma _{e}^{2}$ dell'errore di quantizzazione $e\left[n\right]$ viene minimizzata;
il rapporto segnale/rumore SNR viene massimizzato.

Il quantizzatore ottimo si ottiene facendo "combaciare" la distribuzione dei livelli e la funzione PDF del segnale. Il teorema di Max-Lloyd permette di ricavare la distribuzione ottima di livelli a partire dall'espressione analitica della funzione PDF del segnale.

Il quantizzatore uniforme è un quantizzatore ottimo per segnali distribuiti uniformemente sulla zona operativa, ma i segnali audio tipicamente hanno una distribuzione di probabilità non uniforme.

Note

↑ I valori di SPL e di frequenza riportati di seguito sono convenzionali, ma dipendono in realtà da fattori legati alla persona come l'età, la salute, ecc.
↑ Si raddoppia circa 10 volte:
20 → 40 → 80 → 160 → 320 → 640 → 1080 → 2160 → 4320 → 8620 → 17740
Per confronto, il sistema visivo si limita a un intervallo di frequenze ampio appena 1 ottava.

[1] I valori di SPL e di frequenza riportati di seguito sono convenzionali, ma dipendono in realtà da fattori legati alla persona come l'età, la salute, ecc.

[2] Si raddoppia circa 10 volte:
20 → 40 → 80 → 160 → 320 → 640 → 1080 → 2160 → 4320 → 8620 → 17740
Per confronto, il sistema visivo si limita a un intervallo di frequenze ampio appena 1 ottava.

[1]

[2]