Codifica della voce e dell'audio/Conversione analogico/digitale

Indice del libro
Schema a blocchi di un sistema di conversione A/D e D/A.

CampionamentoModifica

 
Campionamento nel dominio del tempo.

Il campionamento di un segnale tempo-continuo   produce il segnale tempo-discreto  , che è una sequenza equispaziata di campioni del segnale originario.

Il campionamento consiste nella moltiplicazione del segnale analogico   per un treno di impulsi (delta):

 

Teorema del campionamento di ShannonModifica

Il teorema del campionamento di Shannon definisce come campionare un segnale tempo-continuo senza perdita di informazioni:   Definizione

Sotto certe condizioni, un segnale tempo-continuo può essere perfettamente ricostruito a partire dai suoi campioni se la frequenza di campionamento   è maggiore del doppio della banda   del segnale:

 

Condizione 1Modifica

La banda   del segnale di partenza deve essere limitata.

La maggioranza dei segnali utilizzati in realtà ha banda illimitata: esiste un intervallo al di fuori del quale il segnale è significativamente vicino a zero, ma non è mai identicamente nullo → l'eliminazione delle parti ad alta frequenza porta a un'approssimazione, e il teorema di Shannon non è fisicamente realizzabile.

Condizione 2Modifica

Il segnale campionato può essere ricostruito perfettamente se e solo se come filtro interpolatore viene usato il filtro passa-basso ideale, con frequenza di taglio pari alla banda  , che corrisponde:

  • nel dominio del tempo: alla convoluzione con la risposta all'impulso del filtro (ovvero la funzione sinc):
     
  • nel dominio della frequenza: alla moltiplicazione con la funzione di trasferimento del filtro:
     
    • piatta nella banda del segnale (non distorcente);
    • a pendenza infinita in corrispondenza della frequenza di taglio;
    • nulla al di fuori della banda del segnale.

Anche in questo caso il filtro ideale non è fisicamente realizzabile, e i filtri reali introducono approssimazioni:

 
Confronto tra il filtro ideale (blu) e alcuni filtri reali.

Diagramma di uguale intensità sonoraModifica

 
Diagramma di uguale intensità sonora.

  Definizione

suono
onde trasversali di pressione che si propagano in un mezzo (tipicamente l'aria)
audio
l'insieme dei suoni percepibili dal sistema uditivo umano

L'audio è caratterizzato da intensità e frequenza.[1]

Intensità (dB)Modifica

La misura dell'intensità è il Sound Pressure Level (SPL):

 

dove   è la pressione della sinusoide minimamente udibile alla frequenza di riferimento (1 kHz).

Il suono udibile è compreso tra la soglia di udibilità e la soglia del dolore:

  • 0 dB = soglia di udibilità: suoni al di sotto di questa soglia non sono udibili dal sistema uditivo umano;
  • 100 dB = soglia del danno irreversibile: suoni al di sopra di questa soglia possono ridurre la capacità uditiva in maniera permanente;
  • 120 dB = soglia del dolore fisico: suoni al di sopra di questa soglia provocano danni fisici al timpano.

Frequenza (Hz)Modifica

Il suono udibile è compreso tra 20 Hz e 20 kHz, per un'ampiezza pari a 10 ottave[2]. La curva di udibilità è fortemente non lineare:

  • l'intervallo di frequenze tra 1 kHz e 4 kHz comprende i suoni a cui il sistema uditivo è maggiormente sensibile (soglia di udibilità molto bassa);
  • a frequenze molto basse o molto alte, possono essere sentiti solo suoni a intensità molto alte (soglia di udibilità molto alta).

VoceModifica

La voce umana naturale è compresa:

  • intensità: entro una dinamica ampia 60 dB (dal bisbiglio all'urlo);
  • frequenza: nell'intervallo da 20 Hz a 12 kHz.

Tuttavia per la voce trasmessa via telefono si è visto empiricamente che è sufficiente una banda compresa tra 300 e 3400 Hz, detta banda telefonica, in modo da garantire:

  • l'intelligibilità (indispensabile): capire la sequenza di fonemi che viene pronunciata dall'interlocutore;
  • una sufficiente qualità (naturalezza): capire informazioni sul parlatore (come identità, sesso, età...).

La voce in banda telefonica (narrowband voice) deve essere campionata a una frequenza maggiore della minima frequenza di campionamento imposta dal teorema di Shannon → viene campionata alla frequenza di 8 kHz per tenere conto delle non idealità dei filtri.

Oggigiorno nuove tecnologie (ad es. VoIP) rendono possibile la voce a banda larga (wideband):

  • larghezza di banda = 50-7000 Hz
  • frequenza di campionamento = 16 kHz

QuantizzazioneModifica

La quantizzazione permette di trasformare un segnale tempo-discreto   in un segnale digitale (o numerico)  .

La zona operativa (o dinamica, o fondo scala)   è l'intervallo di valori che ogni campione può assumere sulla scala reale. Dati   bit:

  1. la zona operativa viene suddivisa in   intervalli, chiamati gradini (o step) di quantizzazione;
  2. ogni campione viene mappato su uno dei   valori possibili, e in particolare al più vicino (secondo la distanza euclidea).

L'operazione di quantizzazione introduce un errore irreversibile, chiamato errore (o rumore) di quantizzazione  , pari alla differenza fra un campione reale   e la sua versione quantizzata  :

 

dove   è l'ampiezza del gradino di quantizzazione. Nel quantizzatore uniforme, tutti i gradini di quantizzazione hanno ampiezza costante  .

Un campione può assumere tipicamente tutti i valori sulla scala reale → la zona di saturazione (o overload) comprende i valori al di fuori della zona operativa, in cui l'errore di quantizzazione può essere potenzialmente infinito.

Progetto di un quantizzatoreModifica

Numero di bit per campioneModifica

Il numero   di bit per campione dipende da:

  • ampiezza   della zona operativa: a parità di qualità, il numero di livelli necessario cresce con l'ampiezza della zona operativa;
  • errore di quantizzazione  : a parità di ampiezza della zona operativa, il numero di livelli necessario cresce con la qualità (prestazioni) della quantizzazione.
Valori tipici
  • CD audio: 16 bit/campione
  • voce telefonica: 12 bit/campione (minore qualità della musica + minore potenza del segnale)
  • immagini in scala di grigi: 8 bpp (bit/pixel)
  • immagini a colori: 24 bpp

Ampiezza della zona operativaModifica

A parità di numero   di bit, la scelta dell'ampiezza   della zona operativa deriva dal compromesso tra:

  • zona stretta: più la zona operativa è stretta e i livelli sono fitti, più l'errore di quantizzazione è basso e le prestazioni del quantizzatore sono alte;
  • zona ampia: la zona operativa deve includere i valori a probabilità più alta in modo da minimizzare la probabilità di overload, ossia la percentuale dei campioni il cui valore cade al di fuori della zona operativa.

Assumendo una distribuzione di probabilità gaussiana, si è visto empiricamente che la scelta di una zona operativa con un'ampiezza   pari a   comporta una percentuale di overhead pari allo 0,069% circa.

Rapporto segnale/rumoreModifica

La qualità del segnale quantizzato è espressa in termini del rapporto segnale/rumore SNR, definito come il rapporto tra la potenza   del segnale non ancora quantizzato   e la potenza   dell'errore di quantizzazione  :

 

dove la potenza   di un segnale   avente una funzione densità di probabilità   è:

 

Quantizzatore ottimoModifica

Un quantizzatore si dice ottimo per un certo segnale se la sua distribuzione di livelli è tale che:

  • tutti i livelli di quantizzazione vengono utilizzati con pari probabilità, cioè nessun livello è utilizzato più di altri;
  • l'energia   dell'errore di quantizzazione   viene minimizzata;
  • il rapporto segnale/rumore SNR viene massimizzato.

Il quantizzatore ottimo si ottiene facendo "combaciare" la distribuzione dei livelli e la funzione PDF del segnale. Il teorema di Max-Lloyd permette di ricavare la distribuzione ottima di livelli a partire dall'espressione analitica della funzione PDF del segnale.

Il quantizzatore uniforme è un quantizzatore ottimo per segnali distribuiti uniformemente sulla zona operativa, ma i segnali audio tipicamente hanno una distribuzione di probabilità non uniforme.

NoteModifica

  1. I valori di SPL e di frequenza riportati di seguito sono convenzionali, ma dipendono in realtà da fattori legati alla persona come l'età, la salute, ecc.
  2. Si raddoppia circa 10 volte:
    20 → 40 → 80 → 160 → 320 → 640 → 1080 → 2160 → 4320 → 8620 → 17740
    Per confronto, il sistema visivo si limita a un intervallo di frequenze ampio appena 1 ottava.