Perícias em Material Áudio Visual
Codecs – Sistemas Wireless e VoIP
Speech Codecs – Codificadores do sinal de Voz
Objetivos da codificação do
sinal de voz:
1.Diminuição da quantidade de
bits necessária para a
representação da informação
emitida por uma pessoa
(processo de codificação)
2.Manter a capacidade de
recuperação da mensagem
original com um nível de
entendimento aceitável
(processo de decodificação)
Otimização do meio de
transmissão cuja banda
é limitada
Principais CODEC´s do sinal de fala
Características do Sistema Auditivo Humano
Dois conceitos fundamentais:
Inteligibilidade entender o que foi dito, compreensão do
significado do conteúdo associado ao áudio escutado
Discernibilidade identificar a pessoa que fala, conseguir distinguir
entre diferentes fontes do sinal de fala
Embora o ouvido humano possua uma faixa audível que varia entre
20Hz e 20KHz estudos empíricos mostraram que 90% das
componentes de freqüência, associadas aos parâmetros
inteligibilidade e discernibilidade, encontram-se contidas na faixa
500Hz a 3500Hz.
O ouvido humano possui uma curva de resposta logarítmica a
sensibilidade do ouvido humano, para perceber variações no volume
(amplitude do sinal), é maior para sons de baixa intensidade e
decresce logaritmicamente à medida em que a intensidade aumenta
Qualidade da Voz – Métodos de Comparação
Para avaliar como os usuários percebem as características de
Inteligibilidade e Discernibilidade em uma ligação telefônica foram
desenvolvidos os 02 (dois) métodos estatísticos abaixo:
-3 muito pior
-2 pior
-1 pouco pior
0 igual
1 pouco melhor
2 melhor
3 muito melhor
ACR – Absolute Category Rating
Avalia a qualidade da voz
(inteligibilidade).
Um grupo de ouvintes opina a
respeito de um sinal de voz reproduzido
Escala varia de 1 a 5 conforme tabela
abaixo:
O resultado final é a Média
Aritmética das notas dadas por cada
um dos ouvintes MOS (Mean
Opinion Score)
CCR Comparison Category Rating
Avalia a discernibilidade
Os ouvintes comparam a voz original com
a voz reproduzida
Escala varia de -3 a +3 conforme tabela
abaixo:
1 Muito ruim
2 ruim
3 razoável
4 bom
5 excelente
O resultado final é a Média Aritmética das
notas dadas por cada um dos ouvintes
CMOS (Comparison Mean Opinion Score)
Comunicação Humana – Cadeia da Fala
Cochlea
Vocal Tract
Sistema Auditivo
Humano
Sistema Auditivo
Humano
Produção do sinal de fala – Modelo Fonte - Filtro
Criação, pelos pulmões, de um
fluxo de ar contínuo (expansão e
contração do diafragma)
Glottis é definida como a
abertura formada pelas cordas
vocais: A Glottis, de acordo com o
grau de abertura, permite que o ar
originário dos pulmões ou passe
livremente ou seja quebrado em
fluxos de pulsos periódicos
(vibração das cordas vocais)
O véu palatino (velum), de acordo
com a posição em que está (alta ou
baixa) faz com o fluxo de ar seja
direcionado tanto para a cavidade
nasal quanto para a cavidade oral
ou seja direcionado apenas para a
cavidade oral
O conjunto formado pela língua,
lábios e mandíbulas proporcionam
diferentes graus de constrição ao
fluxo de ar, modelando-o. O
referido conjunto é denominado
“articuladores”.
véu palatino alto bloqueia passagem do
ar pela cavidade nasal
véu palatino baixo permite que o ar
passe tanto pela cavidade nasal como pela
cavidade oral
Produção do sinal de fala – Modelo Fonte - Filtro
Conjunto Pulmões –
Traquéia subsistema
respiratório
Conjunto Laringe – Cordas
Vocais subsistema
laringeal
Conjunto Palato – Língua –
Epiglote subsistema
supra laringeal
Cavidade Ressonante = conjunto formado pela língua,
palato, dentes, lábios, mandíbulas
Classificação dos Codificadores
Waveform Coders – Codificadores de Forma de Onda
Tentam reproduzir de maneira fidedigna (o mais próximo
possível) a forma de onda no domínio do tempo do sinal
de voz
São projetados para serem independentes da fonte do
sinal de voz
São mais robustos a ambientes com ruídos
São de construção mais simples e por conseqüência são
codificadores mais baratos
Não proporcionam grandes taxas de compressão e
consequentemente pouca economia na largura de faixa
(taxas de transmissão ou bit rates, elevadas)
Exemplos : PCM, DPCM, ADPCM, DM, APC (Adaptive
Predictive Coding)
Source Coders - Vocoders
Vocoder Contração da expressão Voice Coder
Baseiam-se no conhecimento prévio do sinal a ser
codificado e portanto dependem da fonte do sinal de fala
São mais complexos do que os codificadores de forma
de onda e consequentemente mais caros
Proporcionam uma grande economia na largura de faixa
(taxas de transmissão ou bit rates, baixas)
Usados principalmente em sistemas Wirelles e VoIP
(voz sobre IP)
Exemplos : CELP, RELP, RPE-LTP (Codec GSM)
Características do sinal de fala
As principais propriedades do sinal de fala que podem ser usadas
no projeto de um Codec são:
1.Os sinais de fala, em geral, são de banda limitada os sinais
podem, portanto, serem representados por amostras
(discretizados) uniformemente espaçadas (sinal amostrado a uma
freqüência fixa) e completamente recuperados caso a freqüência
de amostragem seja no mínimo duas vezes maior que a maior
componente de freqüência presente na banda do sinal
2.Pdf (Probability Density Function) não uniforme a PDF mostra a
distribuição da intensidade do sinal (amplitude do sinal) em função
da frequência
3.Auto correlação diferente de zero entre amostras sucessivas do
sinal de fala
4.Natureza não uniforme do espectro de freqüências do sinal de
fala
5.Existência de segmentos sonoros ou vozeados (voiced) e não
sonoros ou desvozeados (unvoiced) no sinal de fala
6.Quase periodicidade dos sinais de fala vozeados
Função Densidade de Probabilidade - pdf
A pdf de um sinal de fala mostra a distribuição da intensidade do sinal
(amplitudes) em função da freqüência
A pdf de um sinal de fala é não uniforme e possui as seguintes características :
Probabilidade elevada de amplitudes próximas de zero para as freqüências mais
altas
Probabilidade significativa de amplitudes muito altas para as baixas freqüências
Decaimento monotônico entre os pontos extremos acima
Usam-se mais
níveis de
quantização
Auto correlação entre amostras
Existe um alto grau de correlação entre amostras
adjacentes de um segmento do sinal de fala
↓
•Este alto grau de correlação permite a utilização da técnica
de predição uma amostra do sinal de fala pode ser
facilmente prevista através dos valores das amostras
anteriores
•Todos os esquemas de codificação diferencial (DPCM,
ADPCM) e preditivos (LPC) usam a referida propriedade
•A função ACF (autocorrelation function) fornece um valor
normalizado [-1 a 1] do grau de proximidade entre as
amostras, em função da separação temporal entre estas
amostras. Sinais típicos possuem ACF entre 0,85 e 0,9
PSD – Power Spectral Density Function
O sinal de fala possui PSD não uniforme é
possível obter compressão significativa realizando a
codificação do sinal de fala no domínio da
freqüência
A análise do PSD médio para os termos de longa
duração (Long Term) mostrou que as componentes
de alta freqüência pouco contribuem para a energia
total contida no sinal de fala
↓
•Pode-se obter um alto ganho de codificação ao
dividirmos o sinal em diferentes bandas (de acordo
com a energia contida em cada banda) e
realizarmos a codificação de cada sub-banda
separadamente
•Cuidado as componentes em alta freqüência
possuem pouca energia, no entanto transportam
informações importantes do sinal de fala e precisam
portanto serem adequadamente representadas no
esquema de codificação empregado
•SFM (Spectral Flatness Measure) medida
qualitativa do ganho máximo de codificação que
pode ser obtido explorando a característica de não
uniformidade do espectro do sinal de fala
•Para os termos de longa duração SFM = 8
•Para os termos de curta duração 2 < SFM < 500
N
N
k
k
N
k
k
S
S
N
SFM
1
1
2
1
21
SFM razão entre a
média aritmética e a
média geométrica das
amostras de uma função
PSD tomadas em
intervalos de freqüência
igualmente espaçados
Quantização
Definição : processo de mapeamento de uma faixa contínua de amplitudes
de um sinal em um conjunto finito de valores discretos
Ao contrário do processo de amostragem, o processo de quantização
introduz distorção no sinal
Quantizador com n bits produz M = 2
n
níveis discretos de amplitude
Seja D a distorção introduzida por um quantizador
Seja q o passo de quantização
Seja B a faixa de amplitudes a serem quantizadas
Então:
2
.....
.....
2
qalproporcionediretamentD
nalproporcionteinversamenq
B
M
B
q
n
Portanto se n (número de bits do quantizador) aumenta, o passo
de quantização diminui e consequentemente a distorção
introduzida pelo quantizador também irá diminuir
Quantização
Erro de quantização de uma amostra E
q = | V
q – V
r |
E
q= Módulo (valor quantizado – valor real)
Erro Total de quantização =
N
k
q
k
E
1
Para se calcular a distorção introduzida por um quantizador usa-se o
parâmetro MSE (Mean Square Error) que é definido como:
inalsinal.orig)(
tizadosinal.quan
)]()([
1
0
2
tx
V
txtV
T
MSE
q
T
q
A distorção introduzida por um quantizador é
frequentemente modelada como um ruído de
quantização aditivo e o desempenho do quantizador
é avaliado pela razão sinal / ruído de quantização
ou SQNR (Sinal-to-Quantization Noise Ratio)
Quantização não uniforme
Os níveis de quantização são distribuídos de acordo com a pdf
(probability density function) do sinal de entrada
Regiões onde a pdf é alta usam-se mais bits para quantizar o
sinal de fala (maiores níveis de quantização).
Quantizador Logarítmico usado no sistema de telefonia fixa.
Existem dois métodos de compading (junção das palavras
compression e expanding) :
1.Padrão Americano: - law
2.Padrão Europeu: A - law
Quantização Adaptativa
Long Term segmentos do sinal de fala de duração longa
Short Term segmentos do sinal de fala de duração curta
pdf
long term ≠ pdf
short term isto ocorre devido à natureza aleatória
dos sinais de fala
Os sinais de fala possuem uma faixa dinâmica bastante ampla
Uma das maneiras de acomodar esta ampla faixa dinâmica dos
sinais de fala é adotar a técnica de variar o passo de quantização no
domínio do tempo Quantização Adaptativa
O passo de quantização é variado de acordo com a potência
presente no sinal de entrada
Sinais de maior potência possuem um passo de quantização maior
(são expandidos no domínio do tempo)
Sinais de menor potência possuem um passo de quantização menor
(são contraídos no domínio do tempo)
Vector Quantization – Quantização de blocos de amostras
De acordo com Shannon pode-se conseguir
um melhor desempenho na etapa de
quantização de um sinal se, ao invés de
quantizarmos uma amostra por período,
realizarmos o referido procedimento em
blocos de amostras no mesmo período
VQ (Vector Quantization) mapeia um
grupo de amostras de entrada (speech
frames ou vectors) em um Code Book Index
(livro de códigos indexados)
Code Book formado por um conjunto finito
de vetores que englobam uma faixa pré-
definida de valores de amostras
Para cada período de quantização, o Code
Book é pesquisado e retorna o índice que
melhor se adapta ao Speech Frame ou vetor
do sinal de entrada. O índice do Code Book
constitui o passo de quantização
A técnica VQ produz melhores resultados
quando as amostras (speech frames) são
independentes uma da outra e quando
dentro de cada speech frame existe um alto
grau de correlação entre as amostras
oquantizaçã de passo do ou tamanho ocodificaçã de taxa R
vetordo dimensão : (vetor) bloco um em amostras de número L
book code doVQ tamanhon
rabits/amost
log
2
L
n
R
A técnica VQ é mais eficiente em
taxas de bits muito baixas (very low bit
rates)
R = 0,5 bits / amostra ou inferior
A razão para tal é porque em vetores
de maior dimensão (maior número de
amostras) existe mais redundância
entre as amostras e consequentemente
pode-se obter um ganho de codificação
maior
oquantizaçã de passo do ou tamanho ocodificaçã de taxa R
vetordo dimensão : (vetor) bloco um em amostras de número L
book code doVQ tamanhon
rabits/amost
log
2
L
n
R