Codecs - sistemas wireless- Apresentação.ppt

MarceloAugustoRomane 3 views 20 slides Sep 22, 2025
Slide 1
Slide 1 of 20
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20

About This Presentation

Explicação informática


Slide Content

Perícias em Material Áudio Visual
Codecs – Sistemas Wireless e VoIP

Speech Codecs – Codificadores do sinal de Voz
Objetivos da codificação do
sinal de voz:
1.Diminuição da quantidade de
bits necessária para a
representação da informação
emitida por uma pessoa
(processo de codificação)
2.Manter a capacidade de
recuperação da mensagem
original com um nível de
entendimento aceitável
(processo de decodificação)
Otimização do meio de
transmissão cuja banda
é limitada
Principais CODEC´s do sinal de fala

Características do Sistema Auditivo Humano
Dois conceitos fundamentais:
Inteligibilidade  entender o que foi dito, compreensão do
significado do conteúdo associado ao áudio escutado
Discernibilidade  identificar a pessoa que fala, conseguir distinguir
entre diferentes fontes do sinal de fala
Embora o ouvido humano possua uma faixa audível que varia entre
20Hz e 20KHz estudos empíricos mostraram que 90% das
componentes de freqüência, associadas aos parâmetros
inteligibilidade e discernibilidade, encontram-se contidas na faixa
500Hz a 3500Hz.
O ouvido humano possui uma curva de resposta logarítmica  a
sensibilidade do ouvido humano, para perceber variações no volume
(amplitude do sinal), é maior para sons de baixa intensidade e
decresce logaritmicamente à medida em que a intensidade aumenta

Qualidade da Voz – Métodos de Comparação
Para avaliar como os usuários percebem as características de
Inteligibilidade e Discernibilidade em uma ligação telefônica foram
desenvolvidos os 02 (dois) métodos estatísticos abaixo:
-3 muito pior
-2 pior
-1 pouco pior
0 igual
1 pouco melhor
2 melhor
3 muito melhor
ACR – Absolute Category Rating
Avalia a qualidade da voz
(inteligibilidade).
Um grupo de ouvintes opina a
respeito de um sinal de voz reproduzido
Escala varia de 1 a 5 conforme tabela
abaixo:
O resultado final é a Média
Aritmética das notas dadas por cada
um dos ouvintes  MOS (Mean
Opinion Score)
CCR  Comparison Category Rating
Avalia a discernibilidade
Os ouvintes comparam a voz original com
a voz reproduzida
Escala varia de -3 a +3 conforme tabela
abaixo:
1 Muito ruim
2 ruim
3 razoável
4 bom
5 excelente
O resultado final é a Média Aritmética das
notas dadas por cada um dos ouvintes 
CMOS (Comparison Mean Opinion Score)

Comunicação Humana – Cadeia da Fala
Cochlea
Vocal Tract
Sistema Auditivo
Humano
Sistema Auditivo
Humano

Produção do sinal de fala – Modelo Fonte - Filtro
Criação, pelos pulmões, de um
fluxo de ar contínuo (expansão e
contração do diafragma)
Glottis  é definida como a
abertura formada pelas cordas
vocais: A Glottis, de acordo com o
grau de abertura, permite que o ar
originário dos pulmões ou passe
livremente ou seja quebrado em
fluxos de pulsos periódicos
(vibração das cordas vocais)
O véu palatino (velum), de acordo
com a posição em que está (alta ou
baixa) faz com o fluxo de ar seja
direcionado tanto para a cavidade
nasal quanto para a cavidade oral
ou seja direcionado apenas para a
cavidade oral
O conjunto formado pela língua,
lábios e mandíbulas proporcionam
diferentes graus de constrição ao
fluxo de ar, modelando-o. O
referido conjunto é denominado
“articuladores”.
véu palatino alto  bloqueia passagem do
ar pela cavidade nasal
véu palatino baixo  permite que o ar
passe tanto pela cavidade nasal como pela
cavidade oral

Produção do sinal de fala – Modelo Fonte - Filtro
Conjunto Pulmões –
Traquéia  subsistema
respiratório
Conjunto Laringe – Cordas
Vocais  subsistema
laringeal
Conjunto Palato – Língua –
Epiglote  subsistema
supra laringeal
Cavidade Ressonante = conjunto formado pela língua,
palato, dentes, lábios, mandíbulas

Classificação dos Codificadores

Waveform Coders – Codificadores de Forma de Onda
Tentam reproduzir de maneira fidedigna (o mais próximo
possível) a forma de onda no domínio do tempo do sinal
de voz
São projetados para serem independentes da fonte do
sinal de voz
São mais robustos a ambientes com ruídos
São de construção mais simples e por conseqüência são
codificadores mais baratos
Não proporcionam grandes taxas de compressão e
consequentemente pouca economia na largura de faixa
(taxas de transmissão ou bit rates, elevadas)
Exemplos : PCM, DPCM, ADPCM, DM, APC (Adaptive
Predictive Coding)

Source Coders - Vocoders
Vocoder  Contração da expressão Voice Coder
Baseiam-se no conhecimento prévio do sinal a ser
codificado e portanto dependem da fonte do sinal de fala
São mais complexos do que os codificadores de forma
de onda e consequentemente mais caros
Proporcionam uma grande economia na largura de faixa
(taxas de transmissão ou bit rates, baixas)
Usados principalmente em sistemas Wirelles e VoIP
(voz sobre IP)
Exemplos : CELP, RELP, RPE-LTP (Codec GSM)

Características do sinal de fala
As principais propriedades do sinal de fala que podem ser usadas
no projeto de um Codec são:
1.Os sinais de fala, em geral, são de banda limitada  os sinais
podem, portanto, serem representados por amostras
(discretizados) uniformemente espaçadas (sinal amostrado a uma
freqüência fixa) e completamente recuperados caso a freqüência
de amostragem seja no mínimo duas vezes maior que a maior
componente de freqüência presente na banda do sinal
2.Pdf (Probability Density Function) não uniforme  a PDF mostra a
distribuição da intensidade do sinal (amplitude do sinal) em função
da frequência
3.Auto correlação diferente de zero entre amostras sucessivas do
sinal de fala
4.Natureza não uniforme do espectro de freqüências do sinal de
fala
5.Existência de segmentos sonoros ou vozeados (voiced) e não
sonoros ou desvozeados (unvoiced) no sinal de fala
6.Quase periodicidade dos sinais de fala vozeados

Função Densidade de Probabilidade - pdf
A pdf de um sinal de fala mostra a distribuição da intensidade do sinal
(amplitudes) em função da freqüência
A pdf de um sinal de fala é não uniforme e possui as seguintes características :
Probabilidade elevada de amplitudes próximas de zero para as freqüências mais
altas
Probabilidade significativa de amplitudes muito altas para as baixas freqüências
Decaimento monotônico entre os pontos extremos acima
Usam-se mais
níveis de
quantização

Auto correlação entre amostras
Existe um alto grau de correlação entre amostras
adjacentes de um segmento do sinal de fala

•Este alto grau de correlação permite a utilização da técnica
de predição  uma amostra do sinal de fala pode ser
facilmente prevista através dos valores das amostras
anteriores
•Todos os esquemas de codificação diferencial (DPCM,
ADPCM) e preditivos (LPC) usam a referida propriedade
•A função ACF (autocorrelation function) fornece um valor
normalizado [-1 a 1] do grau de proximidade entre as
amostras, em função da separação temporal entre estas
amostras. Sinais típicos possuem ACF entre 0,85 e 0,9

PSD – Power Spectral Density Function
O sinal de fala possui PSD não uniforme  é
possível obter compressão significativa realizando a
codificação do sinal de fala no domínio da
freqüência
A análise do PSD médio para os termos de longa
duração (Long Term) mostrou que as componentes
de alta freqüência pouco contribuem para a energia
total contida no sinal de fala

•Pode-se obter um alto ganho de codificação ao
dividirmos o sinal em diferentes bandas (de acordo
com a energia contida em cada banda) e
realizarmos a codificação de cada sub-banda
separadamente
•Cuidado  as componentes em alta freqüência
possuem pouca energia, no entanto transportam
informações importantes do sinal de fala e precisam
portanto serem adequadamente representadas no
esquema de codificação empregado
•SFM (Spectral Flatness Measure)  medida
qualitativa do ganho máximo de codificação que
pode ser obtido explorando a característica de não
uniformidade do espectro do sinal de fala
•Para os termos de longa duração  SFM = 8
•Para os termos de curta duração  2 < SFM < 500
N
N
k
k
N
k
k
S
S
N
SFM
1
1
2
1
21





SFM  razão entre a
média aritmética e a
média geométrica das
amostras de uma função
PSD tomadas em
intervalos de freqüência
igualmente espaçados

Quantização
Definição : processo de mapeamento de uma faixa contínua de amplitudes
de um sinal em um conjunto finito de valores discretos
Ao contrário do processo de amostragem, o processo de quantização
introduz distorção no sinal
Quantizador com n bits produz M = 2
n
níveis discretos de amplitude
Seja D a distorção introduzida por um quantizador
Seja q o passo de quantização
Seja B a faixa de amplitudes a serem quantizadas
Então:
2
.....
.....
2
qalproporcionediretamentD
nalproporcionteinversamenq
B
M
B
q
n

Portanto se n (número de bits do quantizador) aumenta, o passo
de quantização diminui e consequentemente a distorção
introduzida pelo quantizador também irá diminuir

Quantização
Erro de quantização de uma amostra  E
q = | V
q – V
r |
E
q= Módulo (valor quantizado – valor real)
Erro Total de quantização = 

N
k
q
k
E
1
Para se calcular a distorção introduzida por um quantizador usa-se o
parâmetro MSE (Mean Square Error) que é definido como:
inalsinal.orig)(
tizadosinal.quan
)]()([
1
0
2



tx
V
txtV
T
MSE
q
T
q
A distorção introduzida por um quantizador é
frequentemente modelada como um ruído de
quantização aditivo e o desempenho do quantizador
é avaliado pela razão sinal / ruído de quantização
ou SQNR (Sinal-to-Quantization Noise Ratio)

Quantização não uniforme
Os níveis de quantização são distribuídos de acordo com a pdf
(probability density function) do sinal de entrada
Regiões onde a pdf é alta  usam-se mais bits para quantizar o
sinal de fala (maiores níveis de quantização).
Quantizador Logarítmico  usado no sistema de telefonia fixa.
Existem dois métodos de compading (junção das palavras
compression e expanding) :
1.Padrão Americano:  - law
2.Padrão Europeu: A - law

Quantização Adaptativa
Long Term  segmentos do sinal de fala de duração longa
Short Term  segmentos do sinal de fala de duração curta
pdf
long term ≠ pdf
short term  isto ocorre devido à natureza aleatória
dos sinais de fala

Os sinais de fala possuem uma faixa dinâmica bastante ampla
Uma das maneiras de acomodar esta ampla faixa dinâmica dos
sinais de fala é adotar a técnica de variar o passo de quantização no
domínio do tempo  Quantização Adaptativa
O passo de quantização é variado de acordo com a potência
presente no sinal de entrada
Sinais de maior potência possuem um passo de quantização maior
(são expandidos no domínio do tempo)
Sinais de menor potência possuem um passo de quantização menor
(são contraídos no domínio do tempo)

Vector Quantization – Quantização de blocos de amostras
De acordo com Shannon pode-se conseguir
um melhor desempenho na etapa de
quantização de um sinal se, ao invés de
quantizarmos uma amostra por período,
realizarmos o referido procedimento em
blocos de amostras no mesmo período
VQ (Vector Quantization)  mapeia um
grupo de amostras de entrada (speech
frames ou vectors) em um Code Book Index
(livro de códigos indexados)
Code Book  formado por um conjunto finito
de vetores que englobam uma faixa pré-
definida de valores de amostras
Para cada período de quantização, o Code
Book é pesquisado e retorna o índice que
melhor se adapta ao Speech Frame ou vetor
do sinal de entrada. O índice do Code Book
constitui o passo de quantização
A técnica VQ produz melhores resultados
quando as amostras (speech frames) são
independentes uma da outra e quando
dentro de cada speech frame existe um alto
grau de correlação entre as amostras
oquantizaçã de passo do ou tamanho ocodificaçã de taxa R
vetordo dimensão : (vetor) bloco um em amostras de número L
book code doVQ tamanhon
rabits/amost
log
2




L
n
R
A técnica VQ é mais eficiente em
taxas de bits muito baixas (very low bit
rates)
R = 0,5 bits / amostra ou inferior
A razão para tal é porque em vetores
de maior dimensão (maior número de
amostras) existe mais redundância
entre as amostras e consequentemente
pode-se obter um ganho de codificação
maior

oquantizaçã de passo do ou tamanho ocodificaçã de taxa R
vetordo dimensão : (vetor) bloco um em amostras de número L
book code doVQ tamanhon
rabits/amost
log
2




L
n
R
Tags