• Explique o que é CELP e seus procedimentos de codificação
  • Quais os padrões da série G e suas taxas?
  • Quais os codecs mais utilizados?
  • Explique sobre os padrões Rate: Full, Half, Enhanced ...
  • Faça um comparativo entre eles.
  • Quais as referências utilizadas neste trabalho?


Na comunicação móvel a largura de banda é um bem limitado e os servidores de comunicação móvel desejam acomodar o maior número de clientes dentro da largura de banda disponibilizadas para os seus serviços. Na tentativa de diminuir a banda necessária para transmitir a voz foram desenvolvidos diversos codificadores de voz visando diminuir a taxa de dados para a transmissão dela e, dessa forma, diminuir a banda necessária por cliente.

Codificadores

O papel dos codificadores de voz é diminuir a quantidade de informação (quantidade de bits por segundo) necessária que o transmissor deve enviar ao receptor de forma que o receptor possa reproduzir a fala da pessoa no transmissor com qualidade o suficiente para que a pessoa no receptor possa compreender. Para tentar comprimir a voz foram desenvolvidas diversas técnicas que podem ser divididas em duas categorias de codificadores: Os Codificadores de forma de onda, que tentam reproduzir a forma de onda do sinal de voz o mais próximo o possível da realidade sendo possível utilizá-los para qual quer sinal, e os Vocoders (Voice encoder), que utilizam mecanismos para conhecer a priore o sinal que deve ser codificado e por isso são específicos para cada sinal.

Codificadores de forma de onda

Os Codificadores de forma de onda são projetados para codificar sinais independente da origem e isso permite que eles possam codificar igualmente bem uma grande variedade de sinais. Eles têm a vantagem de serem robustos para uma grande variedade de características de voz e para ambientes com ruído. Essas vantagens são preservadas com o mínimo de complexidade, dessa forma essa categoria de codificadores consegue somente uma economia moderada na taxa de transmissão. Alguns exemplos de Codificador de forma de onda são:

  • Modulação por Código de Pulso (PCM -- Pulse Code Modulation);
  • Modulação por Código de Pulso Diferencial (DPCM -- Differential Pulse Code Modulation);
  • Modulação por Código de Pulso Diferencial Adaptativa (ADPCM -- Adaptative Differential Pulse Code Modulation);
  • Modulação Delta (DM -- Delta Modulation);
  • Modulação Delta com Variação Contínua de Inclinação (CVSDM -- Contunuously Variable Slope Delta Modulation);
  • Codificação Preditiva Adaptativa (APC -- Adaptative Predictive Coding).


Modulação por Código de Pulso (PCM)

Na essência, a modulação por código de pulso é simplesmente a representação dos bits de uma conversão analógico-digital de um sinal que e esses bitssão enviado pelo transmissor ao receptor de forma serial.

Modulação por Código de Pulso Diferencial Adaptativa (ADPCM)

Os sistemas que utilizam o PCM não tentam remover as redundâncias contidas no sinal de voz. Na tentativa de tirar proveito dessas redundâncias foi criado a Modulação por Código de Pulso Diferencia Adaptativo. O ADPCM permite que a voz seja codificada e transmitida à uma taxa de 32 kbps e mantendo a mesma qualidade de voz que um sistema PCM, cuja a taxa de transmissão é de 64 kbits. Algorítimos eficientes para o ADPCM foram desenvolvidos e padronizados, sendo o algorítimo ADPCM para codificação de voz a 40, 32, 24 ou 16 kbps recomendado pela ITU-T é o G.726.

Modulação Delta (DM)

Os moduladores Delta tentam transmitir a variação do nível dos sinais, ou seja, quando o nível do sinal é superior a do sinal anterior o emissor envia o bit 1 (um), já se o nível do sinal for inferior ao do sinal anterior é enviado o bit 0 (zero).

Modulação Delta com Variação Contínua de Inclinação (CVSDM)

Caso o sinal enviado ao MD tenha uma varição rápida este não conseguirá acompanhar a variação do sinal, pois cada bit enviado representa um passo fixo e pequeno o suficiente para provocar perdas no sinal por não permitir que a saída do MD acompanhe o sinal. Entretanto, se o passo representado pelos bits seja grande para poder acompanhar a variação rápida do sinal de entrada o MD irá inserir ruido quando a variação do sinal for mais suave. Para minimizar esses problemas, a Modulação Delta com Variação Contínua de Inclinação propõe um passo variável que depende da quantidade de simbolo repetido, como mostrado na figura abaixo. Algorítimo de controle do passo em um sistema CVSDM

De forma didática aqui é apresentado um exemplo de um Modulador Delta com Variação Contínua de Inclinação (CVSDM) feito no Proteus®.


Vocoders

Vocoders são uma classe de sistema de codificação de voz que analisam o sinal de voz e transmitem as características da voz de forma que seja possível o receptor sintetizar uma voz com as mesmas características da voz analisada pelo transmissor. Dessa forma, em um sistema que utiliza vocoders, a voz que a pessoa no receptor escuta não é a mesma voz da pessoa no transmissor, e sim recriada pelo receptor que tenta imitar a voz do transmissor. Vocoders são em geral muito mais complexos do que os codificadores de forma de onda. Isso permite que eles alcancem tenham uma maior economia na taxa de transmissão. Entretanto eles são muito menos robustos pois o seu desempenho tende a depender de quem está falando. O mais popular entre os sistemas vocoder é o Codificador Preditivo Linear (LPC -- Linear Predictive Coder). Outros esquemas vocoder incluem o vocoder de canal, vocoder de formante, vocoder cepstrum e o vocoder exitado por voz.

Análise da voz

Os vocoders analisam a voz para codificar, separando-a em dois tipos: Sonoros e Surdos. O som Sonoro (pronúncias de "m", "n", "v" e semelhantes) é resultado das vibrações quase periódicas da corda vocal. Já os sons Surdos (pronúncias de "f", "s" "x" e semelhantes) são fricativos produzidos por fluxo turbulento de ar por contração. Além dos tipos de sons também tem a intonação que dependem da frequência da modulação da voz e as amplitudes dessas frequência. Para a maioria das pessoas a frequência de intonação está abaixo de 300 Hz e essa informação é muito difícil de extrair do sinal. As intonação da voz correspondem às frequências de resonancia do trato vocal e são denominadas de Formantes do sinal de voz. Ajustando meticulosamente os parâmetros do modelo de geração de voz, uma voz de boa qualidade pode ser sintetizada.

Vocoders de Canal

O vocoder de canal foi o primeiro entre os sistemas de síntese/análise da voz demonstrados na prática. os vocodes de canal são vocoders de domínio de frequência que determinam o envelope do sinal de voz para diversas faixas de frequências e depois amostram, codificam e multiplexam essa amostras com as saídas codificadas dos outros filtros. A amostragem é feita de forma síncrona e a cada 10 ms e 30 ms. com a informação da energia sobre cada banda, a decisão de sonoro/surdo e a frequência de entornação para a voz sonora também são transmitidas.

Vocoders de formantes

O vocoder de formante é semelhante em conceito ao vocoder de canal. Teoricamente, o vocoder de formante utiliza menos sinais de controle. Em vez de enviar amostras do envelope de espectro de potência, o vocoder de formante tenta transmitir as posições dos picos (formantes) do envelope espectral. Normalmente, um vocoder de formante deve ser capaz de identificar pelo menos três formantes para representar os sons da voz, e também deve controlar as intensidades dos formante. Vocoders de formantes podem reproduzir a voz em taxas de bits inferiores a 1,2 kbps. Porém, devido às dificuldades no cálculo exato do local dos formantes e transições de formantes a partir da voz humana, eles não têm sido muito bem sucedidos.

Vocoders cepstrum

O Vocoder cepstrum separa a excitação e o espectro do trato vocal por transformada inversa de Fourier do espectro log-magnitude para produzir o cepstrum do sinal. Os coeficientes de baixa frequência no cepstrum correspondem ao envelope de espectro do trato vocal com os coeficientes de excitação de alta frequência, formando um trem de pulsos periódico em múltiplos do período de amostragem. Uma filtragem linar é realizada para separar os coeficientes cepstrum do trato vocal cepstrum dos coeficientes de excitação. No receptor, os coeficientes cepstrum do trato vocal são transformados por Fourier para produzir a resposta ao impulso do trato vocal. Com a convolução dessa resposta ao impulso com um sinal de excitação sintético a voz original é reconstruída.

Vocoders excitados por voz

Vocoders excitados por voz eliminam a necessidade das operações de extração de entonação e detecção de sonoridade. esse sistema usa uma combinação híbrida de transmissão PCM para a banda de baixa frequência da voz e o vocoder do canal das bandas de frequência mais alta. Um sinal de entonação é gerado no sintetizador pela retificação, filtragem da banda de passagem e corte do sinal da banda base, criando assim um sinal espectralmente uniforme com energia na harmônica da entonação. Os vocoders excitados por voz foram criados para operar em 7,2 a 9,6 kbps, e sua qualidade normalmente é superior à que é obtida pelos vocoders tradicionais excitados por entonação.

Vocoders Codificadores Preditivos Lineares (LPC -- Linear Predictive Coders)

Os Codificadores Preditivos Lineares (LPC) pertencem à classe de domínio de tempo dos vocoders. essa calsse de vocoders tenta extrair recursos significativos da voz a partir da forma de onda temporal. Embora Os codificadores LPC sejam computacionalmente intensivos, eles são os mais populares entre a classe de vocoders com baixa taxa de bits. Com o LPC é possível trasmitir voz com boa qualidade a 4,8 kbps. O sistema de codificação preditivo linear do LPC modela o trato vocal como um filtro linear do tipo all pole. Os princípios preditivos usados são semelhantes aos dos codificadores ADPCM. Como no ADPCM o LPC transmite os valores de erro que representa a diferença entre a forma de onda prevista e a forma de onda real, porem no LPC são transmitidas apenas características selecionadas do sinal de erro. Dos parâmetros enviados pelo LPC são fator de ganho, informação de decisão sonora/surda e informação de entonação de forma a permitir a aproximação do sinal de erro correto. No receptor, a informação recebida sobre o sinal de erro é usada para determinar a excitação apropriada para o filtro de síntese. Na pratica, muitos codificadores LPC transmitem os coeficientes de filtro que já representam o sinal de erro e podem ser sinterizados diretamente pelo receptor.

LPC Excitado por Código

Neste método, o codificador e o decodificador têm um livro-código predeterminado com sinais de excitação estocásticos (gaussiano branco de média zero). Para cada sinal de voz, o transmissor pesquisa seu livro-código de sinais estocásticos em busca de um que ofereça a melhor combinação de percepção com o som quando usado como uma excitação para o filtro LPC. O índice do livro-código, onde foi encontrada a melhor combinação, é então transmitido. O receptor usa esse índice para escolher o sinal de excitação correto para o seu filtro de sintetizador. Os codificadores LPC Excitados por Código (CELP -- Code Excited LPC) são extremamente complexo e podem exigir mais de 500 milhões de operações de multiplicação e adição por segundo, bem como oferecer alta qualidade mesmo quando a excitação é codificada em apenas 0,25 bits por amostra. Esses codificadores podem alcançar taxas de bit de transmissão tão baixas quanto 4,8 kbps. Embora se demande um grande esforço computacional para utilizar o CELP, os avanços na tecnologia DSP e VLSI possibilitaram a implementação em tempo real dos codecs CELP. O padrão celular digital CDMA (IS-95) proposto pela QUALCOMM usa um codec CELP de taxa variável em 1,2 kbps a 14,4 kbps. Em 1995, a QUALCOMM introduziu o QCELP13, um codificador CELP de 13,4 kbps que opera sobre um canal de 14,4 kbps.

Escolha de codecs de voz para comunicações móveis

Devido à largura de banda disponível limitada, é preciso compactar a voz para maximizar o número de usuários no sistema. Dessa forma escolher o codec de voz correto é um passo importante no projeto de um sistema de comunicação móveis digital. Tendo isso em mente, o projetista de sistema de comunicação móvel digital deve buscar um equilíbrio entre a qualidade percebida da voz resultante dessa compressão e o custo geral e a capacidade do sistema. Outros critérios que devem ser considerados incluem o atraso de codificação fim-a-fim, a complexidade algorítmica do codificador, os requisitos de alimentação, a compatibilidade com padrões existentes e a robustez da voz codificada perante erros de transmissão. A é apresentado codificador de voz utilizados por diversos sistemas de comunicação móvel de primeira e segunda geração.

Codificador de voz utilizados por diversos sistemas de comunicação móvel de primeira e segunda geração

Avaliação de desempenho dos codificadores de voz

Existem duas técnicas para avaliar o desempenho de um codificador de voz em termos de sua capacidade de preservar a qualidade do sinal, de forma objetiva e de forma subjetiva. Medidas objetivas têm a natureza geral de uma razão sina-ruído e oferece um valor quantitativo de como a voz reconstruída se aproxima da original. Embora medidas objetivas sejam úteis no projeto inicial e na simulação de sistema de codificação, essas medidas não necessariamente dão uma indicação da qualidade de voz percebida pelo ouvido humano. Entretanto é o ouvinte quem por fim julgará a qualidade do sinal. Dessa forma testes de escutas subjetivos constituem uma parte integral da avaliação do codificador de voz. Testes de escuta subjetivos são realizados executando=se a a amostra para uma série de ouvintes e pedindo-lhes que julguem a qualidade da voz. Os codificadores de voz são altamente dependentes de quem fala porque a qualidade varia com a idade e o sexo da pessoa, a velocidade com que ela fala e outros fatores. Testes subjetivos são executados em diferentes ambientes para simular condições da vida real, como ruído, múltiplas pessoas falando etc. Para qualificar um sistema de codificação de voz de modo subjetivo são realizados diversos teste para tentar qualificar vários aspectos do sistema de codificação. Todos esses resultados de teste são difíceis de classificar, portanto, exigem um sistema de referência. O sistema de classificação mais popular é conhecido como Pontuação de Opinião Média (MOS -- Mean Opinio Score). O MOS é uma escala de classificação de qualidade com cinco pontos, sendo cada ponto associado a uma descrição padronizada. A seguir é apresentado uma tabela de pontuação e classificação MOS. Tabela de pontuação e classificação MOS

Em geral, a classificação MOS de um codec de voz diminui com a diluição da taxa de bits. A seguir é apresentado o desempenho de alguns dos codificadores de voz mais populares na escala MOS. Classificação MOS de alguns codificadores de voz mais populares

Referências

RAPPAPORT, Theodore S. Comunicações sem fio: Princípios e práticas. 2. ed. São Paulo: Prentice Hall, 2009. 412 p. ISBN 978-85-7605-198-5.

COUCH, Leon W. Digital and analog communication systems. 5. ed. New Jersey: Prentice Hall, 1997. 742 p. ISBN 0-13-599028-9.



02h51min de 13 de abril de 2012 (BRT)