Speex: um codec gratuito para a liberdade de expressão

November 17 , 2021

Visão geral


Speex é um formato de compressão de áudio livre de patentes de Software Livre / Código Aberto projetado para fala. O Projeto Speex visa diminuir a barreira de entrada para aplicativos de voz, fornecendo uma alternativa gratuita para codecs de voz proprietários caros. Além disso, Speex é bem adaptado para aplicativos de Internet e fornece recursos úteis que não estão presentes na maioria dos outros codecs. Finalmente, Speex é parte do Projeto GNU e está disponível sob a licença BSD revisada.


Speex é voltado para Voice over IP (VoIP) e compressão baseada em arquivo. Os objetivos do projeto eram fazer um codec que fosse otimizado para voz de alta qualidade e baixa taxa de bits. Para conseguir isso, o codec usa taxas de bits múltiplas e suporta banda ultra-larga, banda larga e banda estreita. O codec é considerado robusto para pacotes perdidos, mas fraco para pacotes corrompidos. Tudo isso levou à escolha da predição linear excitada por código (CELP) como a técnica de codificação a ser usada para Speex.

Recursos


Taxa de amostragem
Speex é projetado principalmente para três taxas de amostragem diferentes: 8 kHz (a mesma taxa de amostragem para transmitir chamadas telefônicas), 16 kHz e 32 kHz. Estes são designados respectivamente como banda estreita, banda larga e banda ultra-larga.


Qualidade
A codificação Speex é controlada na maioria das vezes por um parâmetro de qualidade que varia de 0 a 10. Na operação de taxa de bits constante (CBR), o parâmetro de qualidade é um número inteiro, enquanto para taxa de bits variável (VBR), o parâmetro é um número real (ponto flutuante).


Complexidade (variável)
Com Speex, é possível variar a complexidade permitida para o codificador. Isso é feito controlando como a pesquisa é realizada com um número inteiro variando de 1 a 10 de maneira semelhante às opções -1 a -9 dos utilitários de compactação gzip. Para uso normal, o nível de ruído na complexidade 1 é entre 1 e 2 dB maior do que na complexidade 10, mas os requisitos de CPU para complexidade 10 são cerca de cinco vezes maiores do que para complexidade 1. Na prática, a melhor compensação é entre complexidade 2 e 4, [13] embora as configurações mais altas sejam frequentemente úteis ao codificar sons que não são de fala, como tons DTMF, ou se a codificação não for em tempo real.


Taxa de bits variável (VBR)
A taxa de bits variável (VBR) permite que um codec altere sua taxa de bits dinamicamente para se adaptar à "dificuldade" do áudio que está sendo codificado. No exemplo de Speex, sons como vogais e transientes de alta energia requerem uma taxa de bits mais alta para alcançar boa qualidade, enquanto as fricativas (por exemplo, sons se f) podem ser codificados adequadamente com menos bits. Por esse motivo, o VBR pode atingir uma taxa de bits inferior para a mesma qualidade ou uma qualidade melhor para uma determinada taxa de bits. Apesar de suas vantagens, o VBR tem três desvantagens principais: primeiro, ao especificar apenas a qualidade, não há garantia sobre a taxa de bits média final. Em segundo lugar, para alguns aplicativos em tempo real, como voz sobre IP (VoIP), o que conta é a taxa de bits máxima, que deve ser baixa o suficiente para o canal de comunicação. Terceiro, a criptografia de voz codificada em VBR pode não garantir privacidade completa, pois as frases ainda podem ser identificadas, pelo menos em um ambiente controlado com um pequeno dicionário de frases, [14] analisando o padrão de variação da taxa de bits.


Taxa de bits média (ABR)
A taxa de bits média resolve um dos problemas do VBR, pois ajusta dinamicamente a qualidade do VBR para atender a uma taxa de bits de destino específica. Como a qualidade / taxa de bits é ajustada em tempo real (loop aberto), a qualidade global será ligeiramente inferior à obtida pela codificação em VBR com a configuração de qualidade exata para atender a taxa de bits média desejada.


Detecção de atividade de voz (VAD)
Quando ativada, a detecção de atividade de voz detecta se o áudio sendo codificado é fala ou silêncio / ruído de fundo. O VAD está sempre implicitamente ativado ao codificar em VBR, portanto, a opção só é útil em operações não VBR. Nesse caso, Speex detecta períodos sem fala e os codifica apenas com bits suficientes para reproduzir o ruído de fundo. Isso é chamado de "geração de ruído de conforto" (CNG). A última versão do VAD estava funcionando bem é a 1.1.12, desde a versão 1.2 ela foi substituída pela simples detecção de qualquer atividade.


Transmissão descontínua (DTX)
A transmissão descontínua é um acréscimo à operação VAD / VBR, que permite interromper completamente a transmissão quando o ruído de fundo está parado. Em um arquivo, 5 bits são usados ​​para cada quadro ausente (correspondendo a 250 bits / s).


Aprimoramento de percepção
O aprimoramento perceptual é uma parte do decodificador que, quando ligado, tenta reduzir (a percepção de) o ruído produzido pelo processo de codificação / decodificação. Na maioria dos casos, o aprimoramento perceptivo torna o som objetivamente mais distante do original (relação sinal-ruído), mas no final ainda soa melhor (aprimoramento subjetivo).


Atraso Algorítmico
Cada codec apresenta um atraso na transmissão. Para Speex, esse atraso é igual ao tamanho do quadro, mais alguma quantidade de "antecipação" necessária para processar cada quadro. Em operação de banda estreita (8 kHz), o atraso é de 30 ms, enquanto para banda larga (16 kHz), o atraso é de 34 ms. Esses valores não levam em consideração o tempo de CPU que leva para codificar ou decodificar os quadros.


TONMIND, designer e fabricante deIPS pico desde 2014. Os palestrantes SIP aplicaram o processamento de áudio Speex para melhorar a qualidade do som.


Nosso Alto-falantes de Paging IP Codec inclui OPUS, G711U, G711A, G722, GSM, MP1, MP2, MP3, WAV, LPCM s16le. Os vários codecs também garantem uma excelente qualidade de som.


Tomind Alto-falante SIP pode ser aplicado a vários casos de aplicação, por exemplo, escola, galope comercial, centro de atendimento ao cliente, hotel, hospital, grandes locais, etc. Os usuários podem conectar os alto-falantes SIP com IPPBX ou o software de sistema PA desenvolvido por nossa equipe R & D . Ele também pode funcionar com o software Axis via RTP Multicast.


A força do núcleo do Tonmind inclui:

• Mais de 10 anos de experiência em áudio e vídeo VoIP

Suporte técnico exclusivo.
Equipe de clientes bem treinada.
Orientado para o cliente.
Resposta rápida do mercado.


Deixe um recado
Deixe um recado
Se Você está interessado em nossos produtos e quer saber mais detalhes, por favor, deixe uma mensagem aqui, vamos responder você assim que nós puder.

Lar

Produtos

skype

whatsapp