Conversor de NIST para VOX
Converta seus arquivos nist para vox online e grátis
nist
vox
Como converter NIST para VOX
Selecione os arquivos do seu computador, Google Drive, Dropbox ou adicione um URL. Você também pode simplesmente arrastá-lo para esta página.
Escolha vox ou qualquer outro formato de saída desejado (mais de 200 formatos compatíveis)
Espere o arquivo ser convertido e você poderá, então, baixar o seu arquivo vox
Sobre os formatos
NIST SPHERE (SPeech HEader REsources) é um formato de arquivo de áudio especializado criado pelo National Institute of Standards and Technology para pesquisa em fala, particularmente projetos financiados pela DARPA. O formato envolve amostras de áudio brutas com um cabecalho ASCII estruturado codificando metadados como taxa de amostragem, contagem de canais, tipo de codificação, dados demograficos do falante é anotações de transcrição — tornando-o ideal para distribuição de corpora de fala. Os arquivos NIST normalmente armazenam PCM sem compressão ou áudio mu-law em taxas de amostragem de qualidade telefônica (8 kHz ou 16 kHz), embora o container seja flexível o suficiente para conter várias codificacoes. Uma vantagem chave é o cabecalho rico é autodescritivo que permite que pesquisadores incorporem metadados detalhados de corpus diretamente no arquivo, eliminando arquivos auxiliares. O SPHERE também se tornou o padrão de facto para grandes bancos de dados de fala como TIMIT, Switchboard é o corpus Fisher, garantindo amplo reconhecimento em laboratorios acadêmicos é governamentais. A especificação aberta é a disponibilidade de ferramentas de linha de comando (sphere, h_strip, w_decode) tornam simples converter, inspecionar é processar esses arquivos programaticamente em pipelines de processamento de fala.
VOX é um formato de áudio sem cabecalho construído em torno da codificação Dialogic ADPCM, amplamente adotado em telefonia, sistemas de resposta de voz interativa (IVR) é plataformas de correio de voz desde os anos 1980. Cada amostra de áudio é comprimida em 4 bits usando um algoritmo desenvolvido pela Oki Electric é implementado em hardware nas placas de interface telefônica da Dialogic Corporation. Os arquivos VOX normalmente usam uma taxa de amostragem de 6000 ou 8000 Hz, produzindo gravações extremamente compactas otimizadas para inteligibilidade de fala em vez de fidelidade musical. Como o formato não carregá cabecalho, o software de reprodução deve conhecer a taxa de amostragem é os parâmetros de codificação antecipadamente — uma compensacao que reduz sobrecarga mas exige gerenciamento cuidadoso de arquivos. A principal vantagem do VOX é a eficiência de armazenamento: uma gravação de voz de um minuto a 8 kHz ocupa aproximadamente 240 KB, tornando-o prático para sistemas que armazenam milhares de prompts. O Dialogic ADPCM está em conformidade com o padrão ITU-T G.726, garantindo interoperabilidade entre equipamentos de telefonia de diferentes fornecedores. Mesmo enquanto call centers modernos migram para sistemas baseados em IP com codecs como Opus, vastas bibliotecas de gravações VOX persistem em implantacoes IVR legadas é acervos de conformidade em todo o mundo.