Conversor de OPUS para NIST

Crie arquivos de fala NIST SPHERE a partir de áudio OPUS

Solte os arquivos aqui. 1 GB tamanho máximo do ficheiro ou Registar-se
para
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Padrão de Pesquisa de Fala

NIST SPHERE é exigido por toolkits de ASR — produza arquivos devidamente formatados a partir de gravações OPUS.

Saída Pronta para Corpus

Gere arquivos SPHERE com cabeçalhos corretos para treinamento e análise de reconhecimento de fala.

Processamento Online

Sem necessidade de instalar toolkit — converta OPUS para NIST SPHERE no navegador.

Como converter OPUS para NIST

1

Selecione os arquivos do seu computador, Google Drive, Dropbox ou adicione um URL. Você também pode simplesmente arrastá-lo para esta página.

2

Escolha nist ou qualquer outro formato de saída desejado (mais de 200 formatos compatíveis)

3

Espere o arquivo ser convertido e você poderá, então, baixar o seu arquivo nist

Sobre os formatos

Opus é um codec de áudio versátil é aberto, padronizado pelo IETF como RFC 6716 em 2012. Ele funde duas abordagens de codificação — SILK para fala é CELT para música — em um único algoritmo que alterna entre elas com base no tipo de conteúdo é taxa de bits. Esse design híbrido permite que o Opus supere praticamente todos os outros codecs em uma ampla gama de usos: voz de baixa latencia a 6 kbps, música de alta fidelidade a 128 kbps é tudo entre isso. Ele suporta taxas de bits de 6 a 510 kbps, taxas de amostragem de até 48 kHz é tamanhos de quadro tão pequenos quanto 2,5 ms, conferindo-lhe a menor latencia algoritmica de qualquer codec de áudio convencional. Três vantagens tornam o Opus especialmente atraente. Ele é completamente livre de royalties é de código aberto, removendo barreiras de licenciamento que impedem codecs proprietários. Ele alcança qualidade transparente com aproximadamente metade da taxa de bits do MP3 é supera o AAC em taxas equivalentes. É sua baixa latencia o torna o codec obrigatório para WebRTC, então todo navegador moderno já vêm com um decodificador Opus. WhatsApp, Discord, Zoom é YouTube utilizam o Opus para áudio em tempo real.
Lançamento inicial: 11 de setembro de 2012
NIST SPHERE (SPeech HEader REsources) é um formato de arquivo de áudio especializado criado pelo National Institute of Standards and Technology para pesquisa em fala, particularmente projetos financiados pela DARPA. O formato envolve amostras de áudio brutas com um cabecalho ASCII estruturado codificando metadados como taxa de amostragem, contagem de canais, tipo de codificação, dados demograficos do falante é anotações de transcrição — tornando-o ideal para distribuição de corpora de fala. Os arquivos NIST normalmente armazenam PCM sem compressão ou áudio mu-law em taxas de amostragem de qualidade telefônica (8 kHz ou 16 kHz), embora o container seja flexível o suficiente para conter várias codificacoes. Uma vantagem chave é o cabecalho rico é autodescritivo que permite que pesquisadores incorporem metadados detalhados de corpus diretamente no arquivo, eliminando arquivos auxiliares. O SPHERE também se tornou o padrão de facto para grandes bancos de dados de fala como TIMIT, Switchboard é o corpus Fisher, garantindo amplo reconhecimento em laboratorios acadêmicos é governamentais. A especificação aberta é a disponibilidade de ferramentas de linha de comando (sphere, h_strip, w_decode) tornam simples converter, inspecionar é processar esses arquivos programaticamente em pipelines de processamento de fala.
Lançamento inicial: 1990

Perguntas Frequentes

Por que converter OPUS para NIST?

NIST SPHERE é exigido pelos principais toolkits de processamento de fala. Pesquisa linguística e treinamento de ASR necessitam de áudio de entrada formatado em SPHERE.

O que utiliza NIST?

HTK, Kaldi, ferramentas de avaliação NIST e corpora acadêmicos de fala usam SPHERE como seu formato de áudio principal.

NIST é o mesmo que SPH?

Sim — ambos referem-se a SPHERE (SPeech HEader Resources) definido pelo National Institute of Standards and Technology.

Quais frequências de amostragem?

SPHERE comumente usa 8 ou 16 kHz — frequências padrão de telefonia e pesquisa de fala em banda larga.

Posso converter em lote?

Envie seu dataset completo de fala OPUS e converta para NIST SPHERE em um único lote.