Conversor de MPEG para HTK

Extraia áudio MPEG no formato de processamento de fala HTK online

Solte os arquivos aqui. 1 GB tamanho máximo do ficheiro ou Registar-se
para
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Vídeo para Pesquisa de Fala

Converta diálogos de vídeo MPEG diretamente para formato HTK — sem etapas intermediárias entre seu arquivo de vídeo e dados de treinamento de reconhecimento de fala.

Processamento no Servidor

A extração de áudio e codificação HTK acontecem nos nossos servidores. Sem instalação local do toolkit HTK — envie e baixe online.

Dados Seguros

Uploads MPEG são excluídos após a conversão. A saída HTK é removida em 24 horas — seu áudio de pesquisa permanece confidencial.

Como converter MPEG para HTK

1

Selecione os arquivos do seu computador, Google Drive, Dropbox ou adicione um URL. Você também pode simplesmente arrastá-lo para esta página.

2

Escolha htk ou qualquer outro formato de saída desejado (mais de 200 formatos compatíveis)

3

Espere o arquivo ser convertido e você poderá, então, baixar o seu arquivo htk

Sobre os formatos

MPEG (MPEG-1) é um padrão fundamental de compressão de vídeo é áudio publicado em agosto de 1993 pelo Moving Picture Experts Group como ISO/IEC 11172. Foi o primeiro padrão internacional para compressão com perdas de imagens em movimento é áudio associado, estabelecendo principios é técnicas que influenciariam virtualmente todos os codecs de vídeo subsequentes. O vídeo MPEG-1 alcança compressão por meio de uma combinação de predicao compensada por movimento, codificação de transformada discreta de cosseno é codificação de entropia de comprimento variável, organizado em três tipos de quadros: I-frames (intra-codificados), P-frames (preditos) é B-frames (preditos bidirecionalmente). O padrão têm como alvo taxas de bits em torno de 1,5 Mbps para áudio é vídeo combinados, produzindo qualidade comparável a fita VHS em resolução SIF (352x240 para NTSC). Esse nível de compressão foi especificamente escolhido para corresponder a taxa de transferência de dados de unidades de CD-ROM de velocidade 1x, possibilitando o formato Vídeo CD que levou vídeo digital aos consumidores no início dos anos 1990. O componente de áudio, particularmente a Layer III (MP3), tornou-se o formato de áudio mais influente da história. A estrutura de quadros I/P/B, a abordagem de estimativa de movimento é a codificação de transformada baseada em blocos estabeleceram o modelo arquitetural seguido por todos os principais codecs de vídeo desde então, do MPEG-2 ao H.264 é além. Embora há muito superado em eficiência de compressão, o MPEG-1 permanece suportado por virtualmente todos os softwares de mídia.
Lançamento inicial: Agosto 1993
HTK é o container de forma de onda nativo do Hidden Markov Model Toolkit, um pacote de software desenvolvido no Departamento de Engenharia da Universidade de Cambridge para pesquisa em reconhecimento de fala. Distribuido pela primeira vez em 1993, o HTK rapidamente se tornou uma plataforma de referência em laboratorios de linguística computacional em todo o mundo, e seu formato de arquivo seguiu o mesmo caminho. Cada arquivo armazena uma sequência de vetores de parâmetros ou amostras brutas precedidos por um cabecalho de 12 bytes especificando o número de quadros, o periodo do quadro em unidades de 100 ns, a contagem de bytes por quadro é um código de tipo indicando o tipo de dado — às opções vão desde PCM de forma de onda até coeficientes cepstrais de frequência Mel é energias de banco de filtros. Essa versatilidade permite que um único container carregue tanto áudio fonte quanto features extraidas sem alterar os analisadores. O cabecalho deliberadamente mínimo evita preenchimento de alinhamento ou blocos opcionais, tornando o formato trivial de ler a partir de C, Python ou MATLAB com poucas linhas de É/S binária. Três vantagens sustentam a relevancia duradoura do HTK: integração estreita com o pipeline de treinamento é reconhecimento HTK, layout de bytes deterministico que elimina ambiguidade no analisador é ampla adoção em corpora acadêmicos.
Lançamento inicial: 1993

Perguntas Frequentes

Por que converter MPEG para HTK?

HTK é o formato padrão para o Hidden Markov Model Toolkit. Diálogos de vídeo MPEG tornam-se dados de treinamento de fala utilizáveis através da conversão.

O que é áudio HTK exatamente?

HTK armazena áudio PCM monocanal de 16 bits otimizado para processamento de fala. É construído especificamente para a suíte de reconhecimento de fala Cambridge HTK.

Áudio multicanal MPEG funciona?

HTK é apenas mono. Áudio MPEG multicanal é mixado para um único canal durante a conversão — prática padrão para análise de fala.

A qualidade da fala é preservada?

HTK armazena PCM de 16 bits não comprimido. Diálogos de vídeos MPEG retêm clareza total — mais que adequado para treinamento de reconhecimento.

O que mais lê HTK?

Além do HTK Toolkit, SoX e várias ferramentas acadêmicas de análise de fala podem processar áudio formatado em HTK para fins de pesquisa.