VOB a HTK Converter

Extrae audio de DVD VOB en formato de habla HTK en línea

Suelte los archivos aquí. 1 GB tamaño máximo de archivo o Registrarse
a
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Del DVD a datos de habla

Extrae diálogos de ficheros DVD VOB y guárdalos como HTK — listos para entrenamiento de Modelos Ocultos de Markov e investigación acústica.

Extracción en servidor

Los VOB pueden ser grandes. Nuestros servidores gestionan la extracción y codificación HTK — sin necesidad de instalar toolkit local.

Protección de datos

Los VOB subidos se eliminan tras la conversión. La salida HTK se borra en 24 horas — tus datos de investigación de habla permanecen privados.

Cómo convertir de VOB a HTK

1

Seleccione los archivos desde el ordenador, Google Drive, Dropbox o agregue una URL. También puede simplemente arrastrarlo a esta página..

2

Elija htk o cualquier otro formato de salida deseado (más de 200 formatos compatibles)

3

Cuando su archivo está convertido, puede guardar archivo htk inmediatamente

Sobre los formatos

VOB (Vídeo Object) es el formato contenedor principal utilizado en discos DVD-Vídeo, definido como parte de la especificación DVD desarrollada por el DVD Forum. El formato aparecio por primera vez con el estándar DVD finalizado en septiembre de 1996 y desde entonces ha sido utilizado en miles de millones de discos DVD producidos en todo el mundo. Los archivos VOB se basan en el formato de flujo de programa MPEG-2, conteniendo vídeo MPEG-2 multiplexado junto con audio en formatos AC-3 (Dolby Digital), DTS, MPEG-1 Layer II o LPCM. Además del audio y vídeo, los archivos VOB también transportan flujos de subtítulos del DVD como superposiciones de mapa de bits, datos de navegación para la interacción con menús e información de puntos de capitulo. Los archivos residen en el directorio VÍDEO_TS de un disco DVD, con convenciones de nomenclatura (VTS_01_1.VOB, etc.) qué reflejan la estructura de títulos y partes del contenido. Los archivos VOB individuales están limitados a aproximadamente 1 GB para acomodar los requisitos del sistema de archivos UDF, con contenido más largo distribuido en múltiples archivos de manera transparente. El formato soporta resoluciones de vídeo tanto NTSC (720x480) como PAL (720x576) a tasas de bits de hasta 9.8 Mbps para audio y vídeo combinados. La integración de vídeo, audio multipista, subtítulos y navegación en un único flujo de programa hizo de VOB una solución completa para la entrega de películas al consumidor. Aunque el streaming y los formatos de disco más nuevos han reemplazado al DVD para contenido nuevo, VOB sigue siendo enormemente relevante para acceder a la vasta biblioteca de contenido DVD existente.
Desarrollador: DVD Forum
Lanzamiento inicial: Septiembre 1996
HTK es el contenedor de formas de onda nativo del Hidden Markov Model Toolkit, un conjunto de software desarrollado en el Departamento de Ingeniería de la Universidad de Cambridge para la investigación en reconocimiento de voz. Distribuido por primera vez en 1993, HTK rápidamente se convirtio en una plataforma de referencia en laboratorios de lingüística computacional a nivel mundial, y su formato de archivo tuvo la misma trayectoria. Cada archivo almacena una secuencia de vectores de parámetros o muestras en bruto precedidos por una cabecera de 12 bytes qué específica el número de tramas, el periodo de trama en unidades de 100 ns, el conteo de bytes por trama y un código de tipo qué indica la clase de datos — las opciones van desde PCM de forma de onda hasta coeficientes cepstrales de frecuencia Mel y energias de banco de filtros. Está versatilidad permite qué un solo contenedor transporte tanto audio fuente como características extraidas sin cambiar de analizadores. La cabecera deliberadamente mínima evita relleno de alineacion o bloques opcionales, haciendo qué el formato sea trivial de leer desde C, Python o MATLAB con unas pocas líneas de E/S binaria. Tres ventajas sustentan la relevancia duradera de HTK: integración estrecha con la cadena de entrenamiento y reconocimiento HTK, disposición de bytes determinista qué elimina la ambiguedad del analizador, y adopción generalizada en corpus académicos.
Lanzamiento inicial: 1993

Preguntas frecuentes

¿Por qué convertir VOB a HTK?

HTK es el formato del Hidden Markov Model Toolkit. Los ficheros DVD VOB con diálogos se convierten en datos de entrenamiento de habla para investigación de reconocimiento.

¿Qué es el audio HTK?

HTK almacena audio PCM monocanal de 16 bits. Está diseñado específicamente para el marco de reconocimiento y análisis de habla HTK de Cambridge.

¿Funciona el audio envolvente del VOB?

HTK es mono. El audio multicanal del DVD se mezcla a un solo canal — procedimiento estándar para trabajo de procesamiento de habla.

¿Se preserva la calidad del diálogo?

HTK almacena PCM sin comprimir de 16 bits. Los diálogos de ficheros DVD VOB conservan total claridad para entrenamiento y análisis de reconocimiento.

¿Puedo procesar varios capítulos VOB?

Sube múltiples VOB y conviértelos en lote a HTK. Construye un dataset de habla de un DVD completo en una sola operación.