VOB에서 HTK로 변환기

VOB DVD 오디오를 HTK 음성 형식으로 온라인 추출

여기에 파일을 드롭하세요. 1 GB 최대 파일 크기 또는 회원 가입
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

DVD에서 음성 데이터로

VOB DVD 파일에서 대화를 추출하고 HTK로 저장 — Hidden Markov Model 학습 및 음향 분석 연구에 바로 사용 가능.

서버 측 추출

VOB 파일은 용량이 클 수 있습니다. 서버에서 추출 및 HTK 인코딩을 처리합니다 — 로컬 툴킷 설치가 필요 없습니다.

데이터 보호

VOB 업로드는 변환 후 삭제됩니다. HTK 출력은 24시간 이내에 삭제됩니다 — 연구 음성 데이터의 개인정보가 보호됩니다.

VOB에서 HTK로 변환하는 방법

1

컴퓨터, Google Drive, Dropbox, URL에서 선택하거나 이 페이지에서 드래그하여 선택해 주세요.

2

htk 또는 기타 필요한 결과 형식을 선택하세요(200가지 이상의 형식 지원)

3

파일 변환을 실행한 뒤 바로 htk 파일을 다운로드할 수 있습니다

형식 정보

VOB(Video Object)는 DVD Forum이 개발한 DVD 사양의 일부로 정의된, DVD-Video 디스크에서 사용되는 주요 컨테이너 형식입니다. 이 형식은 1996년 9월에 확정된 DVD 표준과 함께 처음 등장했으며, 이후 전 세계에서 생산된 수십억 장의 DVD 디스크에 사용되었습니다. VOB 파일은 MPEG-2 프로그램 스트림 형식을 기반으로 하며, MPEG-2 비디오와 AC-3(Dolby Digital), DTS, MPEG-1 Layer II, LPCM 형식의 오디오가 다중화되어 있습니다. 오디오와 비디오 외에도 VOB 파일은 비트맵 오버레이 방식의 DVD 자막 스트림, 메뉴 상호작용을 위한 내비게이션 데이터, 챕터 포인트 정보를 포함합니다. 파일은 DVD 디스크의 VIDEO_TS 디렉토리에 위치하며, 명명 규칙(VTS_01_1.VOB 등)이 콘텐츠의 타이틀 및 파트 구조를 반영합니다. 개별 VOB 파일은 UDF 파일 시스템 요구사항을 충족하기 위해 약 1GB로 제한되며, 더 긴 콘텐츠는 여러 파일에 걸쳐 끊김 없이 이어집니다. 이 형식은 NTSC(720x480) 및 PAL(720x576) 비디오 해상도를 지원하며, 오디오와 비디오를 합친 최대 비트레이트는 9.8Mbps입니다. 비디오, 다중 트랙 오디오, 자막, 내비게이션을 단일 프로그램 스트림에 통합하여 VOB는 소비자 영화 전달을 위한 완전한 솔루션이 되었습니다. 스트리밍과 최신 디스크 형식이 새로운 콘텐츠에서 DVD를 대체했지만, VOB는 방대한 기존 DVD 콘텐츠 라이브러리에 접근하는 데 있어 여전히 매우 관련성이 높습니다.
개발자: DVD Forum
최초 출시: 9월 1996
HTK는 음성 인식 연구를 위해 Cambridge 대학교 공학부에서 개발한 소프트웨어 모음인 Hidden Markov Model Toolkit의 네이티브 파형 컨테이너입니다. 1993년에 처음 배포된 HTK는 전 세계 전산 언어학 연구실에서 빠르게 레퍼런스 플랫폼이 되었으며, 그 파일 포맷도 함께 보급되었습니다. 각 파일은 프레임 수, 100 ns 단위의 프레임 주기, 프레임당 바이트 수, 데이터 종류를 나타내는 유형 코드를 지정하는 12바이트 헤더가 앞에 붙은 파라미터 벡터 시퀀스 또는 원시 샘플을 저장합니다 — 옵션은 파형 PCM에서 멜 주파수 켑스트럼 계수와 필터 뱅크 에너지까지 다양합니다. 이러한 다용도성 덕분에 파서를 변경하지 않고도 하나의 컨테이너에 원본 오디오와 추출된 특성 모두를 담을 수 있습니다. 의도적으로 최소화된 헤더는 정렬 패딩이나 선택적 청크를 피하여, C, Python 또는 MATLAB에서 몇 줄의 바이너리 I/O로 읽을 수 있는 포맷을 만듭니다. 세 가지 장점이 HTK의 지속적인 관련성을 뒷받침합니다: HTK 학습 및 인식 파이프라인과의 긴밀한 통합, 파서 모호성을 제거하는 결정적 바이트 레이아웃, 학술 코퍼스에서의 광범위한 채택입니다.
최초 출시: 1993

자주 묻는 질문

왜 VOB를 HTK로 변환하나요?

HTK는 Hidden Markov Model Toolkit용 형식입니다. 대화가 포함된 DVD VOB 파일이 인식 연구를 위한 음성 학습 데이터가 됩니다.

HTK 오디오란 무엇인가요?

HTK는 단일 채널 16비트 PCM 오디오를 저장합니다. Cambridge HTK 음성 인식 및 분석 프레임워크를 위해 특별히 제작되었습니다.

VOB 서라운드 오디오가 작동하나요?

HTK는 모노입니다. VOB의 DVD 멀티채널 오디오가 단일 채널로 다운믹스됩니다 — 음성 처리 작업의 표준 절차입니다.

대화 품질이 보존되나요?

HTK는 비압축 16비트 PCM을 저장합니다. DVD VOB 파일의 대화가 인식 학습 및 분석에 충분한 선명도를 유지합니다.

여러 VOB 챕터를 처리할 수 있나요?

여러 VOB 파일을 업로드하고 HTK로 일괄 변환하세요. 한 번의 작업으로 전체 DVD에서 음성 데이터셋을 구축합니다.