VOB转HTK转换器

在线将VOB DVD音频提取为HTK语音格式

放置文件在这里. 1 GB 最大文件大小 或者 注册
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

DVD转语音数据

从VOB DVD文件中提取对话并保存为HTK — 可直接用于隐马尔可夫模型训练和声学分析研究。

服务器端提取

VOB文件可能很大。我们的服务器处理提取和HTK编码 — 无需本地安装工具包。

数据保护

VOB上传文件在转换后删除。HTK输出在24小时内移除 — 您的研究语音数据保持私密。

如何转换VOB到HTK

1

从计算机,Google Drive,Dropbox,URL或在页面上拖拽选择文件.

2

选择htk或任何其他你需要的格式作为结果(支持超过200种格式)

3

让文件进行转换随后你可以下载你的htk文件

关于格式

VOB(Video Object,视频对象)是DVD-Video光盘上使用的主要容器格式,作为DVD论坛开发的DVD规范的一部分进行定义。该格式最早出现在1996年9月定稿的DVD标准中,此后已被用于全球生产的数十亿张DVD光盘。VOB文件基于MPEG-2节目流格式,包含复用的MPEG-2视频以及AC-3(杜比数字)、DTS、MPEG-1 Layer II或LPCM格式的音频。除音视频外,VOB文件还承载作为位图叠加层的DVD字幕流、用于菜单交互的导航数据和章节点信息。这些文件位于DVD光盘的VIDEO_TS目录中,命名规则(VTS_01_1.VOB等)反映了内容的标题和部分结构。为满足UDF文件系统要求,单个VOB文件限制在约1 GB,较长的内容跨越多个文件无缝衔接。该格式支持NTSC(720x480)和PAL(720x576)视频分辨率,音视频合计比特率最高9.8 Mbps。将视频、多音轨、字幕和导航集成到单个节目流中,使VOB成为消费级电影发行的完整解决方案。虽然流媒体和更新的光盘格式已在新内容方面取代了DVD,但VOB对于访问现有的庞大DVD内容库仍然极为重要。
开发者: DVD Forum
首次发布: 九月 1996
HTK是隐马尔可夫模型工具包(Hidden Markov Model Toolkit)的原生波形容器,该软件套件由剑桥大学工程系开发,用于语音识别研究。HTK自1993年首次发布以来,迅速成为全球计算语言学实验室的参考平台,其文件格式也随之被广泛采用。每个文件存储一系列参数向量或原始采样,前缀为12字节的头部,指定帧数、以100纳秒为单位的帧周期、每帧字节数以及标识数据类型的类型代码——选项从波形PCM到梅尔频率倒谱系数和滤波器组能量不等。这种灵活性使单一容器既能承载源音频,也能承载提取的特征,无需更换解析器。刻意精简的头部避免了对齐填充或可选块,使得用C、Python或MATLAB仅需几行二进制I/O代码即可轻松读取。HTK持久影响力背后的三大优势是:与HTK训练和识别流水线的紧密集成、消除解析器歧义的确定性字节布局,以及在学术语料库中的广泛采用。
首次发布: 1993

经常问的问题

为什么要将VOB转换为HTK?

HTK是隐马尔可夫模型工具包的格式。包含对话的DVD VOB文件可成为语音识别研究的训练数据。

什么是HTK音频?

HTK存储单声道16位PCM音频。专为剑桥HTK语音识别和分析框架而设计。

VOB环绕声可以转换吗?

HTK是单声道格式。VOB中的DVD多声道音频会混缩为单声道 — 这是语音处理的标准程序。

对话质量能保留吗?

HTK存储未压缩的16位PCM。DVD VOB文件中的对话保持完整清晰度,用于识别训练和分析。

可以处理多个VOB章节吗?

上传多个VOB文件并批量转换为HTK。一次操作即可从整张DVD构建语音数据集。