MPG到SPH转换器

在线从MPG视频中提取NIST Sphere音频

放置文件在这里. 1 GB 最大文件大小 或者 注册
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

研究标准

SPH(Sphere)是语音研究的基石。提取MPG音频为语言学语料库和ASR工具期望的格式。

云端工作

音频提取在服务器上运行 — 无需在本地安装NIST工具即可生成Sphere格式文件。

数据隐私

上传的MPG文件在转换后移除。SPH输出将在24小时内从服务器删除。

如何转换MPG到SPH

1

从计算机,Google Drive,Dropbox,URL或在页面上拖拽选择文件.

2

选择sph或任何其他你需要的格式作为结果(支持超过200种格式)

3

让文件进行转换随后你可以下载你的sph文件

关于格式

MPG是使用MPEG-1MPEG-2压缩标准编码的视频文件的常用扩展名,由动态图像专家组开发。三字符扩展名源于早期Windows和DOS文件系统将扩展名限制为三个字符,为较长的MPEG名称提供了缩写形式。MPG文件包含MPEG节目流,将一个视频和一个或多个音频基本流复合为带有同步时间戳的统一字节流。该格式在整个1990年代和2000年代被广泛用于在个人电脑上存储数字视频,涵盖从VCD翻录和DVD提取到使用硬件编码卡录制的数字电视等各种场景。使用MPEG-1压缩的MPG文件通常包含352x240(NTSC)或352x288(PAL)视频,比特率约1.5 Mbps;而MPEG-2编码的MPG文件支持更高分辨率,最高可达全高清。节目流结构假定存储介质相对可靠,与为广播设计的传输流变体不同,使其在基于文件播放时效率较高,无需错误恢复数据包的开销。广泛兼容性是该格式持久的优势之一,几乎所有操作系统上的所有媒体播放器都能在不安装额外编解码器的情况下解码这些文件。MPG格式仍可在存档视频内容、监控录像和旧版数字视频工作流中遇到。
首次发布: 八月 1993
SPH 是 NIST SPHERE(SPeech HEader REsources,语音头资源)格式音频文件的扩展名,该标准由美国国家标准与技术研究院于 1990 年前后创建。SPH 文件专为语音研究而设计,包含一个 1024 字节的 ASCII 头部,其中填充了丰富的元数据 — 数据库标识、声道数、采样率、字节序和压缩类型 — 使每条录音都具有自描述性。底层音频通常为 16 kHz 采样的 16 位线性 PCM,但也允许其他配置。NIST、DARPA 及全球各大学的研究人员依赖 SPH 格式分发 TIMIT、Switchboard 和 LDC 语料库等语音数据集,这些数据集是现代自动语音识别系统的基础。一个关键优势是,人类可读的头部使得脚本无需二进制解码即可解析录音元数据。该格式严格的标准化也消除了跨机构、跨平台共享数据集时的歧义。由于 SPH 文件存储未压缩的 PCM,可完整保留音频保真度 — 这在训练声学模型时至关重要,因为即使微小的失真也可能影响结果。
首次发布: 1990

经常问的问题

为什么要将MPG转换为SPH?

SPH(NIST Sphere)是语音研究语料库的标准格式。转换可生成与语言学研究工具兼容的音频。

什么使用SPH文件?

NIST语音工具、LDC语料库、Kaldi和HTK语音识别框架都使用Sphere格式音频。

SPH包含元数据吗?

包含 — Sphere文件有丰富的文本头,存储采样率、编码、声道数和自定义元数据字段。

SPH适合一般播放吗?

SPH是研究格式。一般听音请转换为WAV或MP3。SPH最适合语音分析管道。

可以批量提取吗?

上传多个MPG文件,从每个文件提取SPH音频 — 在一次会话中高效构建研究数据集。