AV1转SPH转换器

从AV1视频在线提取NIST Sphere音频

放置文件在这里. 1 GB 最大文件大小 或者 注册
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

语音研究标准

SPH是主要语音语料库的格式 — 从AV1转换可准备用于语言学研究和分析的音频。

语料库兼容

SPH文件与Kaldi、HTK和NIST评分工具等标准语音研究工具集成。

文件私密

AV1上传文件在转换后立即删除,SPH输出将在24小时内清除。

如何转换AV1到SPH

1

从计算机,Google Drive,Dropbox,URL或在页面上拖拽选择文件.

2

选择sph或任何其他你需要的格式作为结果(支持超过200种格式)

3

让文件进行转换随后你可以下载你的sph文件

关于格式

AV1(AOMedia Video 1)是由开放媒体联盟开发的开放、免版税视频编码格式,该联盟的创始成员包括Google、Mozilla、Microsoft、Amazon、Netflix和Intel等。规范于2018年6月最终确定,目标是提供超越H.264和HEVC压缩效率的下一代视频编解码器,同时完全免除授权费用。AV1在同等视觉质量下比HEVC实现约30-50%的压缩率提升,对于希望在不牺牲观看体验的前提下降低带宽成本的流媒体平台尤其具有吸引力。该编解码器支持广泛的功能,包括胶片颗粒合成、灵活的分片并行处理、内容自适应分辨率切换,以及丰富的帧内和帧间预测模式。硬件解码支持在移动处理器、GPU和智能电视上迅速扩展,解决了早期编码计算需求方面的顾虑。AV1已被主要流媒体服务广泛采用,用于提供4K和HDR内容,并作为WebM容器的视频组件用于基于网页的播放。免版税的特性使AV1对开放网络标准和可访问的媒体分发尤为重要。
首次发布: 2018年6月25日
SPH 是 NIST SPHERE(SPeech HEader REsources,语音头资源)格式音频文件的扩展名,该标准由美国国家标准与技术研究院于 1990 年前后创建。SPH 文件专为语音研究而设计,包含一个 1024 字节的 ASCII 头部,其中填充了丰富的元数据 — 数据库标识、声道数、采样率、字节序和压缩类型 — 使每条录音都具有自描述性。底层音频通常为 16 kHz 采样的 16 位线性 PCM,但也允许其他配置。NIST、DARPA 及全球各大学的研究人员依赖 SPH 格式分发 TIMIT、Switchboard 和 LDC 语料库等语音数据集,这些数据集是现代自动语音识别系统的基础。一个关键优势是,人类可读的头部使得脚本无需二进制解码即可解析录音元数据。该格式严格的标准化也消除了跨机构、跨平台共享数据集时的歧义。由于 SPH 文件存储未压缩的 PCM,可完整保留音频保真度 — 这在训练声学模型时至关重要,因为即使微小的失真也可能影响结果。
首次发布: 1990

经常问的问题

为什么要将AV1转换为SPH?

SPH (NIST Sphere)是语音研究语料库的标准格式 — 用于TIMIT和Switchboard等语言学数据集。

用什么打开SPH文件?

NIST Sphere工具、Kaldi、HTK和SoX可处理SPH文件。它是学术语音和语言研究的标准。

SPH和NIST一样吗?

SPH使用NIST Sphere头格式 — 在语音研究领域这两个术语经常互换使用。

典型的采样率是什么?

大多数语音语料库使用8 kHz或16 kHz单声道 — 电话和语音识别数据的标准率。

转换安全吗?

AV1上传文件立即删除。SPH输出将在24小时内移除。