Конвертер AV1 в SPH

Извлекайте аудио NIST Sphere из видео AV1 для речевых исследований онлайн

Перетащите файлы сюда. 1 GB максимальный размер файла или Регистрация
в
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Стандарт речевых корпусов

SPH — формат для крупных речевых баз данных: конвертация из AV1 подготавливает аудио для лингвистических исследований.

Совместимость с инструментами

SPH-файлы интегрируются со стандартными инструментами: Kaldi, HTK и утилитами NIST-оценки.

Приватные файлы

Загруженные файлы AV1 удаляются сразу после конвертации, а SPH-результаты очищаются в течение 24 часов.

Как сконвертировать AV1 в SPH

1

Выберите файлы с компьютера, Google Диска, Dropbox, по ссылке или перетащив их на страницу.

2

Выберите sph или любой другой формат, который вам нужен (более 200 поддерживаемых форматов)

3

Позвольте файлу сконвертироваться и вы сразу сможете скачать ваш sph-файл

О форматах

AV1 (AOMedia Video 1) — открытый безлицензионный формат видеокодирования, разработанный альянсом Alliance for Open Media, в число основателей которого входят Google, Mozilla, Microsoft, Amazon, Netflix, Intel и другие компании. Спецификация была утверждена в июне 2018 года с целью создания видеокодека нового поколения, превосходящего эффективность сжатия H.264 и HEVC, при этом свободного от лицензионных отчислений. AV1 обеспечивает примерно на 30-50% лучшее сжатие, чем HEVC, при эквивалентном визуальном качестве, что особенно привлекательно для стриминговых платформ, стремящихся снизить расходы на полосу пропускания без ущерба для зрителей. Кодек поддерживает широкий набор функций — синтез плёночного зерна, гибкое тайлинг для параллельной обработки, адаптивное переключение разрешения и развитый набор режимов внутри- и межкадрового предсказания. Аппаратная поддержка декодирования стремительно расширяется — мобильные процессоры, GPU и Smart TV, что снимает ранние опасения по поводу вычислительных требований при кодировании. AV1 широко внедрён крупнейшими стриминговыми сервисами для доставки 4K и HDR-контента и используется как видеокомпонент контейнера WebM для воспроизведения в браузерах. Отсутствие лицензионных отчислений делает AV1 особенно значимым для открытых веб-стандартов и доступного распространения медиа.
Разработчик: Alliance for Open Media
Дата выпуска: 25 июня 2018 г.
SPH — расширение файлов, хранящих аудио в формате NIST SPHERE (SPeech HEader REsources), стандарте, созданном Национальным институтом стандартов и технологий США около 1990 года. Разработанный для речевых исследований, SPH-файл содержит 1024-байтовый ASCII-заголовок с метаданными — идентификаторами базы данных, количеством каналов, частотой дискретизации, порядком байтов и типом сжатия — делая каждую запись самоописывающейся. Аудиоданные — обычно 16-битная линейная ИКМ при 16 кГц, хотя допустимы другие конфигурации. Исследователи в NIST, DARPA и университетах по всему миру используют SPH для распространения речевых корпусов — TIMIT, Switchboard и коллекций LDC, лежащих в основе современных систем автоматического распознавания речи. Ключевое преимущество — человекочитаемый заголовок, позволяющий скриптам разбирать метаданные записи без бинарного декодирования. Строгая стандартизация формата также исключает неоднозначности при обмене данными между учреждениями и платформами. Поскольку SPH-файлы хранят несжатый PCM, они сохраняют полную точность аудио — критически важное свойство при обучении акустических моделей, где даже малые артефакты могут исказить результаты.
Дата выпуска: 1990

Часто задаваемые вопросы

Зачем конвертировать AV1 в SPH?

SPH (NIST Sphere) — стандартный формат для речевых исследовательских корпусов, используемый в лингвистических наборах данных TIMIT и Switchboard.

Чем открыть файлы SPH?

NIST Sphere tools, Kaldi, HTK и SoX работают с файлами SPH. Это стандарт в академических исследованиях речи и языка.

SPH и NIST — одно и то же?

SPH использует формат заголовка NIST Sphere — эти термины часто взаимозаменяемы в контексте речевых исследований.

Какая частота дискретизации типична для SPH?

Большинство речевых корпусов используют 8 кГц или 16 кГц моно — стандарт для телефонии и данных распознавания речи.

Мои файлы в безопасности?

Загруженные файлы AV1 удаляются немедленно. SPH-результаты удаляются в течение 24 часов.