Конвертер OPUS в NIST

Создайте речевые файлы NIST SPHERE из OPUS-аудио

Перетащите файлы сюда. 1 GB максимальный размер файла или Регистрация
в
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Стандарт речевых исследований

NIST SPHERE необходим для ASR-инструментов — создавайте правильно отформатированные файлы из OPUS-записей.

Готово для корпуса

Генерируйте SPHERE-файлы с корректными заголовками для обучения и анализа распознавания речи.

Онлайн-обработка

Установка речевого инструментария не нужна — конвертируйте OPUS в NIST SPHERE в браузере.

Как сконвертировать OPUS в NIST

1

Выберите файлы с компьютера, Google Диска, Dropbox, по ссылке или перетащив их на страницу.

2

Выберите nist или любой другой формат, который вам нужен (более 200 поддерживаемых форматов)

3

Позвольте файлу сконвертироваться и вы сразу сможете скачать ваш nist-файл

О форматах

Opus — универсальный открытый аудиокодек, стандартизованный IETF как RFC 6716 в 2012 году. Он объединяет два подхода к кодированию — SILK для речи и CELT для музыки — в один алгоритм, плавно переключающийся между ними в зависимости от типа контента и битрейта. Такая гибридная конструкция позволяет Opus превосходить практически любой другой кодек в широком диапазоне применений: голос с низкой задержкой при 6 кбит/с, высококачественная музыка при 128 кбит/с и всё, что между ними. Поддерживаются битрейты от 6 до 510 кбит/с, частота дискретизации до 48 кГц и размеры кадров от 2,5 мс — минимальная алгоритмическая задержка среди всех массовых аудиокодеков. Три преимущества делают Opus особенно убедительным. Он полностью свободен от роялти и открыт, устраняя лицензионные барьеры проприетарных кодеков. Он достигает прозрачного качества примерно при вдвое меньшем битрейте, чем MP3, и превосходит AAC при эквивалентных скоростях. А его низкая задержка делает его обязательным кодеком для WebRTC, поэтому каждый современный браузер поставляется с декодером Opus. WhatsApp, Discord, Zoom и YouTube используют Opus для аудио в реальном времени.
Разработчик: Internet Engineering Task Force
Дата выпуска: 11 сентября 2012 г.
NIST SPHERE (SPeech HEader REsources) — специализированный аудиоформат, созданный Национальным институтом стандартов и технологий для исследований речи, в особенности проектов, финансируемых DARPA. Формат оборачивает сырые аудиосэмплы структурированным ASCII-заголовком, содержащим метаданные: частоту дискретизации, количество каналов, тип кодирования, демографические данные дикторов и аннотации транскрипций — что делает его идеальным для распространения речевых корпусов. Файлы NIST обычно хранят несжатое PCM или mu-law аудио при телефонных частотах дискретизации (8 кГц или 16 кГц), хотя контейнер достаточно гибок для различных кодировок. Ключевое преимущество — богатый самодокументирующийся заголовок, позволяющий исследователям встраивать подробные метаданные корпуса прямо в файл, исключая сопутствующие файлы. SPHERE также стал де-факто стандартом для крупных баз речевых данных — TIMIT, Switchboard и корпуса Fisher, — обеспечивая широкое признание в академических и государственных лабораториях. Открытая спецификация и доступность утилит командной строки (sphere, h_strip, w_decode) делают конвертацию, инспекцию и обработку этих файлов в конвейерах речевой обработки простой задачей.
Дата выпуска: 1990

Часто задаваемые вопросы

Зачем конвертировать OPUS в NIST?

NIST SPHERE необходим основным инструментам обработки речи. Лингвистические исследования и обучение ASR требуют аудио в формате SPHERE.

Что использует NIST?

HTK, Kaldi, инструменты оценки NIST и академические корпуса используют SPHERE как основной аудиоформат.

NIST — то же, что SPH?

Да — и NIST, и SPH обозначают SPHERE (SPeech HEader Resources), определённый Национальным институтом стандартов и технологий.

Какие частоты дискретизации?

SPHERE обычно использует 8 или 16 кГц — стандартные частоты для телефонных и широкополосных речевых исследований.

Можно конвертировать пакет?

Загрузите весь речевой датасет OPUS и конвертируйте в NIST SPHERE за один раз.