Конвертер WAV в NIST

Переформатируйте WAV в NIST Sphere для исследований

Перетащите файлы сюда. 1 GB максимальный размер файла или Регистрация
в
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Исследовательский стандарт

NIST Sphere — золотой стандарт речевых корпусов. Конвертируйте WAV-записи для прямого использования в ASR и лингвистических исследованиях.

Метаданные корпуса

Заголовки NIST хранят данные о дикторе, канале и условиях — необходимо для организации исследовательских датасетов речи.

Подготовка датасета

Конвертируйте весь WAV-корпус речи в NIST за один раз — упростите конвейер подготовки данных.

Как сконвертировать WAV в NIST

1

Выберите файлы с компьютера, Google Диска, Dropbox, по ссылке или перетащив их на страницу.

2

Выберите nist или любой другой формат, который вам нужен (более 200 поддерживаемых форматов)

3

Позвольте файлу сконвертироваться и вы сразу сможете скачать ваш nist-файл

О форматах

WAV (Waveform Audio File Format) — несжатый аудиоконтейнер, совместно разработанный Microsoft и IBM и впервые опубликованный в августе 1991 года вместе с Windows 3.1. Построенный на основе Resource Interchange File Format (RIFF), WAV хранит аудиоданные — чаще всего в виде линейной импульсно-кодовой модуляции (LPCM) — вместе с метаданными, описывающими частоту дискретизации, разрядность и количество каналов. Эта простая структура сделала WAV стандартом де-факто для несжатого аудио в Windows и универсально принятым форматом обмена практически в любой операционной системе, аудиоредакторе и медиаплеере. Файлы WAV CD-качества используют 16-битные сэмплы при частоте 44,1 кГц в стерео, а в профессиональных процессах нередко применяются 24-битные или 32-битные сэмплы с плавающей запятой при частотах до 192 кГц. Главное преимущество — абсолютная точность: поскольку стандартный WAV не применяет сжатия, сохранённые данные являются точной цифровой копией оригинальной записи, что делает формат предпочтительным для мастеринга и архивирования. WAV также поддерживает встроенные метаданные через чанки INFO и BWF, позволяя добавлять временные метки и производственные заметки. Основной компромисс — размер файлов: одна минута стерео CD-качества занимает около 10 МБ, а 32-битная структура RIFF ограничивает размер 4 ГБ, хотя RF64 снимает этот потолок.
Разработчик: Microsoft and IBM
Дата выпуска: Август 1991
NIST SPHERE (SPeech HEader REsources) — специализированный аудиоформат, созданный Национальным институтом стандартов и технологий для исследований речи, в особенности проектов, финансируемых DARPA. Формат оборачивает сырые аудиосэмплы структурированным ASCII-заголовком, содержащим метаданные: частоту дискретизации, количество каналов, тип кодирования, демографические данные дикторов и аннотации транскрипций — что делает его идеальным для распространения речевых корпусов. Файлы NIST обычно хранят несжатое PCM или mu-law аудио при телефонных частотах дискретизации (8 кГц или 16 кГц), хотя контейнер достаточно гибок для различных кодировок. Ключевое преимущество — богатый самодокументирующийся заголовок, позволяющий исследователям встраивать подробные метаданные корпуса прямо в файл, исключая сопутствующие файлы. SPHERE также стал де-факто стандартом для крупных баз речевых данных — TIMIT, Switchboard и корпуса Fisher, — обеспечивая широкое признание в академических и государственных лабораториях. Открытая спецификация и доступность утилит командной строки (sphere, h_strip, w_decode) делают конвертацию, инспекцию и обработку этих файлов в конвейерах речевой обработки простой задачей.
Дата выпуска: 1990

Часто задаваемые вопросы

Зачем конвертировать WAV в NIST?

NIST Sphere — стандартный формат для речевых корпусов в ASR-исследованиях. Датасеты TIMIT, Switchboard и релизы LDC используют формат NIST.

Чем открыть NIST?

Kaldi, HTK, Praat, SoX и все основные фреймворки распознавания речи поддерживают NIST Sphere нативно.

Какие метаданные несёт NIST?

Заголовки NIST содержат идентификатор диктора, условия записи, информацию о каналах и другие поля, важные для управления речевым корпусом.

NIST — без потерь?

NIST Sphere хранит PCM-аудио с богатым заголовком метаданных. Конвертация аудио из WAV полностью без потерь.

Можно ли конвертировать целый датасет?

Загрузите все WAV-записи речи и пакетно переведите их в NIST Sphere — подготовьте полный исследовательский корпус за раз.

Рейтинг WAV в NIST

5.0 (5 голосов)
Вам необходимо сконвертировать и скачать любой файл, чтобы оценить конвертацию!