Конвертер CAVS в NIST

Извлеките аудиодорожку NIST из CAVS-видеозаписей

Перетащите файлы сюда. 1 GB максимальный размер файла или Регистрация
в
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Извлечение аудиодорожки

Конвертер извлекает звуковую дорожку из CAVS и выдаёт чистый NIST-файл без видеоданных.

Пакетная обработка

Загрузите несколько CAVS-файлов в один сеанс и конвертируйте все в NIST одновременно для подготовки исследовательских датасетов.

Облачная обработка

Извлечение выполняется на серверах Convertio — установка специальных инструментов работы с речью не нужна.

Как сконвертировать CAVS в NIST

1

Выберите файлы с компьютера, Google Диска, Dropbox, по ссылке или перетащив их на страницу.

2

Выберите nist или любой другой формат, который вам нужен (более 200 поддерживаемых форматов)

3

Позвольте файлу сконвертироваться и вы сразу сможете скачать ваш nist-файл

О форматах

CAVS (Chinese Audio Video Standard) — стандарт сжатия видео, разработанный рабочей группой по стандартам аудио- и видеокодирования Китая и принятый как национальный стандарт (GB/T 20090.2) в феврале 2006 года. Проект стартовал в 2002 году с целью создания независимой технологии сжатия для обширной вещательной и мультимедийной инфраструктуры Китая без зависимости от кодеков с иностранными лицензиями. CAVS, также именуемый AVS1, достигает эффективности сжатия, сопоставимой с H.264/AVC, при более простой патентной структуре и значительно более низких лицензионных расходах. Стандарт поддерживает разрешения видео от стандартного до высокого, что делает его пригодным как для наземного цифрового телевещания, так и для широкополосного стриминга. Ключевые технические особенности включают 8x8 блочные преобразования, множественные режимы предсказания и петлевой фильтр для снижения блочных артефактов на низких битрейтах. Правительство Китая утвердило CAVS в качестве обязательного стандарта сжатия для национальной системы цифрового телевещания, обеспечив широкое развёртывание на приставках и телевизорах по всей стране. Хотя CAVS не получил широкого международного распространения по сравнению с H.264 или HEVC, его значимость — в обслуживании одного из крупнейших медиарынков мира и демонстрации жизнеспособной национальной альтернативы глобально доминирующим стандартам видеокодирования.
Дата выпуска: Февраль 2006
NIST SPHERE (SPeech HEader REsources) — специализированный аудиоформат, созданный Национальным институтом стандартов и технологий для исследований речи, в особенности проектов, финансируемых DARPA. Формат оборачивает сырые аудиосэмплы структурированным ASCII-заголовком, содержащим метаданные: частоту дискретизации, количество каналов, тип кодирования, демографические данные дикторов и аннотации транскрипций — что делает его идеальным для распространения речевых корпусов. Файлы NIST обычно хранят несжатое PCM или mu-law аудио при телефонных частотах дискретизации (8 кГц или 16 кГц), хотя контейнер достаточно гибок для различных кодировок. Ключевое преимущество — богатый самодокументирующийся заголовок, позволяющий исследователям встраивать подробные метаданные корпуса прямо в файл, исключая сопутствующие файлы. SPHERE также стал де-факто стандартом для крупных баз речевых данных — TIMIT, Switchboard и корпуса Fisher, — обеспечивая широкое признание в академических и государственных лабораториях. Открытая спецификация и доступность утилит командной строки (sphere, h_strip, w_decode) делают конвертацию, инспекцию и обработку этих файлов в конвейерах речевой обработки простой задачей.
Дата выпуска: 1990

Часто задаваемые вопросы

Зачем извлекать NIST из CAVS?

NIST SPHERE — стандарт для исследований речи и речевых технологий. Извлечение аудио из CAVS в NIST нужно для лингвистического анализа.

Чем открыть NIST-файл?

SOX, HTK Toolkit, Kaldi и инструменты оценки речи NIST работают с форматом NIST SPHERE нативно.

Как быстро происходит извлечение?

Извлечение аудио выполняется быстрее полной конвертации видео — обрабатывается только звуковая дорожка. Большинство файлов готово за секунды.

Можно ли задать качество аудио?

Да — настройте частоту дискретизации (8 или 16 кГц) и количество каналов под требования вашего исследовательского набора данных.

Поддерживается пакетная обработка?

Загрузите несколько CAVS-файлов и конвертируйте каждый в NIST одновременно для создания наборов данных для речевых исследований.