Конвертер VOX в HTK

Переведите Dialogic VOX в формат HTK для исследований речи

Перетащите файлы сюда. 1 GB максимальный размер файла или Регистрация
в
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Телефония в ML

Переведите аудио Dialogic IVR в формат обучения распознавания речи — мост между телефонией и машинным обучением.

Пакетная обработка

Создавайте корпуса HTK из библиотек VOX-записей за одну пакетную сессию.

Облачная обработка

Не нужен HTK Toolkit локально. Конвертация выполняется на наших серверах.

Как сконвертировать VOX в HTK

1

Выберите файлы с компьютера, Google Диска, Dropbox, по ссылке или перетащив их на страницу.

2

Выберите htk или любой другой формат, который вам нужен (более 200 поддерживаемых форматов)

3

Позвольте файлу сконвертироваться и вы сразу сможете скачать ваш htk-файл

О форматах

VOX — безголовочный аудиоформат на основе кодирования Dialogic ADPCM, широко применяемый в телефонии, системах интерактивного голосового ответа (IVR) и платформах голосовой почты с 1980-х годов. Каждый аудиосэмпл сжимается до 4 бит по алгоритму, разработанному Oki Electric и аппаратно реализованному на телефонных интерфейсных картах Dialogic Corporation. Файлы VOX обычно используют частоту дискретизации 6000 или 8000 Гц, создавая предельно компактные записи, оптимизированные для разборчивости речи, а не музыкальной точности. Поскольку формат не содержит заголовка, программе воспроизведения необходимо заранее знать частоту дискретизации и параметры кодирования — компромисс, снижающий накладные расходы, но требующий тщательного управления файлами. Главное преимущество VOX — эффективность хранения: одна минута голосовой записи при 8 кГц занимает около 240 КБ, что удобно для систем, хранящих тысячи голосовых подсказок. Dialogic ADPCM соответствует стандарту ITU-T G.726, обеспечивая совместимость телефонного оборудования разных производителей. Даже с переходом современных колл-центров на IP-системы с кодеками вроде Opus, обширные библиотеки записей VOX продолжают существовать в устаревших IVR-системах и архивах по всему миру.
Разработчик: Dialogic Corporation
Дата выпуска: 1983
HTK — собственный контейнер волновых форм для Hidden Markov Model Toolkit, программного пакета, разработанного на инженерном факультете Кембриджского университета для исследований в области распознавания речи. Впервые выпущенный в 1993 году, HTK быстро стал эталонной платформой в лабораториях компьютерной лингвистики по всему миру, и его файловый формат последовал тому же пути. Каждый файл хранит последовательность параметрических векторов или сырых сэмплов с 12-байтовым заголовком, определяющим число кадров, период кадра в единицах по 100 нс, количество байтов на кадр и код типа данных — от PCM-волновых форм до мел-частотных кепстральных коэффициентов и энергий фильтровых банков. Эта универсальность позволяет одному контейнеру нести как исходное аудио, так и извлечённые признаки без смены парсера. Намеренно минимальный заголовок без дополнительных отступов и опциональных чанков делает формат элементарным для чтения из C, Python или MATLAB несколькими строками бинарного ввода-вывода. Три преимущества обосновывают актуальность HTK: тесная интеграция с конвейером обучения и распознавания HTK, детерминированная байтовая разметка, исключающая неоднозначности парсера, и широкое распространение в академических корпусах.
Дата выпуска: 1993

Часто задаваемые вопросы

Зачем конвертировать VOX в HTK?

HTK — стандартный формат для обучающих данных распознавания речи. Конвертация VOX подаёт голосовые записи телефонии в ML-исследовательские пайплайны.

Чем можно открыть HTK?

HTK Toolkit, SoX и инструменты исследования речи обрабатывают HTK-файлы.

Подходит ли VOX для обучения ML?

Телефонные записи — ценный тренировочный материал для моделей распознавания речи. HTK — стандартный формат для этих данных.

Сохраняется ли качество?

Декодированное VOX-аудио переносится в HTK без дополнительных потерь.

Можно ли конвертировать пакетом?

Да — загрузите библиотеку VOX-записей и создайте корпус HTK-данных за одну сессию.