Конвертер HTK в SPX

Преобразуйте аудио HTK (Hidden Markov Model Toolkit) в SPX

Перетащите файлы сюда. 1 GB максимальный размер файла или Регистрация
в

Настройки

Установите общий выходной аудио битрейт для Speex. Разработанный для сжатия разговорной речи, Speex достигает прозрачности при сверхнизком битрейте с максимальным битрейтом в 44 кбит/с.
Установите количество аудиоканалов. Эта настройка наиболее полезна при понижающем микшировании каналов (например, с 5.1 до стерео).
Установите частоту дискретизации аудио. Музыка с полным спектром (20 Гц — 20 кГц) требует, для достижения прозрачности, значений не ниже 44,1 кГц. Дополнительную информацию можно найти в вики.

htk

HTK — собственный контейнер волновых форм для Hidden Markov Model Toolkit, программного пакета, разработанного на инженерном факультете Кембриджского университета для исследований в области распознавания речи. Впервые выпущенный в 1993 году, HTK быстро стал эталонной платформой в лабораториях компьютерной лингвистики по всему миру, и его файловый формат последовал тому же пути. Каждый файл хранит последовательность параметрических векторов или сырых сэмплов с 12-байтовым заголовком, определяющим число кадров, период кадра в единицах по 100 нс, количество байтов на кадр и код типа данных — от PCM-волновых форм до мел-частотных кепстральных коэффициентов и энергий фильтровых банков. Эта универсальность позволяет одному контейнеру нести как исходное аудио, так и извлечённые признаки без смены парсера. Намеренно минимальный заголовок без дополнительных отступов и опциональных чанков делает формат элементарным для чтения из C, Python или MATLAB несколькими строками бинарного ввода-вывода. Три преимущества обосновывают актуальность HTK: тесная интеграция с конвейером обучения и распознавания HTK, детерминированная байтовая разметка, исключающая неоднозначности парсера, и широкое распространение в академических корпусах.
подробнее

spx

Speex — аудиокодек с открытым исходным кодом, специально разработанный для сжатия речи Жан-Марком Валеном под эгидой Xiph.Org Foundation. Впервые выпущенный в октябре 2002 года, он ориентирован на VoIP, конференц-связь и любые сценарии, где голос нужно эффективно передавать по сети. SPX-файлы оборачивают Speex-кодированное аудио в контейнер Ogg, сочетая оптимизацию кодека для речи с возможностями потоковой передачи Ogg. Поддерживаются три частоты дискретизации — узкополосная 8 кГц, широкополосная 16 кГц и сверхширокополосная 32 кГц — а также кодирование с переменным битрейтом, адаптирующимся в реальном времени к сложности речи. Выдающееся преимущество — свободная от патентов лицензия BSD, позволившая разработчикам свободно встраивать кодек как в коммерческие, так и в открытые продукты. Speex также включает акустическое эхоподавление, шумоподавление и автоматическую регулировку усиления — функции, которые конкурирующие кодеки обычно делегируют внешним библиотекам. Хотя создатели кодека официально рекомендуют Opus как преемника с 2012 года, Speex остаётся в работе в устаревших VoIP-системах, архивных записях и встроенных устройствах, где ценится его лёгкий декодер.
подробнее
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Свобода форматов

Конвертируйте академическое аудио HTK в SPX — речевой кодек с открытым кодом на платформах.

Мгновенный результат

Маленькие HTK-файлы конвертируются в SPX почти мгновенно.

Безопасность данных

Загруженные HTK удаляются. Все SPX-результаты стираются с серверов в течение 24 часов.

Как сконвертировать HTK в SPX

1

Выберите файлы с компьютера, Google Диска, Dropbox, по ссылке или перетащив их на страницу.

2

Выберите spx или любой другой формат, который вам нужен (более 200 поддерживаемых форматов)

3

Позвольте файлу сконвертироваться и вы сразу сможете скачать ваш spx-файл

О форматах

HTK — собственный контейнер волновых форм для Hidden Markov Model Toolkit, программного пакета, разработанного на инженерном факультете Кембриджского университета для исследований в области распознавания речи. Впервые выпущенный в 1993 году, HTK быстро стал эталонной платформой в лабораториях компьютерной лингвистики по всему миру, и его файловый формат последовал тому же пути. Каждый файл хранит последовательность параметрических векторов или сырых сэмплов с 12-байтовым заголовком, определяющим число кадров, период кадра в единицах по 100 нс, количество байтов на кадр и код типа данных — от PCM-волновых форм до мел-частотных кепстральных коэффициентов и энергий фильтровых банков. Эта универсальность позволяет одному контейнеру нести как исходное аудио, так и извлечённые признаки без смены парсера. Намеренно минимальный заголовок без дополнительных отступов и опциональных чанков делает формат элементарным для чтения из C, Python или MATLAB несколькими строками бинарного ввода-вывода. Три преимущества обосновывают актуальность HTK: тесная интеграция с конвейером обучения и распознавания HTK, детерминированная байтовая разметка, исключающая неоднозначности парсера, и широкое распространение в академических корпусах.
Дата выпуска: 1993
Speex — аудиокодек с открытым исходным кодом, специально разработанный для сжатия речи Жан-Марком Валеном под эгидой Xiph.Org Foundation. Впервые выпущенный в октябре 2002 года, он ориентирован на VoIP, конференц-связь и любые сценарии, где голос нужно эффективно передавать по сети. SPX-файлы оборачивают Speex-кодированное аудио в контейнер Ogg, сочетая оптимизацию кодека для речи с возможностями потоковой передачи Ogg. Поддерживаются три частоты дискретизации — узкополосная 8 кГц, широкополосная 16 кГц и сверхширокополосная 32 кГц — а также кодирование с переменным битрейтом, адаптирующимся в реальном времени к сложности речи. Выдающееся преимущество — свободная от патентов лицензия BSD, позволившая разработчикам свободно встраивать кодек как в коммерческие, так и в открытые продукты. Speex также включает акустическое эхоподавление, шумоподавление и автоматическую регулировку усиления — функции, которые конкурирующие кодеки обычно делегируют внешним библиотекам. Хотя создатели кодека официально рекомендуют Opus как преемника с 2012 года, Speex остаётся в работе в устаревших VoIP-системах, архивных записях и встроенных устройствах, где ценится его лёгкий декодер.
Разработчик: Xiph.Org Foundation
Дата выпуска: 15 октября 2002 г.

Часто задаваемые вопросы

Зачем конвертировать HTK в SPX?

HTK ограничен инструментами исследования речи. SPX предоставляет Речевой кодек с открытым кодом, совместимый со стандартными медиаплеерами и приложениями.

Чем открыть SPX-файлы?

VLC, приложения Speex и некоторые VoIP-системы поддерживают SPX. Большинство доступны для бесплатной загрузки под основные ОС.

Каково качество SPX?

SPX обеспечивает хорошее качество на стандартных настройках. Чёткость результата зависит от качества оригинальной записи HTK.

SPX подходит для музыки?

Нет. SPX оптимизирован для речи и голоса. Музыка значительно теряет в качестве — для музыки используйте AAC или MP3.

Как быстро проходит конвертация?

Обработка быстрая — HTK-файлы лёгкие, и кодирование SPX завершается за секунды на нашем серверном оборудовании.

Мои файлы конфиденциальны?

Загруженные HTK удаляются сразу после конвертации. SPX-результаты автоматически стираются с серверов в течение 24 часов.

Можно ли конвертировать несколько HTK?

Да. Загрузите несколько HTK-файлов и конвертируйте их все в SPX за одну сессию. Пакетная обработка поддерживается.