Конвертер OGG в HTK

Создайте аудио HTK для обработки речи из OGG

Перетащите файлы сюда. 1 GB максимальный размер файла или Регистрация
в
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Формат распознавания речи

HTK — входной стандарт для обучения речевого распознавания на основе HMM. Конвертируйте OGG-речь для исследований.

Обработка датасетов

Загрузите весь речевой корпус в OGG и создайте HTK-файлы для каждого одновременно.

Серверная конвертация

Установка HTK-тулкита не требуется — конвертация OGG в HTK выполняется полностью онлайн.

Как сконвертировать OGG в HTK

1

Выберите файлы с компьютера, Google Диска, Dropbox, по ссылке или перетащив их на страницу.

2

Выберите htk или любой другой формат, который вам нужен (более 200 поддерживаемых форматов)

3

Позвольте файлу сконвертироваться и вы сразу сможете скачать ваш htk-файл

О форматах

OGG Vorbis — открытый бесплатный аудиокодек с потерями внутри контейнера Ogg, оба разработаны Xiph.Org Foundation. Vorbis создавался как свободная от патентов альтернатива MP3 и AAC, используя модифицированное дискретное косинусное преобразование (MDCT) с кодированием переменного битрейта, адаптирующимся к сложности сигнала в каждом кадре. Слепые прослушивания неизменно показывают, что Vorbis обеспечивает перцептивное качество, сопоставимое с MP3 или превосходящее его, особенно в диапазоне 96-192 кбит/с. Формат поддерживает частоты дискретизации от 8 кГц до 192 кГц и от 1 до 255 каналов, охватывая всё — от моно-голоса до многоканальных миксов. Выдающееся преимущество — полное отсутствие лицензионных отчислений: разработчики игр, стриминговые платформы и производители оборудования могут внедрять Vorbis без забот о роялти. Spotify годами использовал Vorbis как основной стриминговый кодек именно по этой причине. Формат также более изящно справляется с деградацией качества на низких битрейтах, чем многие конкуренты, поэтому он остаётся популярным в видеоиграх, где хранилище ограничено, а тысячи звуковых эффектов соперничают за место. VLC, Firefox, Chrome и Android обеспечивают нативное декодирование Vorbis.
Разработчик: Xiph.Org Foundation
Дата выпуска: 1 мая 2000 г.
HTK — собственный контейнер волновых форм для Hidden Markov Model Toolkit, программного пакета, разработанного на инженерном факультете Кембриджского университета для исследований в области распознавания речи. Впервые выпущенный в 1993 году, HTK быстро стал эталонной платформой в лабораториях компьютерной лингвистики по всему миру, и его файловый формат последовал тому же пути. Каждый файл хранит последовательность параметрических векторов или сырых сэмплов с 12-байтовым заголовком, определяющим число кадров, период кадра в единицах по 100 нс, количество байтов на кадр и код типа данных — от PCM-волновых форм до мел-частотных кепстральных коэффициентов и энергий фильтровых банков. Эта универсальность позволяет одному контейнеру нести как исходное аудио, так и извлечённые признаки без смены парсера. Намеренно минимальный заголовок без дополнительных отступов и опциональных чанков делает формат элементарным для чтения из C, Python или MATLAB несколькими строками бинарного ввода-вывода. Три преимущества обосновывают актуальность HTK: тесная интеграция с конвейером обучения и распознавания HTK, детерминированная байтовая разметка, исключающая неоднозначности парсера, и широкое распространение в академических корпусах.
Дата выпуска: 1993

Часто задаваемые вопросы

Зачем конвертировать OGG в HTK?

Формат HTK необходим для Hidden Markov Model Toolkit при обучении моделей распознавания речи. Исследователям нужны HTK-форматированные данные.

Что использует HTK?

HTK-тулкит Кембриджского университета, Kaldi и различные исследовательские конвейеры распознавания речи работают с HTK-форматированным аудио.

HTK — распространённый формат?

HTK специализирован для исследований обработки речи — это не универсальный аудиоформат. Он хранит 16-битное PCM с пользовательскими заголовками.

Какая частота дискретизации нужна для HTK?

Большинство задач распознавания речи используют 8 или 16 кГц моно. Конвертер автоматически передискретизирует OGG-источник.

Можно ли конвертировать датасет OGG?

Загрузите весь речевой датасет в OGG и конвертируйте его в HTK за один раз — готово для обучения ASR-моделей.

Рейтинг OGG в HTK

5.0 (1 голосов)
Вам необходимо сконвертировать и скачать любой файл, чтобы оценить конвертацию!