Конвертер AV1 в HTK

Извлекайте аудио HTK для распознавания речи из видео AV1

Перетащите файлы сюда. 1 GB максимальный размер файла или Регистрация
в
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Формат речевых исследований

HTK является стандартом для исследований в области распознавания речи — конвертация из AV1 подготавливает аудио для обучения акустических моделей.

Параметры исследований

Задайте частоту дискретизации и кодирование под требования речевых исследований — обычно монофонический звук 16 кГц для задач распознавания.

Конфиденциальные данные

Загруженные файлы AV1 удаляются сразу после конвертации, а HTK-результаты удаляются в течение 24 часов.

Как сконвертировать AV1 в HTK

1

Выберите файлы с компьютера, Google Диска, Dropbox, по ссылке или перетащив их на страницу.

2

Выберите htk или любой другой формат, который вам нужен (более 200 поддерживаемых форматов)

3

Позвольте файлу сконвертироваться и вы сразу сможете скачать ваш htk-файл

О форматах

AV1 (AOMedia Video 1) — открытый безлицензионный формат видеокодирования, разработанный альянсом Alliance for Open Media, в число основателей которого входят Google, Mozilla, Microsoft, Amazon, Netflix, Intel и другие компании. Спецификация была утверждена в июне 2018 года с целью создания видеокодека нового поколения, превосходящего эффективность сжатия H.264 и HEVC, при этом свободного от лицензионных отчислений. AV1 обеспечивает примерно на 30-50% лучшее сжатие, чем HEVC, при эквивалентном визуальном качестве, что особенно привлекательно для стриминговых платформ, стремящихся снизить расходы на полосу пропускания без ущерба для зрителей. Кодек поддерживает широкий набор функций — синтез плёночного зерна, гибкое тайлинг для параллельной обработки, адаптивное переключение разрешения и развитый набор режимов внутри- и межкадрового предсказания. Аппаратная поддержка декодирования стремительно расширяется — мобильные процессоры, GPU и Smart TV, что снимает ранние опасения по поводу вычислительных требований при кодировании. AV1 широко внедрён крупнейшими стриминговыми сервисами для доставки 4K и HDR-контента и используется как видеокомпонент контейнера WebM для воспроизведения в браузерах. Отсутствие лицензионных отчислений делает AV1 особенно значимым для открытых веб-стандартов и доступного распространения медиа.
Разработчик: Alliance for Open Media
Дата выпуска: 25 июня 2018 г.
HTK — собственный контейнер волновых форм для Hidden Markov Model Toolkit, программного пакета, разработанного на инженерном факультете Кембриджского университета для исследований в области распознавания речи. Впервые выпущенный в 1993 году, HTK быстро стал эталонной платформой в лабораториях компьютерной лингвистики по всему миру, и его файловый формат последовал тому же пути. Каждый файл хранит последовательность параметрических векторов или сырых сэмплов с 12-байтовым заголовком, определяющим число кадров, период кадра в единицах по 100 нс, количество байтов на кадр и код типа данных — от PCM-волновых форм до мел-частотных кепстральных коэффициентов и энергий фильтровых банков. Эта универсальность позволяет одному контейнеру нести как исходное аудио, так и извлечённые признаки без смены парсера. Намеренно минимальный заголовок без дополнительных отступов и опциональных чанков делает формат элементарным для чтения из C, Python или MATLAB несколькими строками бинарного ввода-вывода. Три преимущества обосновывают актуальность HTK: тесная интеграция с конвейером обучения и распознавания HTK, детерминированная байтовая разметка, исключающая неоднозначности парсера, и широкое распространение в академических корпусах.
Дата выпуска: 1993

Часто задаваемые вопросы

Зачем конвертировать AV1 в HTK?

HTK — аудиоформат, используемый инструментарием Hidden Markov Model для исследований в области распознавания речи и обучения акустических моделей.

Чем открыть файлы HTK?

Инструментарий HTK, Kaldi и академические инструменты обработки речи поддерживают формат HTK для исследований и анализа.

HTK используется в промышленных системах?

HTK является в первую очередь академическим и исследовательским форматом для распознавания речи. Производственные системы обычно используют WAV или PCM.

Какое качество нужно для HTK?

Речевые исследования с HTK обычно используют монофонический звук 16 кГц — стандарт для обучающих данных распознавания речи.

Сервис безопасен?

Загруженные файлы AV1 удаляются немедленно. HTK-результаты удаляются с наших серверов в течение 24 часов.