Конвертер MPEG в HTK

Извлеките аудио MPEG в формат HTK для обработки речи онлайн

Перетащите файлы сюда. 1 GB максимальный размер файла или Регистрация
в
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Видео в исследования речи

Конвертируйте диалог MPEG-видео прямо в HTK — никаких промежуточных шагов между видеоархивом и обучающими данными для распознавания речи.

Обработка на сервере

Извлечение аудио и кодирование HTK происходят на наших серверах. Установка локального набора HTK не нужна — загружайте и скачивайте онлайн.

Защита данных

MPEG-загрузки удаляются после конвертации. HTK-вывод стирается в течение 24 часов — ваше исследовательское аудио остаётся конфиденциальным.

Как сконвертировать MPEG в HTK

1

Выберите файлы с компьютера, Google Диска, Dropbox, по ссылке или перетащив их на страницу.

2

Выберите htk или любой другой формат, который вам нужен (более 200 поддерживаемых форматов)

3

Позвольте файлу сконвертироваться и вы сразу сможете скачать ваш htk-файл

О форматах

MPEG (MPEG-1) — основополагающий стандарт сжатия видео и аудио, опубликованный в августе 1993 года группой Moving Picture Experts Group как ISO/IEC 11172. Это первый международный стандарт сжатия движущихся изображений и сопутствующего звука с потерями, заложивший принципы и методы, повлиявшие на все последующие видеокодеки. Сжатие видео MPEG-1 достигается комбинацией предсказания с компенсацией движения, кодирования на основе дискретного косинусного преобразования и энтропийного кодирования переменной длины, организованных вокруг трёх типов кадров: I-кадры (внутрикодированные), P-кадры (предсказанные) и B-кадры (двунаправленно-предсказанные). Стандарт рассчитан на битрейт около 1,5 Мбит/с для совокупного аудио и видео, обеспечивая качество, сопоставимое с VHS при разрешении SIF (352x240 для NTSC). Этот уровень сжатия был специально подобран под пропускную способность однократных CD-ROM-приводов, что позволило создать формат Video CD, принёсший цифровое видео потребителям в начале 1990-х. Аудиокомпонент, в частности Layer III (MP3), стал самым влиятельным аудиоформатом в истории. Структура кадров I/P/B, подход к оценке движения и блочное преобразование установили архитектурный шаблон, которому следовали все последующие крупные видеокодеки — от MPEG-2 до H.264 и далее. Хотя по эффективности сжатия MPEG-1 давно превзойдён, он поддерживается практически любым медиапрограммным обеспечением.
Разработчик: Moving Picture Experts Group
Дата выпуска: Август 1993
HTK — собственный контейнер волновых форм для Hidden Markov Model Toolkit, программного пакета, разработанного на инженерном факультете Кембриджского университета для исследований в области распознавания речи. Впервые выпущенный в 1993 году, HTK быстро стал эталонной платформой в лабораториях компьютерной лингвистики по всему миру, и его файловый формат последовал тому же пути. Каждый файл хранит последовательность параметрических векторов или сырых сэмплов с 12-байтовым заголовком, определяющим число кадров, период кадра в единицах по 100 нс, количество байтов на кадр и код типа данных — от PCM-волновых форм до мел-частотных кепстральных коэффициентов и энергий фильтровых банков. Эта универсальность позволяет одному контейнеру нести как исходное аудио, так и извлечённые признаки без смены парсера. Намеренно минимальный заголовок без дополнительных отступов и опциональных чанков делает формат элементарным для чтения из C, Python или MATLAB несколькими строками бинарного ввода-вывода. Три преимущества обосновывают актуальность HTK: тесная интеграция с конвейером обучения и распознавания HTK, детерминированная байтовая разметка, исключающая неоднозначности парсера, и широкое распространение в академических корпусах.
Дата выпуска: 1993

Часто задаваемые вопросы

Зачем конвертировать MPEG в HTK?

HTK — стандартный формат для инструментария Hidden Markov Model. Диалог MPEG-видео становится обучающими данными для распознавания речи.

Что такое HTK-аудио?

HTK хранит одноканальный 16-битный PCM, оптимизированный для обработки речи. Создан специально для Кембриджского набора HTK для распознавания речи.

Работает ли многоканальный MPEG?

HTK только монофонический. Многоканальное MPEG-аудио сводится к одному каналу при конвертации — стандартная практика для анализа речи.

Качество речи сохраняется?

HTK хранит несжатый 16-битный PCM. Диалог из MPEG-видео сохраняет полную чёткость — более чем достаточно для обучения распознаванию.

Что ещё читает HTK?

Помимо набора HTK Toolkit, SOX и различные академические инструменты анализа речи могут обрабатывать HTK-аудио для исследований.