Konwerter MPEG na HTK

Wyodrębnij audio MPEG do formatu przetwarzania mowy HTK online

Upuść pliki tutaj. 1 GB Maksymalny rozmiar pliku lub Zapisz się
do
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Wideo do badań mowy

Konwertuj dialog z wideo MPEG bezpośrednio do formatu HTK — bez pośrednich kroków między archiwum wideo a danymi treningowymi rozpoznawania mowy.

Przetwarzanie na serwerze

Ekstrakcja audio i kodowanie HTK odbywają się na naszych serwerach. Nie potrzeba lokalnej instalacji zestawu HTK — prześlij i pobierz online.

Bezpieczne dane

Przesłane MPEG są usuwane po konwersji. Wyjście HTK jest kasowane w ciągu 24 godzin — Twoje audio badawcze pozostaje poufne.

Jak przekonwertować plik w formacie MPEG do formatu HTK

1

Wybierz pliki z komputera, dysku Google, usługi Dropbox, adresu URL lub po prostu przeciągnij plik na stronę.

2

Wybierz format htk lub inny potrzebny Ci format (spośród ponad 200 wspieranych formatów).

3

Poczekaj, aż plik zostanie przekonwertowany do formatu htk; od razu po konwersji możesz go pobrać.

O formatach

MPEG (MPEG-1) to fundamentalny standard kompresji wideo i audio opublikowany w sierpniu 1993 roku przez Moving Picture Experts Group jako ISO/IEC 11172. Byl to pierwszy miedzynarodowy standard stratnej kompresji ruchomych obrazow i towarzyszacego audio, ustanawiajacy zasady i techniki, ktore wplynely na praktycznie wszystkie kolejne kodeki wideo. Wideo MPEG-1 osiaga kompresje poprzez kombinacje predykcji kompensowanej ruchem, kodowania dyskretna transformata kosinusowa i kodowania entropijnego o zmiennej dlugosci, zorganizowanego wokol trzech typow klatek: I-klatki (kodowane wewnetrznie), P-klatki (predykcyjne) i B-klatki (predykcyjne dwukierunkowo). Standard celuje w szybkosci transmisji ok. 1,5 Mbps dla laczonego audio i wideo, tworzac jakosc porownywalna z tasma VHS przy rozdzielczosci SIF (352x240 dla NTSC). Ten poziom kompresji zostal specjalnie dobrany, by odpowiadac przepustowosci danych napedow CD-ROM o predkosci 1x, umozliwiajac format Video CD, ktory przyniosl cyfrowe wideo konsumentom na poczatku lat 90. Komponent audio, szczegolnie Layer III (MP3), stal sie najbardziej wplywowym formatem audio w historii. Struktura klatek I/P/B, podejscie do estymacji ruchu i kodowanie transformata blokowa ustanowily architektoniczny szablon stosowany przez kazdy wiekszy kodek wideo od tamtej pory — od MPEG-2 przez H.264 i dalej. Choc dawno przewyzszony pod wzgledem efektywnosci kompresji, MPEG-1 pozostaje obslugiwany przez praktycznie kazde oprogramowanie multimedialne.
Pierwsze wydanie: Sierpień 1993
HTK to natywny kontener fal dzwiekowych dla Hidden Markov Model Toolkit — pakietu oprogramowania opracowanego na Wydziale Inzynierii Uniwersytetu Cambridge do badan nad rozpoznawaniem mowy. Po raz pierwszy udostepniony w 1993 roku, HTK szybko stal sie platforma referencyjnaw laboratoriach lingwistyki obliczeniowej na calym swiecie, a jego format plikow poszedl w jego slady. Kazdy plik przechowuje sekwencje wektorow parametrow lub surowe probki, poprzedzone 12-bajtowym naglowkiem okreslajacym liczbe ramek, okres ramki w jednostkach 100 ns, liczbe bajtow na ramke oraz kod typu wskazujacy rodzaj danych — opcje obejmuja zarowno przebieg PCM, jak i wspolczynniki mel-czestotliwosciowe oraz energie pasma filtrowego. Ta wszechstronnosc pozwala pojedynczemu kontenerowi przenosic zarowno zrodlowe audio, jak i wyekstrahowane cechy bez zmiany parserow. Celowo minimalny naglowek unika wyrownan paddingu czy opcjonalnych blokow, co czyni format trywialnym do odczytu z C, Pythona czy MATLAB-a za pomoca kilku linii binarnego I/O. Trzy zalety stanowia o trwalym znaczeniu HTK: scisla integracja z potokiem trenowania i rozpoznawania HTK, deterministyczny uklad bajtow eliminujacy niejednoznacznosc parsera oraz szerokie przyjecie w korpusach akademickich.
Pierwsze wydanie: 1993

Często Zadawane Pytania

Dlaczego warto konwertować MPEG na HTK?

HTK to standardowy format dla zestawu narzędzi Hidden Markov Model. Dialog z wideo MPEG staje się użytecznymi danymi treningowymi mowy po konwersji.

Czym dokładnie jest audio HTK?

HTK przechowuje jednokanałowe 16-bitowe audio PCM zoptymalizowane do przetwarzania mowy. Jest celowo zbudowany dla pakietu rozpoznawania mowy Cambridge HTK.

Czy wielokanałowy MPEG działa?

HTK jest tylko mono. Wielokanałowe audio MPEG jest miksowane do jednego kanału podczas konwersji — standardowa praktyka w analizie mowy.

Czy jakość mowy jest zachowana?

HTK przechowuje nieskompresowany 16-bitowy PCM. Dialog z wideo MPEG zachowuje pełną klarowność — więcej niż wystarczającą do treningu rozpoznawania.

Co jeszcze czyta HTK?

Poza zestawem HTK Toolkit, SOX i różne akademickie narzędzia analizy mowy mogą przetwarzać audio w formacie HTK do celów badawczych.