Konwerter plików HTK do SPH

Konwertuj swoje pliki w formacie htk do formatu sph przez Internet i bezpłatnie

Upuść pliki tutaj. 1 GB Maksymalny rozmiar pliku lub Zapisz się
do
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Jak przekonwertować plik w formacie HTK do formatu SPH

1

Wybierz pliki z komputera, dysku Google, usługi Dropbox, adresu URL lub po prostu przeciągnij plik na stronę.

2

Wybierz format sph lub inny potrzebny Ci format (spośród ponad 200 wspieranych formatów).

3

Poczekaj, aż plik zostanie przekonwertowany do formatu sph; od razu po konwersji możesz go pobrać.

O formatach

HTK to natywny kontener fal dzwiekowych dla Hidden Markov Model Toolkit — pakietu oprogramowania opracowanego na Wydziale Inzynierii Uniwersytetu Cambridge do badan nad rozpoznawaniem mowy. Po raz pierwszy udostepniony w 1993 roku, HTK szybko stal sie platforma referencyjnaw laboratoriach lingwistyki obliczeniowej na calym swiecie, a jego format plikow poszedl w jego slady. Kazdy plik przechowuje sekwencje wektorow parametrow lub surowe probki, poprzedzone 12-bajtowym naglowkiem okreslajacym liczbe ramek, okres ramki w jednostkach 100 ns, liczbe bajtow na ramke oraz kod typu wskazujacy rodzaj danych — opcje obejmuja zarowno przebieg PCM, jak i wspolczynniki mel-czestotliwosciowe oraz energie pasma filtrowego. Ta wszechstronnosc pozwala pojedynczemu kontenerowi przenosic zarowno zrodlowe audio, jak i wyekstrahowane cechy bez zmiany parserow. Celowo minimalny naglowek unika wyrownan paddingu czy opcjonalnych blokow, co czyni format trywialnym do odczytu z C, Pythona czy MATLAB-a za pomoca kilku linii binarnego I/O. Trzy zalety stanowia o trwalym znaczeniu HTK: scisla integracja z potokiem trenowania i rozpoznawania HTK, deterministyczny uklad bajtow eliminujacy niejednoznacznosc parsera oraz szerokie przyjecie w korpusach akademickich.
Pierwsze wydanie: 1993
SPH to rozszerzenie plikow audio przechowywanych w formacie NIST SPHERE (SPeech HEader REsources) — standardzie stworzonym przez amerykanski National Institute of Standards and Technology okolo 1990 roku. Przeznaczony do badan nad mowa, pliki SPH zawieraja 1024-bajtowy naglowek ASCII wypelniony metadanymi — identyfikatorami bazy danych, liczba kanalow, czestotliwoscia probkowania, kolejnoscia bajtow i typem kompresji — co czyni kazde nagranie samoopisujoacy sie. Dane audio to zwykle 16-bitowe liniowe PCM probkowane przy 16 kHz, choc dozwolone sa inne konfiguracje. Badacze z NIST, DARPA i uniwersytetow na calym swiecie polegaja na SPH przy dystrybucji korpusow mowy, takich jak TIMIT, Switchboard i kolekcje LDC, ktore stanowia fundament nowoczesnych systemow automatycznego rozpoznawania mowy. Kluczowa zaleta jest to, ze czytelny naglowek pozwala skryptom parsowac metadane nagrania bez dekodowania binarnego. Scisla standaryzacja formatu eliminuje tez niejednoznacznosc przy wspoldzieleniu zbiorow danych miedzy instytucjami i platformami. Poniewaz pliki SPH przechowuja nieskompresowane PCM, zachowuja pelna wiernosc audio — co jest krytyczne przy trenowaniu modeli akustycznych, gdzie nawet drobne artefakty moga znieksztalcic wyniki.
Pierwsze wydanie: 1990