Konwerter AV1 na SPH

Wyodrębnij audio NIST Sphere z wideo AV1 online

Upuść pliki tutaj. 1 GB Maksymalny rozmiar pliku lub Zapisz się
do
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Standard badań mowy

SPH to format głównych korpusów mowy — konwersja z AV1 przygotowuje audio do badań lingwistycznych i analizy.

Kompatybilny z korpusami

Pliki SPH integrują się ze standardowymi narzędziami badań mowy jak Kaldi, HTK i narzędzia oceny NIST.

Prywatne pliki

Pliki AV1 usuwane zaraz po konwersji, a pliki SPH kasowane w ciągu 24 godzin.

Jak przekonwertować plik w formacie AV1 do formatu SPH

1

Wybierz pliki z komputera, dysku Google, usługi Dropbox, adresu URL lub po prostu przeciągnij plik na stronę.

2

Wybierz format sph lub inny potrzebny Ci format (spośród ponad 200 wspieranych formatów).

3

Poczekaj, aż plik zostanie przekonwertowany do formatu sph; od razu po konwersji możesz go pobrać.

O formatach

AV1 (AOMedia Video 1) to otwarty, wolny od tantiem format kodowania wideo opracowany przez Alliance for Open Media — konsorcjum, ktorego czlonkami zalozycielskimi sa m.in. Google, Mozilla, Microsoft, Amazon, Netflix i Intel. Specyfikacja zostala sfinalizowana w czerwcu 2018 roku z celem dostarczenia kodeka wideo nastepnej generacji, przewyzszajacego efektywnosc kompresji H.264 i HEVC, przy jednoczesnym braku oplat licencyjnych. AV1 osiaga mniej wiecej 30-50% lepsza kompresje niz HEVC przy rownowaznej jakosci wizualnej, co czyni go szczegolnie atrakcyjnym dla platform streamingowych dazacych do obnizenia kosztow przepustowosci bez poswiecania doswiadczenia widza. Kodek obsluguje szeroki zakres funkcji, w tym synteze ziarna filmowego, elastyczne kafelkowanie do rownoleglego przetwarzania, adaptacyjne przelaczanie rozdzielczosci oraz bogaty zestaw trybów predykcji intra i inter. Sprzetowa obsluga dekodowania gwaltownie rosnie w procesorach mobilnych, GPU i telewizorach smart, rozwiazujac poczatkowe obawy dotyczace wymagan obliczeniowych podczas kodowania. AV1 jest szeroko adoptowany przez glowne serwisy streamingowe do dostarczania tresci 4K i HDR, a takze sluzy jako komponent wideo kontenera WebM do odtwarzania w przegladarkach. Status wolny od tantiem czyni AV1 szczegolnie waznym dla otwartych standardow internetowych i dostepnej dystrybucji mediow.
Pierwsze wydanie: 25 czerwca 2018
SPH to rozszerzenie plikow audio przechowywanych w formacie NIST SPHERE (SPeech HEader REsources) — standardzie stworzonym przez amerykanski National Institute of Standards and Technology okolo 1990 roku. Przeznaczony do badan nad mowa, pliki SPH zawieraja 1024-bajtowy naglowek ASCII wypelniony metadanymi — identyfikatorami bazy danych, liczba kanalow, czestotliwoscia probkowania, kolejnoscia bajtow i typem kompresji — co czyni kazde nagranie samoopisujoacy sie. Dane audio to zwykle 16-bitowe liniowe PCM probkowane przy 16 kHz, choc dozwolone sa inne konfiguracje. Badacze z NIST, DARPA i uniwersytetow na calym swiecie polegaja na SPH przy dystrybucji korpusow mowy, takich jak TIMIT, Switchboard i kolekcje LDC, ktore stanowia fundament nowoczesnych systemow automatycznego rozpoznawania mowy. Kluczowa zaleta jest to, ze czytelny naglowek pozwala skryptom parsowac metadane nagrania bez dekodowania binarnego. Scisla standaryzacja formatu eliminuje tez niejednoznacznosc przy wspoldzieleniu zbiorow danych miedzy instytucjami i platformami. Poniewaz pliki SPH przechowuja nieskompresowane PCM, zachowuja pelna wiernosc audio — co jest krytyczne przy trenowaniu modeli akustycznych, gdzie nawet drobne artefakty moga znieksztalcic wyniki.
Pierwsze wydanie: 1990

Często Zadawane Pytania

Dlaczego warto konwertować AV1 na SPH?

SPH (NIST Sphere) to standardowy format korpusów badawczych mowy — używany przez zbiory danych lingwistycznych jak TIMIT i Switchboard.

Czym otworzyć pliki SPH?

Narzędzia NIST Sphere, Kaldi, HTK i SoX obsługują pliki SPH. Jest standardem w akademickich badaniach mowy i języka.

Czy SPH to to samo co NIST?

SPH używa formatu nagłówka NIST Sphere — terminy te są często stosowane zamiennie w kontekstach badań mowy.

Jaka częstotliwość próbkowania jest typowa?

Większość korpusów mowy używa 8 kHz lub 16 kHz mono — standardowych częstotliwości dla danych telefonii i rozpoznawania mowy.

Czy konwersja jest bezpieczna?

Pliki AV1 usuwane natychmiast. Pliki SPH kasowane w ciągu 24 godzin.