SPH'den HTK'ye dönüştürücü
sph dosyalarınızı htk'ye çevrimiçi & ücretsiz olarak dönüştürün
sph
htk
SPH'i HTK'ye dönüştürme yöntemi
Dosyaları bilgisayar, Google Drive, Dropbox, URL'den veya sayfa üzerinden sürükleyerek seçin.
htk ya da sonuç olarak ihtiyacınız olan diğer formatlardan birini seçin (200'den fazla format desteklenir)
Haydi dosyayı dönüştürün ve htk dosyanızı hemen sonra indirebilirsiniz
Formatlar hakkında
SPH, 1990 civarında ABD Ulusal Standartlar ve Teknoloji Enstitüsü tarafından oluşturulan NIST SPHERE (SPeech HEader REsources) formatında depolanan sesin dosya uzantısıdır. Konuşma araştırması için tasarlanan SPH dosyaları, veritabanı tanımlayıcıları, kanal sayıları, örnekleme hızları, bayt sıralaması ve sıkıştırma türü gibi üst verilerle dolu 1024 baytlık ASCII başlık taşır — her kaydı kendi kendini tanımlayan hâle getirir. Temel ses genellikle 16 kHz'de örneklenmiş 16 bit doğrusal PCM'dır, ancak diğer yapılandırmalara da izin verilir. NIST, DARPA ve dünya genelindeki üniversitelerdeki araştırmacılar, modern otomatik konuşma tanıma sistemlerinin temelini oluşturan TIMIT, Switchboard ve LDC koleksiyonları gibi konuşma veri derlemlerini dağıtmak için SPH'ye güvenir. Önemli bir avantajı, i̇nsan tarafından okunabilir başlığın betiklerin i̇kili kod çözme olmadan kayıt üst verilerini ayrıştırmasına olanak tanımasıdır. Formatın sıkı standardizasyonu ayrıca kurumlar ve platformlar arasında veri setleri paylaşırken belirsizliği ortadan kaldırır. SPH dosyaları sıkıştırılmamış PCM depoladığından tam ses doğruluğunu korur — küçük artefaktların bile sonuçları çarpıtabileceği akustik modeller eğitilirken kritik bir özellik.
HTK, Cambridge Üniversitesi Mühendislik Bölümü'nde konuşma tanıma araştırmaları için geliştirilen bir yazılım paketi olan Hidden Markov Model Toolkit'ın yerel dalga formu kapsayıcısıdır. 1993'te i̇lk dağıtılan HTK, dünya genelinde hesaplamalı dilbilim laboratuvarlarında hızla referans platform haline gelmiş ve dosya formatı da aynı yolu izlemiştir. Her dosya, çerçeve sayısını, 100 ns birimlerinde çerçeve süresini, çerçeve başına bayt sayısını ve veri türünü belirten bir tür kodu içeren 12 baytlık bir başlık ile öncelenmiş parametre vektörleri veya ham örnekler dizisi depolar — dalga formu PCM'den Mel-frekans kepstral katsayılarına ve filtre bankası enerjilerine kadar seçenekler mevcuttur. Bu çok yönlülük, tek bir kapsayıcının hem kaynak sesi hem de çıkarılan özellikleri ayrıştırıcı değiştirmeden taşımasını sağlar. Kasıtlı olarak minimalist başlık, hizalama dolgusu veya isteğe bağlı yığınlardan kaçınarak formatı C, Python veya MATLAB'da birkaç satır i̇kili G/Ç ile okumayı kolaylaştırır. HTK'nın kalıcı önemini destekleyen üç avantaj: HTK eğitim ve tanıma hattıyla sıkı entegrasyon, ayrıştırıcı belirsizliğini ortadan kaldıran deterministik bayt düzeni ve akademik veri derlemlerinde yaygın benimseme.