MPEG - HTK Dönüştürücü

MPEG sesini HTK konuşma işleme formatına çevrimiçi çıkarın

Dosyaları buraya bırakın. 1 GB maksimum dosya boyutu veya Kaydol
için
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Videodan Konuşma Araştırmasına

MPEG video diyalogunu doğrudan HTK formatına dönüştürün — video arşiviniz ile konuşma tanıma eğitim verisi arasında ara adım yok.

Sunucu İşleme

Ses çıkarma ve HTK kodlama sunucularımızda gerçekleşir. Yerel HTK toolkit kurulumu gerekmez — çevrimiçi yükleyin ve indirin.

Güvenli Veri

MPEG yüklemeleri dönüştürme sonrasında silinir. HTK çıktısı 24 saat içinde kaldırılır — araştırma sesiniz gizli kalır.

MPEG'i HTK'ye dönüştürme yöntemi

1

Dosyaları bilgisayar, Google Drive, Dropbox, URL'den veya sayfa üzerinden sürükleyerek seçin.

2

htk ya da sonuç olarak ihtiyacınız olan diğer formatlardan birini seçin (200'den fazla format desteklenir)

3

Haydi dosyayı dönüştürün ve htk dosyanızı hemen sonra indirebilirsiniz

Formatlar hakkında

MPEG (MPEG-1), Hareketli Görüntü Uzmanlar Grubu tarafından ISO/IEC 11172 olarak Ağustos 1993'te yayımlanan temel bir video ve ses sıkıştırma standardıdır. Hareketli görüntülerin ve ilişkili sesin kayıplı sıkıştırılması için i̇lk uluslararası standart olup sonraki neredeyse tüm video codec'lerini etkileyen prensip ve teknikleri ortaya koymuştur. MPEG-1 video sıkıştırması; hareket telafili tahmin, ayrık kosinüs dönüşümü kodlama ve değişken uzunluklu entropi kodlamanın birleşimiyle I-kareler (kare içi kodlanmış), P-kareler (tahminli) ve B-kareler (çift yönlü tahminli) olmak üzere üç kare türü etrafında organize edilir. Standart, SIF çözünürlükte (NTSC için 352x240) VHS kaset kalitesine eşdeğer görüntü üreterek ses ve video için birleşik yaklaşık 1,5 Mbps bit hızını hedefler. Bu sıkıştırma düzeyi, 1x hızlı CD-ROM sürücülerinin veri aktarım hızına uyacak şekilde özellikle seçilmiş ve 1990'ların başında dijital videoyu tüketicilere ulaştıran Video CD formatını mümkün kılmıştır. Ses bileşeni — özellikle Katman III (MP3) — tarihin en etkili ses formatı haline gelmiştir. I/P/B kare yapısı, hareket tahmini yaklaşımı ve blok tabanlı dönüşüm kodlama, MPEG-2'den H.264'e ve ötesine kadar her büyük video codec'inin izlediği mimari şablonu oluşturmuştur. Sıkıştırma verimliliği açısından çoktan aşılmış olmasına rağmen MPEG-1, neredeyse tüm medya yazılımları tarafından desteklenmeye devam etmektedir.
İlk yayın: Ağustos 1993
HTK, Cambridge Üniversitesi Mühendislik Bölümü'nde konuşma tanıma araştırmaları için geliştirilen bir yazılım paketi olan Hidden Markov Model Toolkit'ın yerel dalga formu kapsayıcısıdır. 1993'te i̇lk dağıtılan HTK, dünya genelinde hesaplamalı dilbilim laboratuvarlarında hızla referans platform haline gelmiş ve dosya formatı da aynı yolu izlemiştir. Her dosya, çerçeve sayısını, 100 ns birimlerinde çerçeve süresini, çerçeve başına bayt sayısını ve veri türünü belirten bir tür kodu içeren 12 baytlık bir başlık ile öncelenmiş parametre vektörleri veya ham örnekler dizisi depolar — dalga formu PCM'den Mel-frekans kepstral katsayılarına ve filtre bankası enerjilerine kadar seçenekler mevcuttur. Bu çok yönlülük, tek bir kapsayıcının hem kaynak sesi hem de çıkarılan özellikleri ayrıştırıcı değiştirmeden taşımasını sağlar. Kasıtlı olarak minimalist başlık, hizalama dolgusu veya isteğe bağlı yığınlardan kaçınarak formatı C, Python veya MATLAB'da birkaç satır i̇kili G/Ç ile okumayı kolaylaştırır. HTK'nın kalıcı önemini destekleyen üç avantaj: HTK eğitim ve tanıma hattıyla sıkı entegrasyon, ayrıştırıcı belirsizliğini ortadan kaldıran deterministik bayt düzeni ve akademik veri derlemlerinde yaygın benimseme.
İlk yayın: 1993

Sık Sorulan Sorular

Neden MPEG dosyasını HTK formatına dönüştürmeliyim?

HTK, Hidden Markov Model Toolkit için standart formattır. MPEG video diyalogu dönüştürme yoluyla kullanılabilir konuşma eğitim verisine dönüşür.

HTK sesi tam olarak nedir?

HTK konuşma işleme için optimize edilmiş tek kanallı 16-bit PCM ses depolar. Cambridge HTK konuşma tanıma paketi için özel olarak geliştirilmiştir.

MPEG çok kanallı ses çalışır mı?

HTK yalnızca monodur. Çok kanallı MPEG sesi dönüştürme sırasında tek kanala indirgenir — konuşma analizi için standart uygulama.

Konuşma kalitesi korunur mu?

HTK sıkıştırılmamış 16-bit PCM depolar. MPEG videolardan diyalog tam netliği korur — tanıma eğitimi için fazlasıyla yeterli.

HTK formatını başka ne okur?

HTK Toolkit ötesinde, SOX ve çeşitli akademik konuşma analiz araçları araştırma amaçlı HTK formatlı sesi işleyebilir.