OPUS'tan HTK'ya Dönüştürücü

OPUS sesinden HTK konuşma işleme dosyaları üretin

Dosyaları buraya bırakın. 1 GB maksimum dosya boyutu veya Kaydol
için
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

ASR Eğitim Formatı

HTK, HMM konuşma tanıma için standarttır — OPUS konuşma kayıtlarını araştırma hatları için dönüştürün.

Külliyat İşleme

Tüm OPUS konuşma veri setlerini yükleyin ve her dosya için aynı anda HTK formatlı ses üretin.

Çevrimiçi Dönüşüm

HTK araç seti kurulumuna gerek yok — OPUS'tan formatlı sesi tarayıcınızda üretin.

OPUS'i HTK'ye dönüştürme yöntemi

1

Dosyaları bilgisayar, Google Drive, Dropbox, URL'den veya sayfa üzerinden sürükleyerek seçin.

2

htk ya da sonuç olarak ihtiyacınız olan diğer formatlardan birini seçin (200'den fazla format desteklenir)

3

Haydi dosyayı dönüştürün ve htk dosyanızı hemen sonra indirebilirsiniz

Formatlar hakkında

Opus, IETF tarafından 2012'de RFC 6716 olarak standartlaştırılmış çok yönlü, açık bir ses kodekidir. İki kodlama yaklaşımını — konuşma için SILK ve müzik için CELT — içerik türüne ve bit hızına göre aralarında geçiş yapan tek bir algoritmada birleştirir. Bu hibrit tasarım, Opus'un geniş bir kullanım yelpazesinde neredeyse tüm diğer kodeklerden üstün performans göstermesini sağlar: 6 kbps'de düşük gecikmeli ses, 128 kbps'de yüksek kaliteli müzik ve aradaki her şey. 6 ile 510 kbps arasında bit hızlarını, 48 kHz'e kadar örnekleme hızlarını ve 2,5 ms'ye kadar küçük çerçeve boyutlarını destekleyerek ana akım ses kodekleri arasında en düşük algoritmik gecikmeye sahiptir. Opus'ü özellikle çekici kılan üç avantaj vardır. Tamamen telifsiz ve açık kaynaklıdır, tescilli kodekleri geride bırakan lisanslama engellerini ortadan kaldırır. MP3'ün yaklaşık yarısı bit hızında şeffaf kalite elde eder ve eşdeğer hızlarda AAC'yı geçer. Düşük gecikmesi, WebRTC için zorunlu kodek olmasını sağlar ve bu sayede her modern tarayıcı bir Opus kod çözücüyle birlikte gelir. WhatsApp, Discord, Zoom ve YouTube gerçek zamanlı ses için Opus'a güvenir.
İlk yayın: 11 Eylül 2012
HTK, Cambridge Üniversitesi Mühendislik Bölümü'nde konuşma tanıma araştırmaları için geliştirilen bir yazılım paketi olan Hidden Markov Model Toolkit'ın yerel dalga formu kapsayıcısıdır. 1993'te i̇lk dağıtılan HTK, dünya genelinde hesaplamalı dilbilim laboratuvarlarında hızla referans platform haline gelmiş ve dosya formatı da aynı yolu izlemiştir. Her dosya, çerçeve sayısını, 100 ns birimlerinde çerçeve süresini, çerçeve başına bayt sayısını ve veri türünü belirten bir tür kodu içeren 12 baytlık bir başlık ile öncelenmiş parametre vektörleri veya ham örnekler dizisi depolar — dalga formu PCM'den Mel-frekans kepstral katsayılarına ve filtre bankası enerjilerine kadar seçenekler mevcuttur. Bu çok yönlülük, tek bir kapsayıcının hem kaynak sesi hem de çıkarılan özellikleri ayrıştırıcı değiştirmeden taşımasını sağlar. Kasıtlı olarak minimalist başlık, hizalama dolgusu veya isteğe bağlı yığınlardan kaçınarak formatı C, Python veya MATLAB'da birkaç satır i̇kili G/Ç ile okumayı kolaylaştırır. HTK'nın kalıcı önemini destekleyen üç avantaj: HTK eğitim ve tanıma hattıyla sıkı entegrasyon, ayrıştırıcı belirsizliğini ortadan kaldıran deterministik bayt düzeni ve akademik veri derlemlerinde yaygın benimseme.
İlk yayın: 1993

Sık Sorulan Sorular

Neden OPUS'u HTK'ya dönüştürmeliyim?

HTK formatı, ASR eğitimi için Hidden Markov Model Toolkit tarafından gereklidir. Konuşma araştırmacıları HTK formatlı girdi verisi ihtiyaç duyar.

HTK formatını ne kullanır?

Cambridge HTK araç seti, Kaldi ve konuşma tanıma araştırma hatları HTK formatlı ses tüketir.

HTK yaygın mı?

HTK, konuşma işleme araştırması için özelleşmiştir — özel başlıklara sahip 16-bit PCM formatıdır, genel amaçlı ses değildir.

Hangi örnekleme hızı?

Çoğu ASR görevi 8 veya 16 kHz mono kullanır — dönüştürücü OPUS'tan yeniden örneklemeyi otomatik olarak yapar.

Bir veri seti dönüştürebilir miyim?

Tüm OPUS konuşma külliyatınızı yükleyin ve tek seferde HTK formatına dönüştürün — model eğitimine hazır.