Konverter NIST ke VOX

Konversikan file nist ke vox secara online & gratis

Taruh file di sini. 1 GB Ukuran file maksimum atau Daftar
untuk
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Bagaimana cara mengubah NIST ke VOX

1

Pilih file dari Komputer, Google Drive, Dropbox, URL, atau dengan menyeret ke halaman ini.

2

Pilih vox atau format lainnya yang Anda inginkan (mendukung lebih dari 200 format)

3

Tunggu proses konversi selesai dan Anda dapat mengunduh vox setelahnya

Tentang format

NIST SPHERE (SPeech HEader REsources) adalah format file audio khusus yang dibuat oleh National Institute of Standards and Technology untuk penelitian ucapan, khususnya proyek yang didanai DARPA. Format ini membungkus sampel audio mentah dengan header ASCII terstruktur yang mengkodekan metadata seperti sample rate, jumlah channel, tipe encoding, demografi pembicara, dan anotasi transkripsi — menjadikannya ideal untuk mendistribusikan korpora ucapan. File NIST biasanya menyimpan audio PCM tanpa kompresi atau mu-law pada sample rate kualitas telepon (8 kHz atau 16 kHz), meskipun kontainernya cukup fleksibel untuk menampung berbagai encoding. Keunggulan utamanya adalah header self-documenting yang kaya yang memungkinkan peneliti menyematkan metadata korpus yang detail langsung dalam file, menghilangkan file pendamping. SPHERE juga telah menjadi standar de facto untuk database ucapan utama seperti TIMIT, Switchboard, dan korpus Fisher, memastikan pengakuan yang luas di seluruh laboratorium akademik dan pemerintah. Spesifikasi terbuka dan ketersediaan tool command-line (sphere, h_strip, w_decode) membuatnya mudah untuk mengonversi, memeriksa, dan memproses file-file ini secara programatis dalam pipeline pemrosesan ucapan.
Rilis awal: 1990
VOX adalah format audio tanpa header yang dibangun di sekitar encoding Dialogic ADPCM, diadopsi secara luas dalam telepon, sistem interactive voice response (IVR), dan platform pesan suara sejak tahun 1980-an. Setiap sampel audio dikompresi menjadi 4 bit menggunakan algoritma yang dikembangkan oleh Oki Electric dan diimplementasikan dalam perangkat keras pada kartu antarmuka telepon Dialogic Corporation. File VOX biasanya menggunakan sampling rate 6000 atau 8000 Hz, menghasilkan rekaman yang sangat kompak yang dioptimalkan untuk kejelasan ucapan daripada fidelitas musik. Karena format ini tidak membawa header, perangkat lunak pemutaran harus mengetahui sample rate dan parameter encoding terlebih dahulu — trade-off yang mengurangi overhead tetapi memerlukan manajemen file yang cermat. Keunggulan utama VOX adalah efisiensi penyimpanan: rekaman suara satu menit pada 8 kHz hanya memakan sekitar 240 KB, membuatnya praktis untuk sistem yang menyimpan ribuan prompt. Dialogic ADPCM sesuai dengan standar ITU-T G.726, memastikan interoperabilitas di seluruh peralatan telepon dari vendor yang berbeda. Meskipun pusat panggilan modern bermigrasi ke sistem berbasis IP dengan codec seperti Opus, perpustakaan besar rekaman VOX tetap ada dalam deployment IVR warisan dan arsip kepatuhan di seluruh dunia.
Rilis awal: 1983