Convertitore da NIST ad SPH

Converti i tuoi file nist in sph online e gratis

Rilascia i file qui. 1 GB dimensione massima del file oppure Registrati
in
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Come convertire NIST in SPH

1

Seleziona file dal Computer, Google Drive, Dropbox, URL o trascinandoli sulla pagina.

2

Scegli sph o qualsiasi altro formato che ti serva come destinazione (più di 200 formati supportati)

3

Lascia convertire il file e potrai scaricare il tuo sph subito dopo

Informazioni sui formati

NIST SPHERE (SPeech HEader REsources) è un formato audio specializzato creato dal National Institute of Standards and Technology per la ricerca vocale, in particolare per progetti finanziati dal DARPA. Il formato avvolge i campioni audio grezzi con un'intestazione ASCII strutturata che codifica metadati come frequenza di campionamento, numero di canali, tipo di codifica, dati demografici degli speaker e annotazioni di trascrizione — rendendolo ideale per la distribuzione di corpora vocali. I file NIST memorizzano tipicamente PCM non compresso o audio mu-law a frequenze di campionamento di qualità telefonica (8 kHz o 16 kHz), sebbene il contenitore sia sufficientemente flessibile da ospitare diverse codifiche. Un vantaggio fondamentale è la ricca intestazione auto-descrittiva che consente ai ricercatori di incorporare metadati dettagliati del corpus direttamente nel file, eliminando la necessità di file separati. SPHERE è inoltre diventato lo standard de facto per importanti database vocali come TIMIT, Switchboard e il corpus Fisher, garantendo un ampio riconoscimento nei laboratori accademici e governativi. La specifica aperta e la disponibilità di strumenti a riga di comando (sphere, h_strip, w_decode) rendono semplice convertire, ispezionare e elaborare questi file a livello programmatico nelle pipeline di elaborazione del parlato.
Prima versione: 1990
SPH è l'estensione file per l'audio memorizzato nel formato NIST SPHERE (SPeech HEader REsources), uno standard creato dal National Institute of Standards and Technology statunitense intorno al 1990. Progettato per la ricerca vocale, i file SPH portano un'intestazione ASCII di 1024 byte ricca di metadati — identificatori di database, conteggi dei canali, frequenze di campionamento, ordine dei byte e tipo di compressione — rendendo ogni registrazione autodescrittiva. L'audio sottostante è tipicamente PCM lineare a 16 bit campionato a 16 kHz, sebbene siano ammesse altre configurazioni. Ricercatori del NIST, del DARPA e di università in tutto il mondo si affidano a SPH per la distribuzione di corpora vocali come TIMIT, Switchboard e le collezioni LDC che sostengono i moderni sistemi di riconoscimento vocale automatico. Un vantaggio fondamentale è che l'intestazione leggibile dall'uomo consente agli script di analizzare i metadati della registrazione senza decodifica binaria. La rigorosa standardizzazione del formato elimina inoltre l'ambiguità nella condivisione di dataset tra istituzioni e piattaforme diverse. Poichè i file SPH memorizzano PCM non compresso, preservano la piena fedeltà audio — aspetto critico quando si addestrano modelli acustici dove anche piccoli artefatti possono distorcere i risultati.
Prima versione: 1990