VOX-zu-NIST-Konverter
Wandeln Sie Ihre vox-Dateien online & kostenlos in nist um
vox
nist
Wie man VOX in NIST konvertiert
Wählen Sie Dateien vom Computer, Google Drive, Dropbox, einer URL oder durch Ziehen auf die Seite.
Wählen Sie nist oder irgendein anderes Format, das Sie als Ergebnis haben wollen (mehr als 200 Formate unterstützt)
Lassen Sie die Datei konvertieren und Sie können Ihre nist-Datei direkt danach herunterladen
Über die Formate
VOX ist ein headerloses Audioformat, das auf der Dialogic ADPCM-Kodierung basiert und seit den 1980er Jahren in Telefonie-, IVR-Systemen (Interactive Voice Response) und Voicemail-Plattformen weit verbreitet ist. Jedes Audiosample wird mit einem von Oki Electric entwickelten Algorithmus auf 4 Bit komprimiert, der in Hardware auf Dialogic Corporations Telefonie-Schnittstellenkarten implementiert wurde. VOX-Dateien verwenden typischerweise eine Abtastrate von 6000 oder 8000 Hz und erzeugen extrem kompakte Aufnahmen, die auf Sprachverständlichkeit statt musikalische Klangtreue optimiert sind. Da das Format keinen Header enthält, muss die Wiedergabesoftware die Abtastrate und Kodierungsparameter im Voraus kennen — ein Kompromiss, der Overhead reduziert, aber sorgfältiges Dateimanagement erfordert. Der Hauptvorteil von VOX ist die Speichereffizienz: Eine einminütige Sprachaufnahme bei 8 kHz belegt rund 240 KB, praktisch für Systeme mit Tausenden von Ansagen. Dialogic ADPCM entspricht dem ITU-T G.726-Standard und gewährleistet Interoperabilität zwischen Telefoniegeräten verschiedener Hersteller. Auch wenn moderne Callcenter auf IP-basierte Systeme mit Codecs wie Opus migrieren, bestehen umfangreiche Bibliotheken von VOX-Aufnahmen in Legacy-IVR-Installationen und Compliance-Archiven weltweit.
NIST SPHERE (SPeech HEader REsources) ist ein spezialisiertes Audiodateiformat, das vom National Institute of Standards and Technology für die Sprachforschung entwickelt wurde, insbesondere für DARPA-geförderte Projekte. Das Format umhüllt rohe Audiosamples mit einem strukturierten ASCII-Header, der Metadaten wie Abtastrate, Kanalanzahl, Kodierungstyp, Sprecherdemografie und Transkriptionsannotationen enthält — ideal für die Verteilung von Sprachkorpora. NIST-Dateien speichern typischerweise unkomprimiertes PCM oder Mu-Law-Audio bei Telefonie-Abtastraten (8 kHz oder 16 kHz), obwohl der Container flexibel genug für verschiedene Kodierungen ist. Ein wesentlicher Vorteil ist der reichhaltige, selbstbeschreibende Header, der es Forschern ermöglicht, detaillierte Korpus-Metadaten direkt in die Datei einzubetten und so Begleitdateien überflüssig zu machen. SPHERE hat sich zudem als De-facto-Standard für bedeutende Sprachdatenbanken wie TIMIT, Switchboard und das Fisher-Korpus etabliert und genießt breite Anerkennung in akademischen und staatlichen Laboren. Die offene Spezifikation und die Verfügbarkeit von Kommandozeilentools (sphere, h_strip, w_decode) machen es unkompliziert, diese Dateien in Sprachverarbeitungspipelines programmatisch zu konvertieren, zu inspizieren und zu verarbeiten.