ตัวแปลง WAV เป็น NIST

ปรับรูปแบบเสียง WAV เป็น NIST Sphere สำหรับการวิจัย

วางไฟล์ต่างๆ​ ที่นี่. 1 GB ขนาดไฟล์สูงสุด หรือ ลงชื่อ
ไปยัง
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

มาตรฐานการวิจัย

NIST Sphere คือมาตรฐานทองสำหรับคลังเสียงพูด — แปลงการบันทึก WAV เพื่อใช้โดยตรงในการวิจัย ASR และภาษาศาสตร์

Corpus Metadata

ส่วนหัว NIST มี metadata ผู้พูด ช่องสัญญาณ และสภาพ — จำเป็นสำหรับจัดระเบียบชุดข้อมูลวิจัยเสียงพูด

เตรียมชุดข้อมูล

แปลงคลังเสียงพูด WAV ทั้งหมดเป็นรูปแบบ NIST พร้อมกัน — ปรับปรุง pipeline ข้อมูลวิจัยของคุณ

วิธีแปลง WAV เป็น NIST

1

เลือกไฟล์จากคอมพิวเตอร์, Google Drive, Dropbox, URL หรือทำการลากไฟล์มาที่หน้า.

2

เลือกรูปแบบไฟล์ nist หรือรูปแบบไฟล์อื่นตามต้องการเป็นผลลัพธ์(รองรับรูปแบบไฟล์มากกว่า 200 รูปแบบ)

3

ปล่อยให้แปลงไฟล์และคุณสามารถดาวน์โหลดไฟล์ nist ของคุณได้หลังจากนั้น

เกี่ยวกับรูปแบบไฟล์

WAV (Waveform Audio File Format) เป็นคอนเทนเนอร์เสียงแบบไม่บีบอัดที่ Microsoft และ IBM ร่วมกันพัฒนา เผยแพร่ครั้งแรกในเดือนสิงหาคม 1991 พร้อมกับ Windows 3.1 สร้างขึ้นบน Resource Interchange File Format (RIFF) WAV จัดเก็บข้อมูลเสียง — โดยทั่วไปเป็น linear pulse-code modulation (LPCM) — พร้อมเมทาดาทาที่อธิบายอัตราสุ่มตัวอย่าง ความลึกบิต และจำนวนช่องสัญญาณ โครงสร้างที่ตรงไปตรงมานี้ทำให้ WAV เป็นมาตรฐานสำหรับเสียงไม่บีบอัดบน Windows และเป็นรูปแบบแลกเปลี่ยนที่ยอมรับในระดับสากลในระบบปฏิบัติการ โปรแกรมแก้ไขเสียง และเครื่องเล่นสื่อแทบทุกตัว ไฟล์ WAV คุณภาพ CD ใช้ตัวอย่าง 16 บิตที่ 44.1 kHz สเตอริโอ ขณะที่เวิร์กโฟลว์ระดับมืออาชีพมักใช้ตัวอย่าง 24 บิตหรือ 32 บิต float ที่อัตราสูงสุด 192 kHz ข้อดีสำคัญคือความเที่ยงตรงแบบไม่สูญเสีย — เนื่องจาก WAV มาตรฐานไม่ใช้การบีบอัด ข้อมูลที่จัดเก็บจึงเป็นตัวแทนดิจิทัลที่ตรงกับการบันทึกต้นฉบับทุกประการ ทำให้เป็นตัวเลือกที่นิยมสำหรับการมาสเตอร์และการเก็บถาวร WAV ยังรองรับเมทาดาทาแบบฝังผ่าน INFO และ BWF chunks ช่วยให้สามารถบันทึกเวลาและบันทึกการผลิต ข้อแลกเปลี่ยนหลักคือขนาดไฟล์ — เสียงสเตอริโอคุณภาพ CD หนึ่งนาทีใช้พื้นที่ประมาณ 10 MB — และโครงสร้าง RIFF 32 บิตกำหนดขีดจำกัด 4 GB แม้ว่า RF64 จะขจัดข้อจำกัดนั้น
ผู้พัฒนา: Microsoft and IBM
เผยแพร่ครั้งแรก: สิงหาคม 1991
NIST SPHERE (SPeech HEader REsources) เป็นรูปแบบไฟล์เสียงเฉพาะทางที่สร้างโดย สถาบันมาตรฐานและเทคโนโลยีแห่งชาติ สำหรับการวิจัยเสียงพูด โดยเฉพาะโปรเจกต์ที่ได้รับทุนจาก DARPA รูปแบบนี้ห่อหุ้มตัวอย่างเสียงดิบด้วยส่วนหัว ASCII ที่มีโครงสร้างซึ่งเข้ารหัสเมตาดาต้า เช่น อัตราสุ่มตัวอย่าง จำนวนแชนเนล ประเภทการเข้ารหัส ข้อมูลประชากรผู้พูด และคำอธิบายการถอดความ — เหมาะอย่างยิ่งสำหรับการเผยแพร่คอร์ปัสเสียงพูด ไฟล์ NIST มักเก็บ PCM แบบไม่บีบอัดหรือเสียง mu-law ที่อัตราสุ่มตัวอย่างคุณภาพโทรศัพท์ (8 kHz หรือ 16 kHz) แม้คอนเทนเนอร์จะยืดหยุ่นพอรองรับการเข้ารหัสหลายแบบ ข้อดีสำคัญคือส่วนหัวแบบบันทึกตัวเองที่หลากหลาย ช่วยให้นักวิจัยฝังเมตาดาต้าคอร์ปัสโดยละเอียดในไฟล์โดยตรง ไม่ต้องมีไฟล์ข้างเคียง SPHERE ยังกลายเป็นมาตรฐานที่ใช้จริงสำหรับฐานข้อมูลเสียงพูดหลัก ๆ เช่น TIMIT, Switchboard และคอร์ปัส Fisher รับประกันการรับรู้อย่างกว้างขวางในห้องปฏิบัติการทั้งด้านวิชาการและภาครัฐ ข้อกำหนดแบบเปิดและเครื่องมือบรรทัดคำสั่งที่มีให้ (sphere, h_strip, w_decode) ทำให้สามารถแปลง ตรวจสอบ และประมวลผลไฟล์เหล่านี้ทางโปรแกรมได้อย่างตรงไปตรงมาในไปป์ไลน์ประมวลผลเสียงพูด
เผยแพร่ครั้งแรก: 1990

คำถามที่พบบ่อย

ทำไมต้องแปลง WAV เป็น NIST?

NIST Sphere เป็นรูปแบบมาตรฐานสำหรับคลังเสียงพูดในการวิจัย ASR ชุดข้อมูลอย่าง TIMIT, Switchboard และ LDC ใช้รูปแบบ NIST

อะไรอ่านไฟล์ NIST?

Kaldi, HTK, Praat, SoX และชุดเครื่องมือรู้จำเสียงพูดหลักทั้งหมดรองรับไฟล์ NIST Sphere โดยตรง

NIST มี metadata อะไรบ้าง?

ส่วนหัว NIST มี speaker ID สภาพการบันทึก ข้อมูลช่องสัญญาณ และฟิลด์อื่นๆ ที่จำเป็นสำหรับการจัดการคลังเสียงพูด

NIST เป็นลอสเลสไหม?

NIST Sphere จัดเก็บเสียง PCM พร้อมส่วนหัว metadata ที่ครบถ้วน การแปลงเสียงจาก WAV เป็นลอสเลสอย่างสมบูรณ์

แปลงชุดข้อมูลทั้งหมดได้ไหม?

อัปโหลดการบันทึกเสียงพูด WAV ทั้งหมดแล้วแปลงเป็น NIST Sphere แบบ batch — เตรียมคลังวิจัยที่สมบูรณ์ได้อย่างมีประสิทธิภาพ

WAV ถึง NIST คะแนนคุณภาพ

5.0 (5 คะแนน)
คุณต้องแปลงและดาวน์โหลดไฟล์อย่างน้อย 1 ไฟล์เพื่อให้ข้อเสนอแนะ!