ตัวแปลง WAV เป็น SPH

สร้างเสียงวิจัยเสียงพูด SPHERE จากไฟล์ WAV

วางไฟล์ต่างๆ​ ที่นี่. 1 GB ขนาดไฟล์สูงสุด หรือ ลงชื่อ
ไปยัง
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

รูปแบบต้นฉบับที่เหมาะสม

WAV ที่ไม่ได้บีบอัดคือต้นฉบับที่ดีที่สุดสำหรับคลังเสียงพูด SPHERE — ข้อมูลวิจัยที่ปราศจากสัญญาณรบกวน

มาตรฐาน Corpus

SPH คือสิ่งที่ชุดเครื่องมือเสียงพูดหลักคาดหวัง — สร้างจาก WAV ที่ไม่ได้บีบอัด

ประมวลผลชุดข้อมูล

แปลงคอลเลกชัน WAV ทั้งหมดเป็น SPH พร้อมกัน

วิธีแปลง WAV เป็น SPH

1

เลือกไฟล์จากคอมพิวเตอร์, Google Drive, Dropbox, URL หรือทำการลากไฟล์มาที่หน้า.

2

เลือกรูปแบบไฟล์ sph หรือรูปแบบไฟล์อื่นตามต้องการเป็นผลลัพธ์(รองรับรูปแบบไฟล์มากกว่า 200 รูปแบบ)

3

ปล่อยให้แปลงไฟล์และคุณสามารถดาวน์โหลดไฟล์ sph ของคุณได้หลังจากนั้น

เกี่ยวกับรูปแบบไฟล์

WAV (Waveform Audio File Format) เป็นคอนเทนเนอร์เสียงแบบไม่บีบอัดที่ Microsoft และ IBM ร่วมกันพัฒนา เผยแพร่ครั้งแรกในเดือนสิงหาคม 1991 พร้อมกับ Windows 3.1 สร้างขึ้นบน Resource Interchange File Format (RIFF) WAV จัดเก็บข้อมูลเสียง — โดยทั่วไปเป็น linear pulse-code modulation (LPCM) — พร้อมเมทาดาทาที่อธิบายอัตราสุ่มตัวอย่าง ความลึกบิต และจำนวนช่องสัญญาณ โครงสร้างที่ตรงไปตรงมานี้ทำให้ WAV เป็นมาตรฐานสำหรับเสียงไม่บีบอัดบน Windows และเป็นรูปแบบแลกเปลี่ยนที่ยอมรับในระดับสากลในระบบปฏิบัติการ โปรแกรมแก้ไขเสียง และเครื่องเล่นสื่อแทบทุกตัว ไฟล์ WAV คุณภาพ CD ใช้ตัวอย่าง 16 บิตที่ 44.1 kHz สเตอริโอ ขณะที่เวิร์กโฟลว์ระดับมืออาชีพมักใช้ตัวอย่าง 24 บิตหรือ 32 บิต float ที่อัตราสูงสุด 192 kHz ข้อดีสำคัญคือความเที่ยงตรงแบบไม่สูญเสีย — เนื่องจาก WAV มาตรฐานไม่ใช้การบีบอัด ข้อมูลที่จัดเก็บจึงเป็นตัวแทนดิจิทัลที่ตรงกับการบันทึกต้นฉบับทุกประการ ทำให้เป็นตัวเลือกที่นิยมสำหรับการมาสเตอร์และการเก็บถาวร WAV ยังรองรับเมทาดาทาแบบฝังผ่าน INFO และ BWF chunks ช่วยให้สามารถบันทึกเวลาและบันทึกการผลิต ข้อแลกเปลี่ยนหลักคือขนาดไฟล์ — เสียงสเตอริโอคุณภาพ CD หนึ่งนาทีใช้พื้นที่ประมาณ 10 MB — และโครงสร้าง RIFF 32 บิตกำหนดขีดจำกัด 4 GB แม้ว่า RF64 จะขจัดข้อจำกัดนั้น
ผู้พัฒนา: Microsoft and IBM
เผยแพร่ครั้งแรก: สิงหาคม 1991
SPH เป็นนามสกุลไฟล์สำหรับเสียงที่จัดเก็บในรูปแบบ NIST SPHERE (SPeech HEader REsources) มาตรฐานที่สร้างโดยสถาบันมาตรฐานและเทคโนโลยีแห่งชาติสหรัฐอเมริการาวปี 1990 สร้างขึ้นสำหรับการวิจัยด้านเสียงพูด ไฟล์ SPH มีส่วนหัว ASCII ขนาด 1024 ไบต์ที่บรรจุเมทาดาทา — ตัวระบุฐานข้อมูล จำนวนช่องสัญญาณ อัตราสุ่มตัวอย่าง ลำดับไบต์ และประเภทการบีบอัด — ทำให้ทุกการบันทึกอธิบายตัวเองได้ เสียงพื้นฐานโดยทั่วไปเป็น PCM เชิงเส้น 16 บิตที่สุ่มตัวอย่าง 16 kHz แม้ว่าจะอนุญาตให้ใช้การกำหนดค่าอื่นได้ นักวิจัยที่ NIST, DARPA และมหาวิทยาลัยทั่วโลกพึ่งพา SPH สำหรับการเผยแพร่คลังเสียงพูดเช่น TIMIT, Switchboard และคอลเลกชัน LDC ที่เป็นรากฐานของระบบการรู้จำเสียงพูดอัตโนมัติสมัยใหม่ ข้อดีสำคัญคือส่วนหัวที่อ่านได้ด้วยมนุษย์ ทำให้สคริปต์สามารถแยกวิเคราะห์เมทาดาทาการบันทึกได้โดยไม่ต้องถอดรหัสไบนารี การกำหนดมาตรฐานที่เข้มงวดของรูปแบบยังขจัดความกำกวมเมื่อแชร์ชุดข้อมูลข้ามสถาบันและแพลตฟอร์ม เนื่องจากไฟล์ SPH จัดเก็บ PCM แบบไม่บีบอัด จึงรักษาความเที่ยงตรงของเสียงอย่างเต็มที่ — สิ่งสำคัญอย่างยิ่งเมื่อฝึกแบบจำลองอะคูสติกที่แม้แต่สิ่งแปลกปลอมเล็กน้อยก็อาจบิดเบือนผลลัพธ์ได้
เผยแพร่ครั้งแรก: 1990

คำถามที่พบบ่อย

ทำไมต้องแปลง WAV เป็น SPH?

SPH (SPHERE) คือมาตรฐาน NIST สำหรับคลังเสียงพูด WAV ที่ไม่ได้บีบอัดคือมาตรฐานทองสำหรับข้อมูลการวิจัย

อะไรใช้ SPH?

Kaldi, HTK, เครื่องมือประเมิน NIST และชุดข้อมูลเสียงพูดทางวิชาการใช้รูปแบบ SPHERE

SPH เหมือน NIST ไหม?

ใช่ — ทั้งคู่อ้างถึง SPHERE ที่กำหนดโดย National Institute of Standards and Technology

การแปลงเป็นลอสเลสไหม?

SPH รองรับ PCM — WAV เป็น SPH รักษาข้อมูลเสียงโดยไม่สูญเสีย

แปลงชุดข้อมูลได้ไหม?

อัปโหลดคอลเลกชันเสียงพูด WAV ทั้งหมดแล้วสร้าง SPH สำหรับทุกไฟล์พร้อมกัน

WAV ถึง SPH คะแนนคุณภาพ

4.9 (21 คะแนน)
คุณต้องแปลงและดาวน์โหลดไฟล์อย่างน้อย 1 ไฟล์เพื่อให้ข้อเสนอแนะ!