ตัวแปลง MP3 เป็น SPH

สร้างเสียง NIST Sphere SPH จากไฟล์บันทึก MP3

วางไฟล์ต่างๆ​ ที่นี่. 1 GB ขนาดไฟล์สูงสุด หรือ ลงชื่อ
ไปยัง
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

มาตรฐาน Corpus

SPH คือรูปแบบที่อยู่เบื้องหลัง corpus เสียงพูดสำคัญอย่าง TIMIT และ Switchboard — แปลงข้อมูล MP3 ของคุณเพื่อใช้ในการวิจัย ASR

ส่วนหัว Metadata ที่สมบูรณ์

ไฟล์ SPH มี metadata โดยละเอียดเกี่ยวกับผู้พูด ช่องสัญญาณ และสภาพการบันทึก — สำคัญสำหรับการจัดระเบียบการวิจัยเสียงพูด

การแปลงจำนวนมาก

ประมวลผลไฟล์บันทึก MP3 ทั้งคอลเลกชันเป็น SPH พร้อมกัน — สร้าง corpus เสียงพูดของคุณได้อย่างมีประสิทธิภาพ

วิธีแปลง MP3 เป็น SPH

1

เลือกไฟล์จากคอมพิวเตอร์, Google Drive, Dropbox, URL หรือทำการลากไฟล์มาที่หน้า.

2

เลือกรูปแบบไฟล์ sph หรือรูปแบบไฟล์อื่นตามต้องการเป็นผลลัพธ์(รองรับรูปแบบไฟล์มากกว่า 200 รูปแบบ)

3

ปล่อยให้แปลงไฟล์และคุณสามารถดาวน์โหลดไฟล์ sph ของคุณได้หลังจากนั้น

เกี่ยวกับรูปแบบไฟล์

MP3 (MPEG-1 Audio Layer III) เป็นหนึ่งในรูปแบบเข้ารหัสเสียงดิจิทัลที่ใช้กันอย่างแพร่หลายที่สุด ใช้การบีบอัดข้อมูลแบบสูญเสียเพื่อลดขนาดไฟล์อย่างมีนัยสำคัญในขณะที่ยังคงรักษาคุณภาพเสียงใกล้เคียงระดับ CD โดยทั่วไปบรรลุอัตราส่วนการบีบอัด 10:1 พัฒนาโดย Fraunhofer Society ร่วมกับนักวิทยาศาสตร์ดิจิทัลคนอื่น ๆ รูปแบบนี้กลายเป็นมาตรฐานสากลในปี 1993 ในฐานะส่วนหนึ่งของข้อกำหนด MPEG-1 ไฟล์ MP3 สามารถเข้ารหัสได้ที่บิตเรตต่าง ๆ โดยทั่วไปตั้งแต่ 128 kbps ถึง 320 kbps ให้ผู้ใช้สร้างสมดุลระหว่างขนาดไฟล์และความเที่ยงตรงของเสียง การบีบอัดที่มีประสิทธิภาพ ความเข้ากันได้กับอุปกรณ์อย่างกว้างขวาง และขนาดไฟล์ที่เล็กทำให้ MP3 เป็นแรงขับเคลื่อนเบื้องหลังการปฏิวัติเพลงดิจิทัล ช่วยให้สามารถจัดเก็บและเผยแพร่เพลงผ่านอินเทอร์เน็ตได้อย่างสะดวก ปัจจุบัน MP3 ยังคงเป็นหนึ่งในรูปแบบเสียงที่ได้รับการรองรับอย่างทั่วถึงที่สุดในเครื่องเล่นสื่อ ระบบปฏิบัติการ และอุปกรณ์พกพาแทบทุกชนิด
ผู้พัฒนา: Fraunhofer Society
เผยแพร่ครั้งแรก: 6 ธันวาคม 1991
SPH เป็นนามสกุลไฟล์สำหรับเสียงที่จัดเก็บในรูปแบบ NIST SPHERE (SPeech HEader REsources) มาตรฐานที่สร้างโดยสถาบันมาตรฐานและเทคโนโลยีแห่งชาติสหรัฐอเมริการาวปี 1990 สร้างขึ้นสำหรับการวิจัยด้านเสียงพูด ไฟล์ SPH มีส่วนหัว ASCII ขนาด 1024 ไบต์ที่บรรจุเมทาดาทา — ตัวระบุฐานข้อมูล จำนวนช่องสัญญาณ อัตราสุ่มตัวอย่าง ลำดับไบต์ และประเภทการบีบอัด — ทำให้ทุกการบันทึกอธิบายตัวเองได้ เสียงพื้นฐานโดยทั่วไปเป็น PCM เชิงเส้น 16 บิตที่สุ่มตัวอย่าง 16 kHz แม้ว่าจะอนุญาตให้ใช้การกำหนดค่าอื่นได้ นักวิจัยที่ NIST, DARPA และมหาวิทยาลัยทั่วโลกพึ่งพา SPH สำหรับการเผยแพร่คลังเสียงพูดเช่น TIMIT, Switchboard และคอลเลกชัน LDC ที่เป็นรากฐานของระบบการรู้จำเสียงพูดอัตโนมัติสมัยใหม่ ข้อดีสำคัญคือส่วนหัวที่อ่านได้ด้วยมนุษย์ ทำให้สคริปต์สามารถแยกวิเคราะห์เมทาดาทาการบันทึกได้โดยไม่ต้องถอดรหัสไบนารี การกำหนดมาตรฐานที่เข้มงวดของรูปแบบยังขจัดความกำกวมเมื่อแชร์ชุดข้อมูลข้ามสถาบันและแพลตฟอร์ม เนื่องจากไฟล์ SPH จัดเก็บ PCM แบบไม่บีบอัด จึงรักษาความเที่ยงตรงของเสียงอย่างเต็มที่ — สิ่งสำคัญอย่างยิ่งเมื่อฝึกแบบจำลองอะคูสติกที่แม้แต่สิ่งแปลกปลอมเล็กน้อยก็อาจบิดเบือนผลลัพธ์ได้
เผยแพร่ครั้งแรก: 1990

คำถามที่พบบ่อย

ทำไมต้องแปลง MP3 เป็น SPH?

SPH คือรูปแบบ Sphere ที่ NIST ใช้สำหรับการวิจัยเสียงพูด ชุดข้อมูลที่เผยแพร่โดย Linguistic Data Consortium และชุดข้อมูลฝึกอบรม ASR มักใช้ SPH

อะไรอ่านไฟล์ SPH ได้?

Kaldi, HTK, Praat, SoX และ framework การรู้จำเสียงพูดส่วนใหญ่รองรับไฟล์ SPH เป็นมาตรฐานเดอะแฟกโตสำหรับ corpus เสียงพูด

SPH ต่างจาก NIST ไหม?

SPH และ NIST อ้างถึงรูปแบบ Sphere เดียวกัน — SPH เป็นนามสกุลไฟล์ทั่วไปสำหรับไฟล์ NIST SPeech HEader Resources

SPH มี metadata อะไรบ้าง?

ส่วนหัว Sphere มีข้อมูลผู้พูด สภาพการบันทึก รายละเอียดช่องสัญญาณ และ metadata การจัดการ corpus อื่น ๆ

แปลง corpus ทั้งหมดได้ไหม?

อัปโหลดไฟล์บันทึก MP3 เป็นชุดและแปลงทั้งหมดเป็น SPH ในเซสชันเดียว — มีประสิทธิภาพสำหรับการประกอบชุดข้อมูลวิจัยเสียงพูด

MP3 ถึง SPH คะแนนคุณภาพ

4.2 (24 คะแนน)
คุณต้องแปลงและดาวน์โหลดไฟล์อย่างน้อย 1 ไฟล์เพื่อให้ข้อเสนอแนะ!