MPEG เป็น SPH ตัวแปลง

ดึงเสียง MPEG เป็นรูปแบบเสียงพูด NIST SPHERE ออนไลน์

วางไฟล์ต่างๆ​ ที่นี่. 1 GB ขนาดไฟล์สูงสุด หรือ ลงชื่อ
ไปยัง
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

วิดีโอสู่คลังเสียงพูด

ดึงบทสนทนาจากวิดีโอ MPEG และบรรจุเป็น NIST SPHERE — ข้ามขั้นตอนดึงด้วยตนเองเมื่อสร้างชุดข้อมูลวิจัยเสียงพูด

มาตรฐาน NIST

เอาต์พุต SPH ตรงตามข้อกำหนด NIST SPHERE อย่างแม่นยำ นำเข้า Kaldi, HTK หรือเฟรมเวิร์กจดจำเสียงพูดใดก็ได้โดยตรง

จัดการอย่างปลอดภัย

ไฟล์ MPEG ที่อัปโหลดจะถูกลบหลังแปลง ไฟล์ SPH จะถูกลบภายใน 24 ชั่วโมง — วัตถุดิบวิจัยของคุณยังคงเป็นความลับ

วิธีแปลง MPEG เป็น SPH

1

เลือกไฟล์จากคอมพิวเตอร์, Google Drive, Dropbox, URL หรือทำการลากไฟล์มาที่หน้า.

2

เลือกรูปแบบไฟล์ sph หรือรูปแบบไฟล์อื่นตามต้องการเป็นผลลัพธ์(รองรับรูปแบบไฟล์มากกว่า 200 รูปแบบ)

3

ปล่อยให้แปลงไฟล์และคุณสามารถดาวน์โหลดไฟล์ sph ของคุณได้หลังจากนั้น

เกี่ยวกับรูปแบบไฟล์

MPEG (MPEG-1) เป็นมาตรฐานการบีบอัดวิดีโอและเสียงพื้นฐานที่เผยแพร่ในเดือนสิงหาคม 1993 โดย Moving Picture Experts Group ในชื่อ ISO/IEC 11172 เป็นมาตรฐานสากลแรกสำหรับการบีบอัดแบบสูญเสียของภาพเคลื่อนไหวและเสียงประกอบ สร้างหลักการและเทคนิคที่มีอิทธิพลต่อตัวแปลงสัญญาณวิดีโอในยุคต่อมาแทบทั้งหมด วิดีโอ MPEG-1 บีบอัดผ่านการรวมกันของ motion-compensated prediction, discrete cosine transform coding และ variable-length entropy encoding จัดระเบียบรอบเฟรมสามประเภท: I-frames (intra-coded), P-frames (predicted) และ B-frames (bidirectionally predicted) มาตรฐานกำหนดเป้าหมายบิตเรตประมาณ 1.5 Mbps สำหรับเสียงและวิดีโอรวมกัน ให้คุณภาพเทียบเคียงเทป VHS ที่ความละเอียด SIF (352x240 สำหรับ NTSC) ระดับการบีบอัดนี้ถูกเลือกอย่างจำเพาะเพื่อให้ตรงกับปริมาณข้อมูลของไดรฟ์ CD-ROM ความเร็ว 1x ทำให้เกิดรูปแบบ Video CD ที่นำวิดีโอดิจิทัลมาสู่ผู้บริโภคในช่วงต้นทศวรรษ 1990 ส่วนประกอบเสียง โดยเฉพาะ Layer III (MP3) กลายเป็นรูปแบบเสียงที่มีอิทธิพลมากที่สุดในประวัติศาสตร์ โครงสร้างเฟรม I/P/B วิธีการประมาณการเคลื่อนไหว และการเข้ารหัสแปลงแบบบล็อก สร้างแบบแผนสถาปัตยกรรมที่ตัวแปลงสัญญาณวิดีโอหลักทุกตัวในยุคหลังปฏิบัติตาม ตั้งแต่ MPEG-2 จนถึง H.264 และหลังจากนั้น แม้จะถูกแซงหน้าในด้านประสิทธิภาพการบีบอัดมานาน MPEG-1 ยังคงได้รับการรองรับจากซอฟต์แวร์สื่อแทบทั้งหมด
ผู้พัฒนา: Moving Picture Experts Group
เผยแพร่ครั้งแรก: สิงหาคม 1993
SPH เป็นนามสกุลไฟล์สำหรับเสียงที่จัดเก็บในรูปแบบ NIST SPHERE (SPeech HEader REsources) มาตรฐานที่สร้างโดยสถาบันมาตรฐานและเทคโนโลยีแห่งชาติสหรัฐอเมริการาวปี 1990 สร้างขึ้นสำหรับการวิจัยด้านเสียงพูด ไฟล์ SPH มีส่วนหัว ASCII ขนาด 1024 ไบต์ที่บรรจุเมทาดาทา — ตัวระบุฐานข้อมูล จำนวนช่องสัญญาณ อัตราสุ่มตัวอย่าง ลำดับไบต์ และประเภทการบีบอัด — ทำให้ทุกการบันทึกอธิบายตัวเองได้ เสียงพื้นฐานโดยทั่วไปเป็น PCM เชิงเส้น 16 บิตที่สุ่มตัวอย่าง 16 kHz แม้ว่าจะอนุญาตให้ใช้การกำหนดค่าอื่นได้ นักวิจัยที่ NIST, DARPA และมหาวิทยาลัยทั่วโลกพึ่งพา SPH สำหรับการเผยแพร่คลังเสียงพูดเช่น TIMIT, Switchboard และคอลเลกชัน LDC ที่เป็นรากฐานของระบบการรู้จำเสียงพูดอัตโนมัติสมัยใหม่ ข้อดีสำคัญคือส่วนหัวที่อ่านได้ด้วยมนุษย์ ทำให้สคริปต์สามารถแยกวิเคราะห์เมทาดาทาการบันทึกได้โดยไม่ต้องถอดรหัสไบนารี การกำหนดมาตรฐานที่เข้มงวดของรูปแบบยังขจัดความกำกวมเมื่อแชร์ชุดข้อมูลข้ามสถาบันและแพลตฟอร์ม เนื่องจากไฟล์ SPH จัดเก็บ PCM แบบไม่บีบอัด จึงรักษาความเที่ยงตรงของเสียงอย่างเต็มที่ — สิ่งสำคัญอย่างยิ่งเมื่อฝึกแบบจำลองอะคูสติกที่แม้แต่สิ่งแปลกปลอมเล็กน้อยก็อาจบิดเบือนผลลัพธ์ได้
เผยแพร่ครั้งแรก: 1990

คำถามที่พบบ่อย

ทำไมต้องแปลง MPEG เป็น SPH?

SPH เป็นมาตรฐาน NIST SPHERE สำหรับวิจัยเสียงพูด บทสนทนาวิดีโอ MPEG กลายเป็นข้อมูลที่จัดรูปแบบเหมาะสมสำหรับการฝึกสอนและประเมิน ASR

เครื่องมืออะไรรองรับ SPH?

Kaldi, HTK, Praat และ NIST SPHERE toolkit รองรับ SPH โดยตรง เป็นรูปแบบแลกเปลี่ยนมาตรฐานสำหรับงานวิจัยเสียง

SPH บีบอัดเสียงหรือไม่?

ไม่ — SPH จัดเก็บข้อมูล PCM โดยไม่บีบอัด lossy เสียง MPEG ถึงรูปแบบ SPHERE ในคุณภาพเต็มสำหรับการประมวลผลเสียงพูดที่แม่นยำ

เสียง MPEG-1 เพียงพอหรือไม่?

เสียง MPEG-1 ให้คุณภาพที่เพียงพอสำหรับวิจัยเสียงพูด เนื้อหาบทสนทนาถูกรักษาไว้ดีผ่านกระบวนการดึงเสียงและเข้ารหัส SPH

แปลงไฟล์ MPEG หลายไฟล์ได้หรือไม่?

อัปโหลดวิดีโอ MPEG หลายไฟล์และแปลงเป็น SPH เป็นชุด มีประสิทธิภาพสำหรับสร้างคลังข้อมูลเสียงพูดจากคลังวิดีโอ MPEG เก็บถาวร