ตัวแปลง OPUS เป็น SPH

สร้างเสียงวิจัยคำพูด SPHERE จาก OPUS

วางไฟล์ต่างๆ​ ที่นี่. 1 GB ขนาดไฟล์สูงสุด หรือ ลงชื่อ
ไปยัง
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

รูปแบบคลังข้อมูลคำพูด

SPH เป็นมาตรฐานเบื้องหลังชุดข้อมูลคำพูดหลัก — แปลงการบันทึก OPUS เป็นเสียงพร้อมวิจัย

เตรียมชุดข้อมูล

ประมวลผลคอลเลกชัน OPUS ทั้งหมดเป็น SPH พร้อมกัน — เตรียมคลังข้อมูลในการดำเนินการเดียว

แปลงออนไลน์

ไม่ต้องมี speech toolkit — สร้าง SPH จาก OPUS โดยตรงผ่านเบราว์เซอร์

วิธีแปลง OPUS เป็น SPH

1

เลือกไฟล์จากคอมพิวเตอร์, Google Drive, Dropbox, URL หรือทำการลากไฟล์มาที่หน้า.

2

เลือกรูปแบบไฟล์ sph หรือรูปแบบไฟล์อื่นตามต้องการเป็นผลลัพธ์(รองรับรูปแบบไฟล์มากกว่า 200 รูปแบบ)

3

ปล่อยให้แปลงไฟล์และคุณสามารถดาวน์โหลดไฟล์ sph ของคุณได้หลังจากนั้น

เกี่ยวกับรูปแบบไฟล์

Opus เป็นโคเดกเสียงแบบเปิดที่หลากหลาย ได้รับการกำหนดมาตรฐานโดย IETF ตาม RFC 6716 ในปี 2012 โดยผสมผสานสองแนวทางการเข้ารหัส — SILK สำหรับเสียงพูดและ CELT สำหรับดนตรี — เข้าเป็นอัลกอริทึมเดียวที่ผสานระหว่างสองแบบตามประเภทเนื้อหาและบิตเรต การออกแบบแบบไฮบริดนี้ทำให้ Opus มีประสิทธิภาพเหนือโคเดกอื่นเกือบทั้งหมดในการใช้งานหลากหลายรูปแบบ ตั้งแต่เสียงพูดที่มีเวลาแฝงต่ำที่ 6 kbps ไปจนถึงดนตรีคุณภาพสูงที่ 128 kbps และทุกอย่างที่อยู่ระหว่างนั้น รองรับบิตเรตตั้งแต่ 6 ถึง 510 kbps อัตราสุ่มตัวอย่างสูงสุด 48 kHz และขนาดเฟรมเล็กสุดเพียง 2.5 ms ทำให้มีเวลาแฝงเชิงอัลกอริทึมต่ำที่สุดในบรรดาโคเดกเสียงกระแสหลัก Opus มีข้อดีที่น่าสนใจสามประการ — ปลอดค่าลิขสิทธิ์และเป็นโอเพนซอร์สอย่างสมบูรณ์ ซึ่งขจัดอุปสรรคด้านการอนุญาตที่ขัดขวางโคเดกที่เป็นกรรมสิทธิ์ นอกจากนี้ยังบรรลุคุณภาพที่โปร่งใสที่บิตเรตประมาณครึ่งหนึ่งของ MP3 และเอาชนะ AAC ที่อัตราเทียบเท่า และเวลาแฝงต่ำทำให้เป็นโคเดกบังคับสำหรับ WebRTC ดังนั้นเบราว์เซอร์สมัยใหม่ทุกตัวจึงมาพร้อมตัวถอดรหัส Opus WhatsApp, Discord, Zoom และ YouTube ทั้งหมดใช้ Opus สำหรับเสียงแบบเรียลไทม์
ผู้พัฒนา: Internet Engineering Task Force
เผยแพร่ครั้งแรก: 11 กันยายน 2012
SPH เป็นนามสกุลไฟล์สำหรับเสียงที่จัดเก็บในรูปแบบ NIST SPHERE (SPeech HEader REsources) มาตรฐานที่สร้างโดยสถาบันมาตรฐานและเทคโนโลยีแห่งชาติสหรัฐอเมริการาวปี 1990 สร้างขึ้นสำหรับการวิจัยด้านเสียงพูด ไฟล์ SPH มีส่วนหัว ASCII ขนาด 1024 ไบต์ที่บรรจุเมทาดาทา — ตัวระบุฐานข้อมูล จำนวนช่องสัญญาณ อัตราสุ่มตัวอย่าง ลำดับไบต์ และประเภทการบีบอัด — ทำให้ทุกการบันทึกอธิบายตัวเองได้ เสียงพื้นฐานโดยทั่วไปเป็น PCM เชิงเส้น 16 บิตที่สุ่มตัวอย่าง 16 kHz แม้ว่าจะอนุญาตให้ใช้การกำหนดค่าอื่นได้ นักวิจัยที่ NIST, DARPA และมหาวิทยาลัยทั่วโลกพึ่งพา SPH สำหรับการเผยแพร่คลังเสียงพูดเช่น TIMIT, Switchboard และคอลเลกชัน LDC ที่เป็นรากฐานของระบบการรู้จำเสียงพูดอัตโนมัติสมัยใหม่ ข้อดีสำคัญคือส่วนหัวที่อ่านได้ด้วยมนุษย์ ทำให้สคริปต์สามารถแยกวิเคราะห์เมทาดาทาการบันทึกได้โดยไม่ต้องถอดรหัสไบนารี การกำหนดมาตรฐานที่เข้มงวดของรูปแบบยังขจัดความกำกวมเมื่อแชร์ชุดข้อมูลข้ามสถาบันและแพลตฟอร์ม เนื่องจากไฟล์ SPH จัดเก็บ PCM แบบไม่บีบอัด จึงรักษาความเที่ยงตรงของเสียงอย่างเต็มที่ — สิ่งสำคัญอย่างยิ่งเมื่อฝึกแบบจำลองอะคูสติกที่แม้แต่สิ่งแปลกปลอมเล็กน้อยก็อาจบิดเบือนผลลัพธ์ได้
เผยแพร่ครั้งแรก: 1990

คำถามที่พบบ่อย

ทำไมต้องแปลง OPUS เป็น SPH?

SPH (SPHERE) เป็นมาตรฐาน NIST สำหรับคลังข้อมูลวิจัยคำพูด ไปป์ไลน์ ASR และเครื่องมือภาษาศาสตร์คาดหวังอินพุต SPHERE

อะไรใช้ SPH?

Kaldi, HTK, เครื่องมือประเมินผล NIST และชุดข้อมูลคำพูดทางวิชาการเช่น TIMIT ใช้ SPHERE เป็นรูปแบบเสียง

SPH เหมือนกับ NIST หรือไม่?

ใช่ — SPH และ NIST ทั้งคู่หมายถึง SPHERE (SPeech HEader Resources) ที่กำหนดโดย National Institute of Standards and Technology

ใช้อัตราตัวอย่างเท่าไร?

คลังข้อมูลคำพูดมักใช้ 8 หรือ 16 kHz — ตัวแปลง resample จาก OPUS โดยอัตโนมัติ

แปลงชุดข้อมูลได้ไหม?

อัปโหลดคอลเลกชันเสียงพูด OPUS ทั้งหมดและสร้าง SPH สำหรับทุกไฟล์ — พร้อมสำหรับการวิจัย