ตัวแปลง OPUS เป็น NIST

สร้างไฟล์คำพูด NIST SPHERE จากเสียง OPUS

วางไฟล์ต่างๆ​ ที่นี่. 1 GB ขนาดไฟล์สูงสุด หรือ ลงชื่อ
ไปยัง
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

มาตรฐานวิจัยคำพูด

NIST SPHERE จำเป็นสำหรับ ASR toolkits — สร้างไฟล์ที่จัดรูปแบบถูกต้องจากการบันทึก OPUS

เอาต์พุตพร้อมคลังข้อมูล

สร้างไฟล์ SPHERE พร้อมส่วนหัวที่ถูกต้องสำหรับการฝึกและวิเคราะห์รู้จำเสียงพูด

ประมวลผลออนไลน์

ไม่ต้องติดตั้ง toolkit — แปลง OPUS เป็น NIST SPHERE ในเบราว์เซอร์

วิธีแปลง OPUS เป็น NIST

1

เลือกไฟล์จากคอมพิวเตอร์, Google Drive, Dropbox, URL หรือทำการลากไฟล์มาที่หน้า.

2

เลือกรูปแบบไฟล์ nist หรือรูปแบบไฟล์อื่นตามต้องการเป็นผลลัพธ์(รองรับรูปแบบไฟล์มากกว่า 200 รูปแบบ)

3

ปล่อยให้แปลงไฟล์และคุณสามารถดาวน์โหลดไฟล์ nist ของคุณได้หลังจากนั้น

เกี่ยวกับรูปแบบไฟล์

Opus เป็นโคเดกเสียงแบบเปิดที่หลากหลาย ได้รับการกำหนดมาตรฐานโดย IETF ตาม RFC 6716 ในปี 2012 โดยผสมผสานสองแนวทางการเข้ารหัส — SILK สำหรับเสียงพูดและ CELT สำหรับดนตรี — เข้าเป็นอัลกอริทึมเดียวที่ผสานระหว่างสองแบบตามประเภทเนื้อหาและบิตเรต การออกแบบแบบไฮบริดนี้ทำให้ Opus มีประสิทธิภาพเหนือโคเดกอื่นเกือบทั้งหมดในการใช้งานหลากหลายรูปแบบ ตั้งแต่เสียงพูดที่มีเวลาแฝงต่ำที่ 6 kbps ไปจนถึงดนตรีคุณภาพสูงที่ 128 kbps และทุกอย่างที่อยู่ระหว่างนั้น รองรับบิตเรตตั้งแต่ 6 ถึง 510 kbps อัตราสุ่มตัวอย่างสูงสุด 48 kHz และขนาดเฟรมเล็กสุดเพียง 2.5 ms ทำให้มีเวลาแฝงเชิงอัลกอริทึมต่ำที่สุดในบรรดาโคเดกเสียงกระแสหลัก Opus มีข้อดีที่น่าสนใจสามประการ — ปลอดค่าลิขสิทธิ์และเป็นโอเพนซอร์สอย่างสมบูรณ์ ซึ่งขจัดอุปสรรคด้านการอนุญาตที่ขัดขวางโคเดกที่เป็นกรรมสิทธิ์ นอกจากนี้ยังบรรลุคุณภาพที่โปร่งใสที่บิตเรตประมาณครึ่งหนึ่งของ MP3 และเอาชนะ AAC ที่อัตราเทียบเท่า และเวลาแฝงต่ำทำให้เป็นโคเดกบังคับสำหรับ WebRTC ดังนั้นเบราว์เซอร์สมัยใหม่ทุกตัวจึงมาพร้อมตัวถอดรหัส Opus WhatsApp, Discord, Zoom และ YouTube ทั้งหมดใช้ Opus สำหรับเสียงแบบเรียลไทม์
ผู้พัฒนา: Internet Engineering Task Force
เผยแพร่ครั้งแรก: 11 กันยายน 2012
NIST SPHERE (SPeech HEader REsources) เป็นรูปแบบไฟล์เสียงเฉพาะทางที่สร้างโดย สถาบันมาตรฐานและเทคโนโลยีแห่งชาติ สำหรับการวิจัยเสียงพูด โดยเฉพาะโปรเจกต์ที่ได้รับทุนจาก DARPA รูปแบบนี้ห่อหุ้มตัวอย่างเสียงดิบด้วยส่วนหัว ASCII ที่มีโครงสร้างซึ่งเข้ารหัสเมตาดาต้า เช่น อัตราสุ่มตัวอย่าง จำนวนแชนเนล ประเภทการเข้ารหัส ข้อมูลประชากรผู้พูด และคำอธิบายการถอดความ — เหมาะอย่างยิ่งสำหรับการเผยแพร่คอร์ปัสเสียงพูด ไฟล์ NIST มักเก็บ PCM แบบไม่บีบอัดหรือเสียง mu-law ที่อัตราสุ่มตัวอย่างคุณภาพโทรศัพท์ (8 kHz หรือ 16 kHz) แม้คอนเทนเนอร์จะยืดหยุ่นพอรองรับการเข้ารหัสหลายแบบ ข้อดีสำคัญคือส่วนหัวแบบบันทึกตัวเองที่หลากหลาย ช่วยให้นักวิจัยฝังเมตาดาต้าคอร์ปัสโดยละเอียดในไฟล์โดยตรง ไม่ต้องมีไฟล์ข้างเคียง SPHERE ยังกลายเป็นมาตรฐานที่ใช้จริงสำหรับฐานข้อมูลเสียงพูดหลัก ๆ เช่น TIMIT, Switchboard และคอร์ปัส Fisher รับประกันการรับรู้อย่างกว้างขวางในห้องปฏิบัติการทั้งด้านวิชาการและภาครัฐ ข้อกำหนดแบบเปิดและเครื่องมือบรรทัดคำสั่งที่มีให้ (sphere, h_strip, w_decode) ทำให้สามารถแปลง ตรวจสอบ และประมวลผลไฟล์เหล่านี้ทางโปรแกรมได้อย่างตรงไปตรงมาในไปป์ไลน์ประมวลผลเสียงพูด
เผยแพร่ครั้งแรก: 1990

คำถามที่พบบ่อย

ทำไมต้องแปลง OPUS เป็น NIST?

NIST SPHERE จำเป็นสำหรับ speech processing toolkits หลัก การวิจัยภาษาศาสตร์และการฝึก ASR ต้องการเสียงอินพุตรูปแบบ SPHERE

อะไรใช้ NIST?

HTK, Kaldi, เครื่องมือประเมินผลคำพูด NIST และคลังข้อมูลทางวิชาการใช้ SPHERE เป็นรูปแบบเสียงหลัก

NIST เหมือนกับ SPH หรือไม่?

ใช่ — ทั้งสองหมายถึง SPHERE (SPeech HEader Resources) ที่กำหนดโดย National Institute of Standards and Technology

ใช้อัตราตัวอย่างเท่าไร?

SPHERE มักใช้ 8 หรือ 16 kHz — อัตรามาตรฐานสำหรับการวิจัยคำพูดทางโทรศัพท์และแบนด์กว้าง

แปลงเป็นชุดได้ไหม?

อัปโหลดชุดข้อมูลเสียงพูด OPUS ทั้งหมดและแปลงเป็น NIST SPHERE ในชุดเดียว