ตัวแปลง OGG เป็น NIST

สร้างไฟล์ NIST SPHERE สำหรับวิจัยเสียงพูดจาก OGG

วางไฟล์ต่างๆ​ ที่นี่. 1 GB ขนาดไฟล์สูงสุด หรือ ลงชื่อ
ไปยัง
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

มาตรฐานวิจัยเสียงพูด

NIST SPHERE จำเป็นสำหรับชุดเครื่องมือประมวลผลเสียงพูดหลัก — สร้างไฟล์ที่จัดรูปแบบถูกต้องจาก OGG

ผลลัพธ์พร้อมสำหรับคอร์ปัส

สร้างไฟล์ SPHERE พร้อมส่วนหัวที่ถูกต้อง พร้อมสำหรับการฝึกจดจำเสียงพูดและการวิเคราะห์ภาษาศาสตร์

ประมวลผลออนไลน์

ไม่ต้องติดตั้งชุดเครื่องมือเสียงพูด — แปลง OGG เป็น NIST SPHERE ได้ในเบราว์เซอร์โดยตรง

วิธีแปลง OGG เป็น NIST

1

เลือกไฟล์จากคอมพิวเตอร์, Google Drive, Dropbox, URL หรือทำการลากไฟล์มาที่หน้า.

2

เลือกรูปแบบไฟล์ nist หรือรูปแบบไฟล์อื่นตามต้องการเป็นผลลัพธ์(รองรับรูปแบบไฟล์มากกว่า 200 รูปแบบ)

3

ปล่อยให้แปลงไฟล์และคุณสามารถดาวน์โหลดไฟล์ nist ของคุณได้หลังจากนั้น

เกี่ยวกับรูปแบบไฟล์

OGG Vorbis เป็นโคเดกเสียงแบบสูญเสียคุณภาพที่เปิดเผยและปลอดค่าลิขสิทธิ์ ภายในรูปแบบคอนเทนเนอร์ Ogg ซึ่งพัฒนาโดย Xiph.Org Foundation ทั้งคู่ Vorbis ออกแบบมาเป็นทางเลือกที่ปลอดสิทธิบัตรแทน MP3 และ AAC โดยใช้การเข้ารหัส modified discrete cosine transform (MDCT) พร้อมการเข้ารหัสบิตเรตแปรผันที่ปรับตัวตามความซับซ้อนของสัญญาณในแต่ละเฟรม การทดสอบฟังแบบบอดได้แสดงให้เห็นอย่างสม่ำเสมอว่า Vorbis ให้คุณภาพการรับรู้ที่เทียบเท่าหรือเหนือกว่า MP3 โดยเฉพาะในช่วง 96-192 kbps รูปแบบนี้รองรับอัตราสุ่มตัวอย่างตั้งแต่ 8 kHz ถึง 192 kHz และ 1 ถึง 255 ช่องสัญญาณ ครอบคลุมตั้งแต่เสียงโมโนไปจนถึงมิกซ์เซอร์ราวด์ ข้อได้เปรียบที่โดดเด่นคือการไม่มีค่าธรรมเนียมลิขสิทธิ์อย่างสิ้นเชิง — นักพัฒนาเกม แพลตฟอร์มสตรีมมิง และผู้ผลิตฮาร์ดแวร์สามารถนำ Vorbis ไปใช้ได้โดยไม่ต้องกังวลเรื่องค่าลิขสิทธิ์ Spotify ใช้ Vorbis เป็นโคเดกสตรีมมิงหลักมาหลายปีด้วยเหตุผลนี้ รูปแบบนี้ยังจัดการการเสื่อมคุณภาพที่บิตเรตต่ำได้อย่างดีกว่าคู่แข่งหลายราย ซึ่งเป็นเหตุผลที่ยังคงเป็นที่นิยมในวิดีโอเกมที่พื้นที่จัดเก็บมีจำกัดและเอฟเฟกต์เสียงนับพันต้องแข่งกันใช้พื้นที่ VLC, Firefox, Chrome และ Android ทั้งหมดรองรับการถอดรหัส Vorbis โดยตรง
ผู้พัฒนา: Xiph.Org Foundation
เผยแพร่ครั้งแรก: 1 พฤษภาคม 2000
NIST SPHERE (SPeech HEader REsources) เป็นรูปแบบไฟล์เสียงเฉพาะทางที่สร้างโดย สถาบันมาตรฐานและเทคโนโลยีแห่งชาติ สำหรับการวิจัยเสียงพูด โดยเฉพาะโปรเจกต์ที่ได้รับทุนจาก DARPA รูปแบบนี้ห่อหุ้มตัวอย่างเสียงดิบด้วยส่วนหัว ASCII ที่มีโครงสร้างซึ่งเข้ารหัสเมตาดาต้า เช่น อัตราสุ่มตัวอย่าง จำนวนแชนเนล ประเภทการเข้ารหัส ข้อมูลประชากรผู้พูด และคำอธิบายการถอดความ — เหมาะอย่างยิ่งสำหรับการเผยแพร่คอร์ปัสเสียงพูด ไฟล์ NIST มักเก็บ PCM แบบไม่บีบอัดหรือเสียง mu-law ที่อัตราสุ่มตัวอย่างคุณภาพโทรศัพท์ (8 kHz หรือ 16 kHz) แม้คอนเทนเนอร์จะยืดหยุ่นพอรองรับการเข้ารหัสหลายแบบ ข้อดีสำคัญคือส่วนหัวแบบบันทึกตัวเองที่หลากหลาย ช่วยให้นักวิจัยฝังเมตาดาต้าคอร์ปัสโดยละเอียดในไฟล์โดยตรง ไม่ต้องมีไฟล์ข้างเคียง SPHERE ยังกลายเป็นมาตรฐานที่ใช้จริงสำหรับฐานข้อมูลเสียงพูดหลัก ๆ เช่น TIMIT, Switchboard และคอร์ปัส Fisher รับประกันการรับรู้อย่างกว้างขวางในห้องปฏิบัติการทั้งด้านวิชาการและภาครัฐ ข้อกำหนดแบบเปิดและเครื่องมือบรรทัดคำสั่งที่มีให้ (sphere, h_strip, w_decode) ทำให้สามารถแปลง ตรวจสอบ และประมวลผลไฟล์เหล่านี้ทางโปรแกรมได้อย่างตรงไปตรงมาในไปป์ไลน์ประมวลผลเสียงพูด
เผยแพร่ครั้งแรก: 1990

คำถามที่พบบ่อย

ทำไมต้องแปลง OGG เป็น NIST?

NIST SPHERE เป็นรูปแบบมาตรฐานสำหรับชุดข้อมูลวิจัยเสียงพูด เครื่องมือวิจัยภาษาศาสตร์และไปป์ไลน์ฝึก ASR ต้องการเสียงในรูปแบบ SPHERE

โปรแกรมใดใช้ NIST?

HTK, Kaldi, เครื่องมือประเมิน NIST และคอร์ปัสวิจัยเสียงพูดทางวิชาการใช้ SPHERE เป็นรูปแบบเสียงหลัก

NIST เหมือนกับ SPHERE ไหม?

ใช่ — NIST SPHERE (SPeech HEader Resources) ถูกกำหนดโดยสถาบันมาตรฐานและเทคโนโลยีแห่งชาติสำหรับการวิจัยเสียงพูด

NIST รองรับอัตราตัวอย่างเท่าไร?

ไฟล์ SPHERE มักใช้ 8 หรือ 16 kHz — อัตรามาตรฐานสำหรับการวิจัยเสียงพูดแบบโทรศัพท์และแบนด์กว้าง

แปลง OGG เป็น NIST เป็นชุดได้ไหม?

อัปโหลดชุดข้อมูลเสียงพูด OGG ทั้งหมดแล้วแปลงเป็น NIST SPHERE ในครั้งเดียว — พร้อมสำหรับไปป์ไลน์วิจัย