ตัวแปลง MP3 เป็น NIST

สร้างรูปแบบเสียง NIST Sphere จากไฟล์ MP3

วางไฟล์ต่างๆ​ ที่นี่. 1 GB ขนาดไฟล์สูงสุด หรือ ลงชื่อ
ไปยัง
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

มาตรฐานการวิจัยเสียงพูด

NIST Sphere คือมาตรฐานทองสำหรับ ASR และการวิจัยเสียงพูด — แปลงไฟล์บันทึก MP3 ของคุณเพื่อใช้ใน corpus ทางภาษาศาสตร์

Metadata ส่วนหัวที่สมบูรณ์

ไฟล์ NIST มีข้อมูลผู้พูด ช่องสัญญาณ และ corpus — สำคัญสำหรับชุดข้อมูลวิจัยเสียงพูดที่จัดระเบียบ

การเข้ารหัสบนคลาวด์

การแปลงทำงานบนเซิร์ฟเวอร์ของเรา ไม่ต้องติดตั้ง HTK, Kaldi หรือ SoX เพื่อสร้างเสียงในรูปแบบ NIST

วิธีแปลง MP3 เป็น NIST

1

เลือกไฟล์จากคอมพิวเตอร์, Google Drive, Dropbox, URL หรือทำการลากไฟล์มาที่หน้า.

2

เลือกรูปแบบไฟล์ nist หรือรูปแบบไฟล์อื่นตามต้องการเป็นผลลัพธ์(รองรับรูปแบบไฟล์มากกว่า 200 รูปแบบ)

3

ปล่อยให้แปลงไฟล์และคุณสามารถดาวน์โหลดไฟล์ nist ของคุณได้หลังจากนั้น

เกี่ยวกับรูปแบบไฟล์

MP3 (MPEG-1 Audio Layer III) เป็นหนึ่งในรูปแบบเข้ารหัสเสียงดิจิทัลที่ใช้กันอย่างแพร่หลายที่สุด ใช้การบีบอัดข้อมูลแบบสูญเสียเพื่อลดขนาดไฟล์อย่างมีนัยสำคัญในขณะที่ยังคงรักษาคุณภาพเสียงใกล้เคียงระดับ CD โดยทั่วไปบรรลุอัตราส่วนการบีบอัด 10:1 พัฒนาโดย Fraunhofer Society ร่วมกับนักวิทยาศาสตร์ดิจิทัลคนอื่น ๆ รูปแบบนี้กลายเป็นมาตรฐานสากลในปี 1993 ในฐานะส่วนหนึ่งของข้อกำหนด MPEG-1 ไฟล์ MP3 สามารถเข้ารหัสได้ที่บิตเรตต่าง ๆ โดยทั่วไปตั้งแต่ 128 kbps ถึง 320 kbps ให้ผู้ใช้สร้างสมดุลระหว่างขนาดไฟล์และความเที่ยงตรงของเสียง การบีบอัดที่มีประสิทธิภาพ ความเข้ากันได้กับอุปกรณ์อย่างกว้างขวาง และขนาดไฟล์ที่เล็กทำให้ MP3 เป็นแรงขับเคลื่อนเบื้องหลังการปฏิวัติเพลงดิจิทัล ช่วยให้สามารถจัดเก็บและเผยแพร่เพลงผ่านอินเทอร์เน็ตได้อย่างสะดวก ปัจจุบัน MP3 ยังคงเป็นหนึ่งในรูปแบบเสียงที่ได้รับการรองรับอย่างทั่วถึงที่สุดในเครื่องเล่นสื่อ ระบบปฏิบัติการ และอุปกรณ์พกพาแทบทุกชนิด
ผู้พัฒนา: Fraunhofer Society
เผยแพร่ครั้งแรก: 6 ธันวาคม 1991
NIST SPHERE (SPeech HEader REsources) เป็นรูปแบบไฟล์เสียงเฉพาะทางที่สร้างโดย สถาบันมาตรฐานและเทคโนโลยีแห่งชาติ สำหรับการวิจัยเสียงพูด โดยเฉพาะโปรเจกต์ที่ได้รับทุนจาก DARPA รูปแบบนี้ห่อหุ้มตัวอย่างเสียงดิบด้วยส่วนหัว ASCII ที่มีโครงสร้างซึ่งเข้ารหัสเมตาดาต้า เช่น อัตราสุ่มตัวอย่าง จำนวนแชนเนล ประเภทการเข้ารหัส ข้อมูลประชากรผู้พูด และคำอธิบายการถอดความ — เหมาะอย่างยิ่งสำหรับการเผยแพร่คอร์ปัสเสียงพูด ไฟล์ NIST มักเก็บ PCM แบบไม่บีบอัดหรือเสียง mu-law ที่อัตราสุ่มตัวอย่างคุณภาพโทรศัพท์ (8 kHz หรือ 16 kHz) แม้คอนเทนเนอร์จะยืดหยุ่นพอรองรับการเข้ารหัสหลายแบบ ข้อดีสำคัญคือส่วนหัวแบบบันทึกตัวเองที่หลากหลาย ช่วยให้นักวิจัยฝังเมตาดาต้าคอร์ปัสโดยละเอียดในไฟล์โดยตรง ไม่ต้องมีไฟล์ข้างเคียง SPHERE ยังกลายเป็นมาตรฐานที่ใช้จริงสำหรับฐานข้อมูลเสียงพูดหลัก ๆ เช่น TIMIT, Switchboard และคอร์ปัส Fisher รับประกันการรับรู้อย่างกว้างขวางในห้องปฏิบัติการทั้งด้านวิชาการและภาครัฐ ข้อกำหนดแบบเปิดและเครื่องมือบรรทัดคำสั่งที่มีให้ (sphere, h_strip, w_decode) ทำให้สามารถแปลง ตรวจสอบ และประมวลผลไฟล์เหล่านี้ทางโปรแกรมได้อย่างตรงไปตรงมาในไปป์ไลน์ประมวลผลเสียงพูด
เผยแพร่ครั้งแรก: 1990

คำถามที่พบบ่อย

ทำไมต้องแปลง MP3 เป็น NIST?

NIST Sphere คือรูปแบบมาตรฐานสำหรับ corpus วิจัยเสียงพูด โปรเจกต์อย่าง TIMIT, Switchboard และชุดข้อมูล LDC ใช้ NIST สำหรับข้อมูลเสียงพูด

อะไรอ่านไฟล์ NIST ได้?

HTK, Kaldi, Praat, SoX และ toolkit การรู้จำเสียงพูดส่วนใหญ่รองรับไฟล์ NIST Sphere โดยตรง รูปแบบนี้เป็นมาตรฐานในการวิจัย ASR

NIST เหมาะสำหรับดนตรีไหม?

ไม่ — NIST Sphere ออกแบบมาสำหรับข้อมูลเสียงพูดพร้อม metadata ส่วนหัวที่สมบูรณ์ ใช้เฉพาะในการวิจัยด้านภาษาศาสตร์และการรู้จำเสียงพูด

NIST มี metadata อะไรบ้าง?

ส่วนหัว Sphere มีข้อมูลเกี่ยวกับผู้พูด ข้อมูลช่องสัญญาณ sample rate และฟิลด์ metadata อื่น ๆ ที่เกี่ยวข้องกับการจัดการ corpus เสียงพูด

แปลงไฟล์บันทึกเป็นชุดได้ไหม?

ได้ อัปโหลดไฟล์บันทึกเสียงพูด MP3 หลายไฟล์และแปลงทั้งหมดเป็นรูปแบบ NIST Sphere ในการดำเนินการเดียว

MP3 ถึง NIST คะแนนคุณภาพ

4.5 (16 คะแนน)
คุณต้องแปลงและดาวน์โหลดไฟล์อย่างน้อย 1 ไฟล์เพื่อให้ข้อเสนอแนะ!