ตัวแปลง OPUS เป็น HTK

สร้างเสียงประมวลผลคำพูด HTK จาก OPUS

วางไฟล์ต่างๆ​ ที่นี่. 1 GB ขนาดไฟล์สูงสุด หรือ ลงชื่อ
ไปยัง
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

รูปแบบฝึก ASR

HTK เป็นมาตรฐานสำหรับรู้จำเสียงพูด HMM — แปลงบันทึกเสียง OPUS สำหรับไปป์ไลน์วิจัย

ประมวลผลชุดข้อมูล

อัปโหลดชุดข้อมูลคำพูด OPUS ทั้งหมดแล้วสร้างเสียง HTK สำหรับทุกไฟล์พร้อมกัน

แปลงออนไลน์

ไม่ต้องติดตั้ง HTK toolkit — สร้างเสียงรูปแบบที่ต้องการจาก OPUS ในเบราว์เซอร์

วิธีแปลง OPUS เป็น HTK

1

เลือกไฟล์จากคอมพิวเตอร์, Google Drive, Dropbox, URL หรือทำการลากไฟล์มาที่หน้า.

2

เลือกรูปแบบไฟล์ htk หรือรูปแบบไฟล์อื่นตามต้องการเป็นผลลัพธ์(รองรับรูปแบบไฟล์มากกว่า 200 รูปแบบ)

3

ปล่อยให้แปลงไฟล์และคุณสามารถดาวน์โหลดไฟล์ htk ของคุณได้หลังจากนั้น

เกี่ยวกับรูปแบบไฟล์

Opus เป็นโคเดกเสียงแบบเปิดที่หลากหลาย ได้รับการกำหนดมาตรฐานโดย IETF ตาม RFC 6716 ในปี 2012 โดยผสมผสานสองแนวทางการเข้ารหัส — SILK สำหรับเสียงพูดและ CELT สำหรับดนตรี — เข้าเป็นอัลกอริทึมเดียวที่ผสานระหว่างสองแบบตามประเภทเนื้อหาและบิตเรต การออกแบบแบบไฮบริดนี้ทำให้ Opus มีประสิทธิภาพเหนือโคเดกอื่นเกือบทั้งหมดในการใช้งานหลากหลายรูปแบบ ตั้งแต่เสียงพูดที่มีเวลาแฝงต่ำที่ 6 kbps ไปจนถึงดนตรีคุณภาพสูงที่ 128 kbps และทุกอย่างที่อยู่ระหว่างนั้น รองรับบิตเรตตั้งแต่ 6 ถึง 510 kbps อัตราสุ่มตัวอย่างสูงสุด 48 kHz และขนาดเฟรมเล็กสุดเพียง 2.5 ms ทำให้มีเวลาแฝงเชิงอัลกอริทึมต่ำที่สุดในบรรดาโคเดกเสียงกระแสหลัก Opus มีข้อดีที่น่าสนใจสามประการ — ปลอดค่าลิขสิทธิ์และเป็นโอเพนซอร์สอย่างสมบูรณ์ ซึ่งขจัดอุปสรรคด้านการอนุญาตที่ขัดขวางโคเดกที่เป็นกรรมสิทธิ์ นอกจากนี้ยังบรรลุคุณภาพที่โปร่งใสที่บิตเรตประมาณครึ่งหนึ่งของ MP3 และเอาชนะ AAC ที่อัตราเทียบเท่า และเวลาแฝงต่ำทำให้เป็นโคเดกบังคับสำหรับ WebRTC ดังนั้นเบราว์เซอร์สมัยใหม่ทุกตัวจึงมาพร้อมตัวถอดรหัส Opus WhatsApp, Discord, Zoom และ YouTube ทั้งหมดใช้ Opus สำหรับเสียงแบบเรียลไทม์
ผู้พัฒนา: Internet Engineering Task Force
เผยแพร่ครั้งแรก: 11 กันยายน 2012
HTK เป็นคอนเทนเนอร์รูปคลื่นดั้งเดิมของ Hidden Markov Model Toolkit ชุดซอฟต์แวร์ที่พัฒนาที่ภาควิชาวิศวกรรมของมหาวิทยาลัยเคมบริดจ์สำหรับการวิจัยด้านการรู้จำเสียงพูด เผยแพร่ครั้งแรกในปี 1993 HTK กลายเป็นแพลตฟอร์มอ้างอิงในห้องปฏิบัติการภาษาศาสตร์คอมพิวเตอร์ทั่วโลกอย่างรวดเร็ว และรูปแบบไฟล์ก็ได้รับความนิยมตามไปด้วย แต่ละไฟล์เก็บลำดับเวกเตอร์พารามิเตอร์หรือตัวอย่างดิบนำหน้าด้วยส่วนหัว 12 ไบต์ที่ระบุจำนวนเฟรม คาบเฟรมในหน่วย 100 ns จำนวนไบต์ต่อเฟรม และรหัสประเภทที่ระบุชนิดข้อมูล — ตัวเลือกมีตั้งแต่ waveform PCM ไปจนถึง Mel-frequency cepstral coefficients และพลังงาน filter-bank ความอเนกประสงค์นี้ช่วยให้คอนเทนเนอร์เดียวบรรจุทั้งเสียงต้นทางและคุณลักษณะที่สกัดออกมาโดยไม่ต้องเปลี่ยนตัวแยกวิเคราะห์ ส่วนหัวที่เรียบง่ายอย่างจงใจหลีกเลี่ยง alignment padding หรือ optional chunks ทำให้อ่านรูปแบบจาก C, Python หรือ MATLAB ได้ง่ายด้วยโค้ดไบนารี I/O เพียงไม่กี่บรรทัด ข้อดีสามประการที่สนับสนุนความเกี่ยวข้องอย่างต่อเนื่องของ HTK: การผสานรวมอย่างแน่นแฟ้นกับไปป์ไลน์ฝึกอบรมและรู้จำของ HTK เลย์เอาต์ไบต์ที่แน่นอนซึ่งขจัดความคลุมเครือของตัวแยกวิเคราะห์ และการนำไปใช้อย่างแพร่หลายในคอร์ปัสทางวิชาการ
เผยแพร่ครั้งแรก: 1993

คำถามที่พบบ่อย

ทำไมต้องแปลง OPUS เป็น HTK?

รูปแบบ HTK จำเป็นสำหรับ Hidden Markov Model Toolkit สำหรับฝึก ASR นักวิจัยด้านคำพูดต้องการข้อมูลอินพุตรูปแบบ HTK

อะไรใช้ HTK?

Cambridge HTK toolkit, Kaldi และไปป์ไลน์วิจัยรู้จำเสียงพูดใช้เสียงรูปแบบ HTK

HTK เป็นรูปแบบทั่วไปไหม?

HTK เฉพาะทางสำหรับวิจัยประมวลผลคำพูด — เป็นรูปแบบ PCM 16 บิตพร้อมส่วนหัวที่กำหนดเอง ไม่ใช่เสียงทั่วไป

ควรใช้อัตราตัวอย่างเท่าไร?

งาน ASR ส่วนใหญ่ใช้ 8 หรือ 16 kHz โมโน — ตัวแปลงจัดการการ resample จาก OPUS โดยอัตโนมัติ

แปลงชุดข้อมูลได้ไหม?

อัปโหลดชุดข้อมูลคำพูด OPUS ทั้งหมดแล้วแปลงเป็น HTK ในครั้งเดียว — พร้อมสำหรับฝึกโมเดล