ตัวแปลง WMA เป็น HTK

สร้างเสียงสำหรับการประมวลผลคำพูด HTK จาก WMA

วางไฟล์ต่างๆ​ ที่นี่. 1 GB ขนาดไฟล์สูงสุด หรือ ลงชื่อ
ไปยัง
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

รูปแบบฝึก ASR

HTK เป็นมาตรฐานสำหรับการจดจำเสียงพูด — แปลงบันทึกเสียง WMA สำหรับงานวิจัย

ประมวลผลข้อมูล

อัปโหลดชุดข้อมูล WMA ทั้งหมดและสร้างเสียง HTK สำหรับทุกไฟล์

แปลงออนไลน์

ไม่ต้องติดตั้งชุดเครื่องมือ HTK — แปลง WMA เป็น HTK ในเบราว์เซอร์

วิธีแปลง WMA เป็น HTK

1

เลือกไฟล์จากคอมพิวเตอร์, Google Drive, Dropbox, URL หรือทำการลากไฟล์มาที่หน้า.

2

เลือกรูปแบบไฟล์ htk หรือรูปแบบไฟล์อื่นตามต้องการเป็นผลลัพธ์(รองรับรูปแบบไฟล์มากกว่า 200 รูปแบบ)

3

ปล่อยให้แปลงไฟล์และคุณสามารถดาวน์โหลดไฟล์ htk ของคุณได้หลังจากนั้น

เกี่ยวกับรูปแบบไฟล์

WMA (Windows Media Audio) เป็นตระกูลโคเดกเสียงที่เป็นกรรมสิทธิ์ พัฒนาโดย Microsoft และเปิดตัวครั้งแรกในปี 1999 เป็นส่วนหนึ่งของเฟรมเวิร์ก Windows Media สร้างขึ้นเพื่อแข่งขันกับ MP3 และ AAC โดย WMA Standard ใช้การเข้ารหัสเชิงการรับรู้เพื่อให้คุณภาพใกล้เคียง CD ที่บิตเรตต่ำสุด 64 kbps — ประมาณครึ่งหนึ่งของอัตราข้อมูลที่ MP3 ต้องการสำหรับผลลัพธ์ที่เทียบเคียงได้ ตระกูลโคเดกขยายตัวรวมถึง WMA Professional สำหรับเสียงรอบทิศทางและความละเอียดสูง WMA Lossless สำหรับการบีบอัดแบบไม่สูญเสียคุณภาพสำหรับเก็บถาวร และ WMA Voice ที่ปรับแต่งสำหรับเนื้อหาเสียงพูดที่บิตเรตต่ำมาก การผสานรวมอย่างลึกซึ้งกับ Windows, Windows Media Player และระบบนิเวศ Zune ทำให้ WMA มีข้อได้เปรียบด้านการเผยแพร่ตลอดทศวรรษ 2000 และการรองรับการจัดการสิทธิ์ดิจิทัล (DRM) ทำให้เป็นที่น่าสนใจสำหรับร้านขายเพลงออนไลน์ในยุคนั้น การเข้ารหัสและถอดรหัสจัดการโดย Windows โดยตรง ไม่ต้องใช้ซอฟต์แวร์บุคคลที่สามสำหรับการเล่นบนเครื่อง Windows ใดๆ การรองรับข้ามแพลตฟอร์มดีขึ้นผ่านไลบรารีเช่น FFmpeg และ GStreamer แม้ว่า WMA จะยังเข้ากันได้น้อยกว่า MP3 หรือ AAC บนอุปกรณ์ที่ไม่ใช่ของ Microsoft รูปแบบนี้ยังคงปรากฏในไลบรารีสื่อเก่า แม้โคเดกรุ่นใหม่จะเข้ามาแทนที่เป็นส่วนใหญ่สำหรับการสตรีมและการใช้งานพกพา
ผู้พัฒนา: Microsoft Corporation
เผยแพร่ครั้งแรก: 1999
HTK เป็นคอนเทนเนอร์รูปคลื่นดั้งเดิมของ Hidden Markov Model Toolkit ชุดซอฟต์แวร์ที่พัฒนาที่ภาควิชาวิศวกรรมของมหาวิทยาลัยเคมบริดจ์สำหรับการวิจัยด้านการรู้จำเสียงพูด เผยแพร่ครั้งแรกในปี 1993 HTK กลายเป็นแพลตฟอร์มอ้างอิงในห้องปฏิบัติการภาษาศาสตร์คอมพิวเตอร์ทั่วโลกอย่างรวดเร็ว และรูปแบบไฟล์ก็ได้รับความนิยมตามไปด้วย แต่ละไฟล์เก็บลำดับเวกเตอร์พารามิเตอร์หรือตัวอย่างดิบนำหน้าด้วยส่วนหัว 12 ไบต์ที่ระบุจำนวนเฟรม คาบเฟรมในหน่วย 100 ns จำนวนไบต์ต่อเฟรม และรหัสประเภทที่ระบุชนิดข้อมูล — ตัวเลือกมีตั้งแต่ waveform PCM ไปจนถึง Mel-frequency cepstral coefficients และพลังงาน filter-bank ความอเนกประสงค์นี้ช่วยให้คอนเทนเนอร์เดียวบรรจุทั้งเสียงต้นทางและคุณลักษณะที่สกัดออกมาโดยไม่ต้องเปลี่ยนตัวแยกวิเคราะห์ ส่วนหัวที่เรียบง่ายอย่างจงใจหลีกเลี่ยง alignment padding หรือ optional chunks ทำให้อ่านรูปแบบจาก C, Python หรือ MATLAB ได้ง่ายด้วยโค้ดไบนารี I/O เพียงไม่กี่บรรทัด ข้อดีสามประการที่สนับสนุนความเกี่ยวข้องอย่างต่อเนื่องของ HTK: การผสานรวมอย่างแน่นแฟ้นกับไปป์ไลน์ฝึกอบรมและรู้จำของ HTK เลย์เอาต์ไบต์ที่แน่นอนซึ่งขจัดความคลุมเครือของตัวแยกวิเคราะห์ และการนำไปใช้อย่างแพร่หลายในคอร์ปัสทางวิชาการ
เผยแพร่ครั้งแรก: 1993

คำถามที่พบบ่อย

ทำไมต้องแปลง WMA เป็น HTK?

รูปแบบ HTK จำเป็นสำหรับการฝึกระบบจดจำเสียงพูด HMM ชุดเครื่องมือ HTK ไม่สามารถใช้ WMA โดยตรง

อะไรใช้ HTK?

ชุดเครื่องมือ Cambridge HTK, Kaldi และท่อส่งงานวิจัย ASR ใช้เสียงรูปแบบ HTK

รูปแบบมีผลต่อ ASR ไหม?

ใช่ — เครื่องมือ HTK ต้องการรูปแบบ PCM เฉพาะพร้อมส่วนหัวที่กำหนดเองสำหรับการฝึกโมเดล

ใช้อัตราตัวอย่างเท่าไหร่?

งาน ASR ส่วนใหญ่ใช้ 8 หรือ 16 kHz โมโน — ปรับจาก WMA โดยอัตโนมัติ

แปลงชุดข้อมูลได้ไหม?

อัปโหลดชุดข้อมูลเสียงพูด WMA ทั้งหมดและแปลงเป็น HTK ในชุดเดียว