MPEG เป็น HTK ตัวแปลง

ดึงเสียง MPEG เป็นรูปแบบ HTK สำหรับการประมวลผลเสียงพูด

วางไฟล์ต่างๆ​ ที่นี่. 1 GB ขนาดไฟล์สูงสุด หรือ ลงชื่อ
ไปยัง
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

วิดีโอสู่งานวิจัยเสียงพูด

แปลงบทสนทนาวิดีโอ MPEG เป็นรูปแบบ HTK โดยตรง — ไม่มีขั้นตอนกลางระหว่างคลังวิดีโอกับข้อมูลฝึกสอนจดจำเสียงพูด

ประมวลผลบนเซิร์ฟเวอร์

การดึงเสียงและการเข้ารหัส HTK ทำงานบนเซิร์ฟเวอร์ ไม่ต้องติดตั้ง HTK toolkit — อัปโหลดแล้วดาวน์โหลดออนไลน์

ข้อมูลปลอดภัย

ไฟล์ MPEG ที่อัปโหลดจะถูกลบหลังแปลง ไฟล์ HTK จะถูกลบภายใน 24 ชั่วโมง — เสียงงานวิจัยของคุณยังคงเป็นความลับ

วิธีแปลง MPEG เป็น HTK

1

เลือกไฟล์จากคอมพิวเตอร์, Google Drive, Dropbox, URL หรือทำการลากไฟล์มาที่หน้า.

2

เลือกรูปแบบไฟล์ htk หรือรูปแบบไฟล์อื่นตามต้องการเป็นผลลัพธ์(รองรับรูปแบบไฟล์มากกว่า 200 รูปแบบ)

3

ปล่อยให้แปลงไฟล์และคุณสามารถดาวน์โหลดไฟล์ htk ของคุณได้หลังจากนั้น

เกี่ยวกับรูปแบบไฟล์

MPEG (MPEG-1) เป็นมาตรฐานการบีบอัดวิดีโอและเสียงพื้นฐานที่เผยแพร่ในเดือนสิงหาคม 1993 โดย Moving Picture Experts Group ในชื่อ ISO/IEC 11172 เป็นมาตรฐานสากลแรกสำหรับการบีบอัดแบบสูญเสียของภาพเคลื่อนไหวและเสียงประกอบ สร้างหลักการและเทคนิคที่มีอิทธิพลต่อตัวแปลงสัญญาณวิดีโอในยุคต่อมาแทบทั้งหมด วิดีโอ MPEG-1 บีบอัดผ่านการรวมกันของ motion-compensated prediction, discrete cosine transform coding และ variable-length entropy encoding จัดระเบียบรอบเฟรมสามประเภท: I-frames (intra-coded), P-frames (predicted) และ B-frames (bidirectionally predicted) มาตรฐานกำหนดเป้าหมายบิตเรตประมาณ 1.5 Mbps สำหรับเสียงและวิดีโอรวมกัน ให้คุณภาพเทียบเคียงเทป VHS ที่ความละเอียด SIF (352x240 สำหรับ NTSC) ระดับการบีบอัดนี้ถูกเลือกอย่างจำเพาะเพื่อให้ตรงกับปริมาณข้อมูลของไดรฟ์ CD-ROM ความเร็ว 1x ทำให้เกิดรูปแบบ Video CD ที่นำวิดีโอดิจิทัลมาสู่ผู้บริโภคในช่วงต้นทศวรรษ 1990 ส่วนประกอบเสียง โดยเฉพาะ Layer III (MP3) กลายเป็นรูปแบบเสียงที่มีอิทธิพลมากที่สุดในประวัติศาสตร์ โครงสร้างเฟรม I/P/B วิธีการประมาณการเคลื่อนไหว และการเข้ารหัสแปลงแบบบล็อก สร้างแบบแผนสถาปัตยกรรมที่ตัวแปลงสัญญาณวิดีโอหลักทุกตัวในยุคหลังปฏิบัติตาม ตั้งแต่ MPEG-2 จนถึง H.264 และหลังจากนั้น แม้จะถูกแซงหน้าในด้านประสิทธิภาพการบีบอัดมานาน MPEG-1 ยังคงได้รับการรองรับจากซอฟต์แวร์สื่อแทบทั้งหมด
ผู้พัฒนา: Moving Picture Experts Group
เผยแพร่ครั้งแรก: สิงหาคม 1993
HTK เป็นคอนเทนเนอร์รูปคลื่นดั้งเดิมของ Hidden Markov Model Toolkit ชุดซอฟต์แวร์ที่พัฒนาที่ภาควิชาวิศวกรรมของมหาวิทยาลัยเคมบริดจ์สำหรับการวิจัยด้านการรู้จำเสียงพูด เผยแพร่ครั้งแรกในปี 1993 HTK กลายเป็นแพลตฟอร์มอ้างอิงในห้องปฏิบัติการภาษาศาสตร์คอมพิวเตอร์ทั่วโลกอย่างรวดเร็ว และรูปแบบไฟล์ก็ได้รับความนิยมตามไปด้วย แต่ละไฟล์เก็บลำดับเวกเตอร์พารามิเตอร์หรือตัวอย่างดิบนำหน้าด้วยส่วนหัว 12 ไบต์ที่ระบุจำนวนเฟรม คาบเฟรมในหน่วย 100 ns จำนวนไบต์ต่อเฟรม และรหัสประเภทที่ระบุชนิดข้อมูล — ตัวเลือกมีตั้งแต่ waveform PCM ไปจนถึง Mel-frequency cepstral coefficients และพลังงาน filter-bank ความอเนกประสงค์นี้ช่วยให้คอนเทนเนอร์เดียวบรรจุทั้งเสียงต้นทางและคุณลักษณะที่สกัดออกมาโดยไม่ต้องเปลี่ยนตัวแยกวิเคราะห์ ส่วนหัวที่เรียบง่ายอย่างจงใจหลีกเลี่ยง alignment padding หรือ optional chunks ทำให้อ่านรูปแบบจาก C, Python หรือ MATLAB ได้ง่ายด้วยโค้ดไบนารี I/O เพียงไม่กี่บรรทัด ข้อดีสามประการที่สนับสนุนความเกี่ยวข้องอย่างต่อเนื่องของ HTK: การผสานรวมอย่างแน่นแฟ้นกับไปป์ไลน์ฝึกอบรมและรู้จำของ HTK เลย์เอาต์ไบต์ที่แน่นอนซึ่งขจัดความคลุมเครือของตัวแยกวิเคราะห์ และการนำไปใช้อย่างแพร่หลายในคอร์ปัสทางวิชาการ
เผยแพร่ครั้งแรก: 1993

คำถามที่พบบ่อย

ทำไมต้องแปลง MPEG เป็น HTK?

HTK เป็นรูปแบบมาตรฐานสำหรับ Hidden Markov Model Toolkit บทสนทนาในวิดีโอ MPEG กลายเป็นข้อมูลฝึกสอนเสียงพูดที่ใช้งานได้

เสียง HTK คืออะไร?

HTK จัดเก็บเสียง PCM 16-bit ช่องเดียวที่ปรับแต่งสำหรับการประมวลผลเสียงพูด สร้างมาเฉพาะสำหรับชุดเครื่องมือจดจำเสียงพูด Cambridge HTK

เสียงหลายช่องจาก MPEG ทำงานได้หรือไม่?

HTK เป็นโมโนเท่านั้น เสียงหลายช่องจาก MPEG จะถูกรวมเป็นช่องเดียวระหว่างการแปลง — เป็นปกติสำหรับการวิเคราะห์เสียงพูด

คุณภาพเสียงพูดถูกรักษาไว้หรือไม่?

HTK จัดเก็บ PCM 16-bit ที่ไม่บีบอัด บทสนทนาจากวิดีโอ MPEG ยังคงชัดเจน — เพียงพอมากสำหรับการฝึกสอนระบบจดจำ

อะไรอื่นที่อ่านไฟล์ HTK ได้?

นอกจาก HTK Toolkit แล้ว SOX และเครื่องมือวิเคราะห์เสียงพูดเชิงวิชาการต่างๆ สามารถประมวลผลเสียง HTK สำหรับงานวิจัย