MPEG เป็น HTK ตัวแปลง

ดึงเสียง MPEG เป็นรูปแบบ HTK สำหรับการประมวลผลเสียงพูด

เลือกไฟล์ต่างๆ

วางไฟล์ต่างๆ ที่นี่. 1 GB ขนาดไฟล์สูงสุด หรือ ลงชื่อ

ไปยัง

วิดีโอสู่งานวิจัยเสียงพูด

แปลงบทสนทนาวิดีโอ MPEG เป็นรูปแบบ HTK โดยตรง — ไม่มีขั้นตอนกลางระหว่างคลังวิดีโอกับข้อมูลฝึกสอนจดจำเสียงพูด

ประมวลผลบนเซิร์ฟเวอร์

การดึงเสียงและการเข้ารหัส HTK ทำงานบนเซิร์ฟเวอร์ ไม่ต้องติดตั้ง HTK toolkit — อัปโหลดแล้วดาวน์โหลดออนไลน์

ข้อมูลปลอดภัย

ไฟล์ MPEG ที่อัปโหลดจะถูกลบหลังแปลง ไฟล์ HTK จะถูกลบภายใน 24 ชั่วโมง — เสียงงานวิจัยของคุณยังคงเป็นความลับ

วิธีแปลง MPEG เป็น HTK

เลือกไฟล์จากคอมพิวเตอร์, Google Drive, Dropbox, URL หรือทำการลากไฟล์มาที่หน้า.

เลือกรูปแบบไฟล์ htk หรือรูปแบบไฟล์อื่นตามต้องการเป็นผลลัพธ์(รองรับรูปแบบไฟล์มากกว่า 200 รูปแบบ)

ปล่อยให้แปลงไฟล์และคุณสามารถดาวน์โหลดไฟล์ htk ของคุณได้หลังจากนั้น

เกี่ยวกับรูปแบบไฟล์

MPEG (MPEG-1) เป็นมาตรฐานการบีบอัดวิดีโอและเสียงพื้นฐานที่เผยแพร่ในเดือนสิงหาคม 1993 โดย Moving Picture Experts Group ในชื่อ ISO/IEC 11172 เป็นมาตรฐานสากลแรกสำหรับการบีบอัดแบบสูญเสียของภาพเคลื่อนไหวและเสียงประกอบ สร้างหลักการและเทคนิคที่มีอิทธิพลต่อตัวแปลงสัญญาณวิดีโอในยุคต่อมาแทบทั้งหมด วิดีโอ MPEG-1 บีบอัดผ่านการรวมกันของ motion-compensated prediction, discrete cosine transform coding และ variable-length entropy encoding จัดระเบียบรอบเฟรมสามประเภท: I-frames (intra-coded), P-frames (predicted) และ B-frames (bidirectionally predicted) มาตรฐานกำหนดเป้าหมายบิตเรตประมาณ 1.5 Mbps สำหรับเสียงและวิดีโอรวมกัน ให้คุณภาพเทียบเคียงเทป VHS ที่ความละเอียด SIF (352x240 สำหรับ NTSC) ระดับการบีบอัดนี้ถูกเลือกอย่างจำเพาะเพื่อให้ตรงกับปริมาณข้อมูลของไดรฟ์ CD-ROM ความเร็ว 1x ทำให้เกิดรูปแบบ Video CD ที่นำวิดีโอดิจิทัลมาสู่ผู้บริโภคในช่วงต้นทศวรรษ 1990 ส่วนประกอบเสียง โดยเฉพาะ Layer III (MP3) กลายเป็นรูปแบบเสียงที่มีอิทธิพลมากที่สุดในประวัติศาสตร์ โครงสร้างเฟรม I/P/B วิธีการประมาณการเคลื่อนไหว และการเข้ารหัสแปลงแบบบล็อก สร้างแบบแผนสถาปัตยกรรมที่ตัวแปลงสัญญาณวิดีโอหลักทุกตัวในยุคหลังปฏิบัติตาม ตั้งแต่ MPEG-2 จนถึง H.264 และหลังจากนั้น แม้จะถูกแซงหน้าในด้านประสิทธิภาพการบีบอัดมานาน MPEG-1 ยังคงได้รับการรองรับจากซอฟต์แวร์สื่อแทบทั้งหมด

ผู้พัฒนา: Moving Picture Experts Group

เผยแพร่ครั้งแรก: สิงหาคม 1993

HTK เป็นคอนเทนเนอร์รูปคลื่นดั้งเดิมของ Hidden Markov Model Toolkit ชุดซอฟต์แวร์ที่พัฒนาที่ภาควิชาวิศวกรรมของมหาวิทยาลัยเคมบริดจ์สำหรับการวิจัยด้านการรู้จำเสียงพูด เผยแพร่ครั้งแรกในปี 1993 HTK กลายเป็นแพลตฟอร์มอ้างอิงในห้องปฏิบัติการภาษาศาสตร์คอมพิวเตอร์ทั่วโลกอย่างรวดเร็ว และรูปแบบไฟล์ก็ได้รับความนิยมตามไปด้วย แต่ละไฟล์เก็บลำดับเวกเตอร์พารามิเตอร์หรือตัวอย่างดิบนำหน้าด้วยส่วนหัว 12 ไบต์ที่ระบุจำนวนเฟรม คาบเฟรมในหน่วย 100 ns จำนวนไบต์ต่อเฟรม และรหัสประเภทที่ระบุชนิดข้อมูล — ตัวเลือกมีตั้งแต่ waveform PCM ไปจนถึง Mel-frequency cepstral coefficients และพลังงาน filter-bank ความอเนกประสงค์นี้ช่วยให้คอนเทนเนอร์เดียวบรรจุทั้งเสียงต้นทางและคุณลักษณะที่สกัดออกมาโดยไม่ต้องเปลี่ยนตัวแยกวิเคราะห์ ส่วนหัวที่เรียบง่ายอย่างจงใจหลีกเลี่ยง alignment padding หรือ optional chunks ทำให้อ่านรูปแบบจาก C, Python หรือ MATLAB ได้ง่ายด้วยโค้ดไบนารี I/O เพียงไม่กี่บรรทัด ข้อดีสามประการที่สนับสนุนความเกี่ยวข้องอย่างต่อเนื่องของ HTK: การผสานรวมอย่างแน่นแฟ้นกับไปป์ไลน์ฝึกอบรมและรู้จำของ HTK เลย์เอาต์ไบต์ที่แน่นอนซึ่งขจัดความคลุมเครือของตัวแยกวิเคราะห์ และการนำไปใช้อย่างแพร่หลายในคอร์ปัสทางวิชาการ

ผู้พัฒนา: Cambridge University Engineering Department

เผยแพร่ครั้งแรก: 1993

คำถามที่พบบ่อย

ทำไมต้องแปลง MPEG เป็น HTK?

HTK เป็นรูปแบบมาตรฐานสำหรับ Hidden Markov Model Toolkit บทสนทนาในวิดีโอ MPEG กลายเป็นข้อมูลฝึกสอนเสียงพูดที่ใช้งานได้

เสียง HTK คืออะไร?

HTK จัดเก็บเสียง PCM 16-bit ช่องเดียวที่ปรับแต่งสำหรับการประมวลผลเสียงพูด สร้างมาเฉพาะสำหรับชุดเครื่องมือจดจำเสียงพูด Cambridge HTK

เสียงหลายช่องจาก MPEG ทำงานได้หรือไม่?

HTK เป็นโมโนเท่านั้น เสียงหลายช่องจาก MPEG จะถูกรวมเป็นช่องเดียวระหว่างการแปลง — เป็นปกติสำหรับการวิเคราะห์เสียงพูด

คุณภาพเสียงพูดถูกรักษาไว้หรือไม่?

HTK จัดเก็บ PCM 16-bit ที่ไม่บีบอัด บทสนทนาจากวิดีโอ MPEG ยังคงชัดเจน — เพียงพอมากสำหรับการฝึกสอนระบบจดจำ

อะไรอื่นที่อ่านไฟล์ HTK ได้?

นอกจาก HTK Toolkit แล้ว SOX และเครื่องมือวิเคราะห์เสียงพูดเชิงวิชาการต่างๆ สามารถประมวลผลเสียง HTK สำหรับงานวิจัย

การแปลงที่เกี่ยวข้อง

MPEG เป็น MP3

MPEG เป็น WAV

MPEG เป็น MP4

MPEG เป็น OGG

MPEG เป็น M4A

MPEG เป็น WMA

MPEG เป็น GIF

MPEG เป็น AAC

MPEG เป็น FLAC

MPEG เป็น AVI

MPEG เป็น M4R

MPEG เป็น AIFF

MPEG เป็น MJPEG

MPEG เป็น MOV

MPEG เป็น WMV

MPEG เป็น AMR

MPEG เป็น OPUS

MPEG เป็น DIVX

MPEG เป็น GSM

MPEG เป็น 3GP

MPEG เป็น AV1

MPEG เป็น AC3

MPEG เป็น MP2

MPEG เป็น WEBM

MPEG เป็น FLV

MPEG เป็น VOB

MPEG เป็น CDDA

MPEG เป็น AU

MPEG เป็น M4V

MPEG เป็น XVID

MPEG เป็น MKV

MPEG เป็น DTS

MPEG เป็น TS

MPEG เป็น AVCHD

MPEG เป็น W64

MPEG เป็น HEVC

MPEG เป็น OGV

MPEG เป็น SWF

MPEG เป็น M2V

MPEG เป็น SLN

MPEG เป็น F4V

MPEG เป็น ASF

MPEG เป็น VOX

MPEG เป็น WV

MPEG เป็น SPX

MPEG เป็น 8SVX

MPEG เป็น CAF

MPEG เป็น 3G2

MPEG เป็น RMVB

MPEG เป็น VOC

MPEG เป็น MTS

MPEG เป็น CVS

MPEG เป็น OGA

MPEG เป็น SD2

MPEG เป็น RA

MPEG เป็น WVE

MPEG เป็น AMB

MPEG เป็น AVR

MPEG เป็น MXF

MPEG เป็น GSRT

ตัวแปลงเฉพาะ

MP3 เป็น HTK

WAV เป็น HTK

MP4 เป็น HTK

FLAC เป็น HTK

M4A เป็น HTK

OGG เป็น HTK

MPG เป็น HTK

ASF เป็น HTK

AAC เป็น HTK

3G2 เป็น HTK

3GP เป็น HTK

AAF เป็น HTK

AV1 เป็น HTK

AVCHD เป็น HTK

AVI เป็น HTK

CAVS เป็น HTK

DIVX เป็น HTK

DV เป็น HTK

F4V เป็น HTK

FLV เป็น HTK

HEVC เป็น HTK

M2TS เป็น HTK

M2V เป็น HTK

M4V เป็น HTK

MJPEG เป็น HTK

MKV เป็น HTK

MOD เป็น HTK

MOV เป็น HTK

MPEG เป็น HTK

MPEG-2 เป็น HTK