ตัวแปลง WEBM เป็น NIST

สร้างเสียง NIST SPHERE จากไฟล์วิดีโอ WebM ออนไลน์

วางไฟล์ต่างๆ​ ที่นี่. 1 GB ขนาดไฟล์สูงสุด หรือ ลงชื่อ
ไปยัง
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

มาตรฐานวิจัย

NIST SPHERE เป็นวิธีเผยแพร่เสียงพูดในงานวิจัย เนื้อหาเว็บ WebM แปลงเป็นข้อมูลที่จัดรูปแบบอย่างถูกต้องสำหรับการพัฒนา ASR

บนเบราว์เซอร์

ไม่ต้องใช้ชุดเครื่องมือ SPHERE หรือตัวถอดรหัส WebM บนเครื่อง แปลงทั้งหมดผ่านเบราว์เซอร์บนอุปกรณ์หรือระบบปฏิบัติการใดก็ได้

ความปลอดภัยข้อมูล

ไฟล์ WebM ที่อัปโหลดจะถูกลบหลังแปลง ไฟล์ NIST เอาต์พุตจะถูกลบภายใน 24 ชั่วโมง — ข้อมูลเสียงพูดวิจัยยังคงเป็นความลับ

วิธีแปลง WEBM เป็น NIST

1

เลือกไฟล์จากคอมพิวเตอร์, Google Drive, Dropbox, URL หรือทำการลากไฟล์มาที่หน้า.

2

เลือกรูปแบบไฟล์ nist หรือรูปแบบไฟล์อื่นตามต้องการเป็นผลลัพธ์(รองรับรูปแบบไฟล์มากกว่า 200 รูปแบบ)

3

ปล่อยให้แปลงไฟล์และคุณสามารถดาวน์โหลดไฟล์ nist ของคุณได้หลังจากนั้น

เกี่ยวกับรูปแบบไฟล์

WebM เป็นรูปแบบคอนเทนเนอร์มัลติมีเดียแบบเปิดและปลอดค่าลิขสิทธิ์ที่พัฒนาโดย Google และเปิดตัวในงาน Google I/O ในเดือนพฤษภาคม 2010 รูปแบบนี้จับคู่คอนเทนเนอร์ Matroska (ชุดย่อยของ MKV) กับตัวแปลงสัญญาณวิดีโอ VP8 หรือ VP9 และตัวแปลงสัญญาณเสียง Vorbis หรือ Opus สร้างสแต็กสื่อแบบเปิดอย่างสมบูรณ์ที่ออกแบบเฉพาะสำหรับใช้งานบนเว็บ Google เปิดตัว WebM พร้อมกับตัวแปลงสัญญาณ VP8 ภายใต้ใบอนุญาตแบบ BSD ที่ผ่อนปรน ลบอุปสรรคด้านสิทธิบัตรและค่าลิขสิทธิ์ที่กีดขวางการนำ H.264 มาใช้สำหรับวิดีโอเว็บเปิด คอนเทนเนอร์ WebM สืบทอดโครงสร้างไบนารีที่มีประสิทธิภาพของ Matroska ในขณะที่จำกัดไว้เฉพาะโปรไฟล์ที่ปรับให้เหมาะกับเว็บ ทำให้แยกวิเคราะห์ได้รวดเร็วและใช้งานในเบราว์เซอร์ได้เบา WebM กับ VP9 ให้ประสิทธิภาพการบีบอัดที่แข่งขันได้กับ H.264 High Profile และเข้าใกล้ HEVC ทำให้สามารถส่งวิดีโอคุณภาพสูงที่แบนด์วิดท์ที่ลดลงได้จริง เว็บเบราว์เซอร์หลัก ได้แก่ Chrome, Firefox, Edge และ Opera รองรับการเล่น WebM โดยตรง และ YouTube ใช้ VP9 ใน WebM เป็นรูปแบบการส่งหลักสำหรับเนื้อหาส่วนใหญ่ รูปแบบรองรับฟีเจอร์เช่นช่อง alpha transparency ในวิดีโอ ทำให้มีคุณค่าสำหรับการคอมโพสิตกราฟิกเว็บและโอเวอร์เลย์ เมื่อเร็วๆ นี้ WebM ได้ขยายการรองรับวิดีโอ AV1 เพื่อวิวัฒนาการอย่างต่อเนื่องในฐานะช่องทางสำหรับการนำตัวแปลงสัญญาณเปิดมาใช้ การผสมผสานของการบีบอัดที่แข่งขันได้ ไม่มีค่าใช้จ่ายด้านใบอนุญาต และการรองรับเบราว์เซอร์ทุกค่าย ทำให้ WebM เป็นเสาหลักของการส่งมัลติมีเดียเว็บแบบปลอดค่าลิขสิทธิ์
ผู้พัฒนา: Google
เผยแพร่ครั้งแรก: 19 พฤษภาคม 2010
NIST SPHERE (SPeech HEader REsources) เป็นรูปแบบไฟล์เสียงเฉพาะทางที่สร้างโดย สถาบันมาตรฐานและเทคโนโลยีแห่งชาติ สำหรับการวิจัยเสียงพูด โดยเฉพาะโปรเจกต์ที่ได้รับทุนจาก DARPA รูปแบบนี้ห่อหุ้มตัวอย่างเสียงดิบด้วยส่วนหัว ASCII ที่มีโครงสร้างซึ่งเข้ารหัสเมตาดาต้า เช่น อัตราสุ่มตัวอย่าง จำนวนแชนเนล ประเภทการเข้ารหัส ข้อมูลประชากรผู้พูด และคำอธิบายการถอดความ — เหมาะอย่างยิ่งสำหรับการเผยแพร่คอร์ปัสเสียงพูด ไฟล์ NIST มักเก็บ PCM แบบไม่บีบอัดหรือเสียง mu-law ที่อัตราสุ่มตัวอย่างคุณภาพโทรศัพท์ (8 kHz หรือ 16 kHz) แม้คอนเทนเนอร์จะยืดหยุ่นพอรองรับการเข้ารหัสหลายแบบ ข้อดีสำคัญคือส่วนหัวแบบบันทึกตัวเองที่หลากหลาย ช่วยให้นักวิจัยฝังเมตาดาต้าคอร์ปัสโดยละเอียดในไฟล์โดยตรง ไม่ต้องมีไฟล์ข้างเคียง SPHERE ยังกลายเป็นมาตรฐานที่ใช้จริงสำหรับฐานข้อมูลเสียงพูดหลัก ๆ เช่น TIMIT, Switchboard และคอร์ปัส Fisher รับประกันการรับรู้อย่างกว้างขวางในห้องปฏิบัติการทั้งด้านวิชาการและภาครัฐ ข้อกำหนดแบบเปิดและเครื่องมือบรรทัดคำสั่งที่มีให้ (sphere, h_strip, w_decode) ทำให้สามารถแปลง ตรวจสอบ และประมวลผลไฟล์เหล่านี้ทางโปรแกรมได้อย่างตรงไปตรงมาในไปป์ไลน์ประมวลผลเสียงพูด
เผยแพร่ครั้งแรก: 1990

คำถามที่พบบ่อย

ทำไมต้องแปลง WebM เป็น NIST?

NIST SPHERE เป็นรูปแบบมาตรฐานสำหรับการเผยแพร่ข้อมูลเสียงพูด บรรยายและการพูดใน WebM กลายเป็นเสียงที่มีโครงสร้างสำหรับการวิจัย ASR

NIST เหมือนกับ SPH ไหม?

ใช่ — ทั้งสองหมายถึงรูปแบบ SPHERE โดย National Institute of Standards and Technology นามสกุลไฟล์ใช้แทนกันได้

WebM ให้เสียงคุณภาพดีไหม?

WebM ใช้ตัวแปลงรหัส Opus หรือ Vorbis ที่ทันสมัย — มีประสิทธิภาพและคุณภาพสูง เสียงที่สกัดสำหรับ NIST รักษาความชัดเจนของเสียงพูดได้ดี

เครื่องมือ ASR อะไรรองรับ NIST?

Kaldi, HTK, เฟรมเวิร์กประเมินผล NIST และห้องวิจัยการรู้จำเสียงพูดทางวิชาการส่วนใหญ่ทำงานกับ NIST SPHERE เป็นรูปแบบมาตรฐาน

แปลงไฟล์ WebM เป็นชุดได้ไหม?

อัปโหลดวิดีโอ WebM หลายไฟล์และแปลงทั้งหมดเป็น NIST พร้อมกัน สร้างคอร์ปัสเสียงพูดขนาดใหญ่จากคลังวิดีโอเว็บอย่างมีประสิทธิภาพ