Bộ chuyển đổi WEBM sang NIST

Tạo âm thanh NIST SPHERE từ tệp video WebM trực tuyến

Thả tập tin ở đây. 1 GB Kích thước file tối đa hoặc là Đăng ký
đến
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Chuẩn nghiên cứu

NIST SPHERE là cách âm thanh giọng nói được phân phối trong nghiên cứu. Nội dung web WebM chuyển đổi thành dữ liệu định dạng đúng cho phát triển ASR.

Trên trình duyệt

Không cần bộ công cụ SPHERE hay bộ giải mã WebM cục bộ. Chuyển đổi hoàn toàn qua trình duyệt trên bất kỳ thiết bị hay hệ điều hành nào.

Bảo mật dữ liệu

Tệp WebM tải lên được xóa sau khi chuyển đổi. Đầu ra NIST được xóa trong vòng 24 giờ — dữ liệu nghiên cứu giọng nói được giữ bí mật.

Làm thế nào để chuyển đổi WEBM sang NIST

1

Lựa chọn các tập tin từ Máy tính, Google Drive, Dropbox, URL hoặc bằng cách kéo tập tin vào trang này.

2

Chọn nist hoặc bất kỳ định dạng nào khác bạn cần chuyển đổi sang (hỗ trợ hơn 200 định dạng)

3

Hãy để tập tin chuyển đổi và bạn có thể tải tập tin nist của bạn xuống ngay sau đó

Về các định dạng

WebM là định dạng bộ chứa đa phương tiện mở, miễn phí bản quyền được phát triển bởi Google và ra mắt tại hội nghị Google I/O vào tháng 5 năm 2010. Định dạng kết hợp bộ chứa Matroska (một tập hợp con của MKV) với codec video VP8 hoặc VP9 và codec âm thanh Vorbis hoặc Opus, tạo ra một bộ phương tiện hoàn toàn mở được thiết kế đặc biệt cho sử dụng trên web. Google phát hành WebM cùng codec VP8 theo giấy phép BSD dễ dãi, loại bỏ các rào cản bằng sáng chế và bản quyền cản trở việc áp dụng H.264 cho video web mở. Bộ chứa WebM kế thừa cấu trúc nhị phân hiệu quả của Matroska trong khi giới hạn ở các profile tối ưu hóa cho web, đảm bảo phân tích nhanh và triển khai nhẹ trong trình duyệt. WebM với VP9 đạt hiệu suất nén cạnh tranh với H.264 High Profile và gần bằng HEVC, phù hợp cho truyền tải video chất lượng cao ở băng thông thấp hơn. Các trình duyệt web lớn bao gồm Chrome, Firefox, Edge và Opera hỗ trợ phát lại WebM gốc, và YouTube sử dụng VP9 trong WebM làm định dạng phân phối chính cho phần lớn nội dung. Định dạng hỗ trợ các tính năng như kênh alpha trong suốt trong video, có giá trị cho compositing đồ họa web và lớp phủ. Gần đây hơn, WebM đã được mở rộng để hỗ trợ video AV1, tiếp tục phát triển như phương tiện cho việc áp dụng codec mở. Sự kết hợp của nén cạnh tranh, chi phí cấp phép bằng không và hỗ trợ trình duyệt phổ quát khiến WebM trở thành trụ cột của truyền tải đa phương tiện web miễn phí bản quyền.
Nhà phát triển: Google
Phát hành lần đầu: Ngày 19 tháng 5 năm 2010
NIST SPHERE (SPeech HEader REsources) là định dạng tệp âm thanh chuyên dụng do Viện Tiêu chuẩn và Công nghệ Quốc gia Hoa Kỳ phát triển, phục vụ nghiên cứu giọng nói, đặc biệt các dự án được DARPA tài trợ. Định dạng này đóng gói các mẫu âm thanh thô kèm theo phần header ASCII có cấu trúc, chứa siêu dữ liệu như tần số lấy mẫu, số kênh, kiểu mã hóa, thông tin nhân khẩu học người nói và chú thích phiên âm — lý tưởng cho việc phân phối kho dữ liệu giọng nói. Các tệp NIST thường lưu trữ âm thanh PCM không nén hoặc mu-law ở tần số lấy mẫu chất lượng điện thoại (8 kHz hoặc 16 kHz), dù bộ chứa đủ linh hoạt để hỗ trợ nhiều kiểu mã hóa khác. Ưu điểm nổi bật là phần header tự mô tả phong phú, cho phép nhà nghiên cứu nhúng trực tiếp siêu dữ liệu chi tiết của kho ngữ liệu vào tệp mà không cần tệp đi kèm. SPHERE cũng trở thành tiêu chuẩn thực tế cho các cơ sở dữ liệu giọng nói lớn như TIMIT, Switchboard và Fisher corpus, được công nhận rộng rãi trong các phòng thí nghiệm học thuật và chính phủ. Đặc tả mở và sự sẵn có của các công cụ dòng lệnh (sphere, h_strip, w_decode) giúp việc chuyển đổi, kiểm tra và xử lý các tệp này trở nên đơn giản trong các quy trình xử lý giọng nói.
Phát hành lần đầu: 1990

Các câu hỏi thường gặp

Tại sao chuyển đổi WebM sang NIST?

NIST SPHERE là định dạng chuẩn để phân phối dữ liệu giọng nói. Bài giảng và bài nói WebM trở thành âm thanh có cấu trúc cho nghiên cứu ASR.

NIST có giống SPH không?

Có — cả hai đều chỉ định dạng SPHERE của Viện Tiêu chuẩn và Công nghệ Quốc gia. Các phần mở rộng có thể hoán đổi.

WebM có cung cấp âm thanh chất lượng không?

WebM sử dụng codec Opus hoặc Vorbis hiện đại — hiệu quả và chất lượng cao. Âm thanh trích xuất cho NIST bảo toàn độ rõ giọng nói tốt.

Công cụ ASR nào hỗ trợ NIST?

Kaldi, HTK, khung đánh giá NIST và hầu hết phòng thí nghiệm nhận dạng giọng nói học thuật làm việc với NIST SPHERE là định dạng chuẩn.

Tôi có thể chuyển đổi hàng loạt tệp WebM không?

Tải lên nhiều video WebM và chuyển đổi tất cả sang NIST cùng lúc. Xây dựng kho ngữ liệu giọng nói lớn từ kho video web hiệu quả.