Bộ chuyển đổi WEBM sang SPH

Trích xuất âm thanh WebM dưới dạng NIST SPHERE trực tuyến

Thả tập tin ở đây. 1 GB Kích thước file tối đa hoặc là Đăng ký
đến
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Video web thành kho ngữ liệu

Chuyển đổi âm thanh video web WebM trực tiếp sang NIST SPHERE — biến nội dung trực tuyến có sẵn thành dữ liệu nghiên cứu giọng nói có cấu trúc.

Chuẩn NIST

Đầu ra SPH đáp ứng chính xác thông số SPHERE. Nhập trực tiếp vào Kaldi, HTK hoặc bất kỳ khung huấn luyện nhận dạng giọng nói nào.

Mọi nền tảng

Chuyển đổi WebM sang SPH từ bất kỳ thiết bị nào có trình duyệt. Không giới hạn nền tảng — web là nguồn của bạn, công cụ là bộ chuyển đổi.

Làm thế nào để chuyển đổi WEBM sang SPH

1

Lựa chọn các tập tin từ Máy tính, Google Drive, Dropbox, URL hoặc bằng cách kéo tập tin vào trang này.

2

Chọn sph hoặc bất kỳ định dạng nào khác bạn cần chuyển đổi sang (hỗ trợ hơn 200 định dạng)

3

Hãy để tập tin chuyển đổi và bạn có thể tải tập tin sph của bạn xuống ngay sau đó

Về các định dạng

WebM là định dạng bộ chứa đa phương tiện mở, miễn phí bản quyền được phát triển bởi Google và ra mắt tại hội nghị Google I/O vào tháng 5 năm 2010. Định dạng kết hợp bộ chứa Matroska (một tập hợp con của MKV) với codec video VP8 hoặc VP9 và codec âm thanh Vorbis hoặc Opus, tạo ra một bộ phương tiện hoàn toàn mở được thiết kế đặc biệt cho sử dụng trên web. Google phát hành WebM cùng codec VP8 theo giấy phép BSD dễ dãi, loại bỏ các rào cản bằng sáng chế và bản quyền cản trở việc áp dụng H.264 cho video web mở. Bộ chứa WebM kế thừa cấu trúc nhị phân hiệu quả của Matroska trong khi giới hạn ở các profile tối ưu hóa cho web, đảm bảo phân tích nhanh và triển khai nhẹ trong trình duyệt. WebM với VP9 đạt hiệu suất nén cạnh tranh với H.264 High Profile và gần bằng HEVC, phù hợp cho truyền tải video chất lượng cao ở băng thông thấp hơn. Các trình duyệt web lớn bao gồm Chrome, Firefox, Edge và Opera hỗ trợ phát lại WebM gốc, và YouTube sử dụng VP9 trong WebM làm định dạng phân phối chính cho phần lớn nội dung. Định dạng hỗ trợ các tính năng như kênh alpha trong suốt trong video, có giá trị cho compositing đồ họa web và lớp phủ. Gần đây hơn, WebM đã được mở rộng để hỗ trợ video AV1, tiếp tục phát triển như phương tiện cho việc áp dụng codec mở. Sự kết hợp của nén cạnh tranh, chi phí cấp phép bằng không và hỗ trợ trình duyệt phổ quát khiến WebM trở thành trụ cột của truyền tải đa phương tiện web miễn phí bản quyền.
Nhà phát triển: Google
Phát hành lần đầu: Ngày 19 tháng 5 năm 2010
SPH là phần mở rộng tệp cho âm thanh lưu trữ trong định dạng NIST SPHERE (SPeech HEader REsources), một tiêu chuẩn do Viện Tiêu chuẩn và Công nghệ Quốc gia Hoa Kỳ tạo ra khoảng năm 1990. Được xây dựng cho nghiên cứu giọng nói, tệp SPH mang header ASCII 1024 byte chứa đầy siêu dữ liệu — mã định danh cơ sở dữ liệu, số kênh, tần số lấy mẫu, thứ tự byte và kiểu nén — giúp mỗi bản ghi tự mô tả. Âm thanh bên dưới thường là PCM tuyến tính 16-bit lấy mẫu ở 16 kHz, dù các cấu hình khác cũng được phép. Các nhà nghiên cứu tại NIST, DARPA và các trường đại học trên toàn thế giới dựa vào SPH để phân phối kho ngữ liệu giọng nói như TIMIT, Switchboard và các bộ sưu tập LDC — nền tảng của các hệ thống nhận dạng giọng nói tự động hiện đại. Ưu điểm chính là header đọc được bằng mắt người cho phép các script phân tích siêu dữ liệu bản ghi mà không cần giải mã nhị phân. Sự chuẩn hóa nghiêm ngặt của định dạng cũng loại bỏ sự mơ hồ khi chia sẻ tập dữ liệu giữa các tổ chức và nền tảng. Vì tệp SPH lưu trữ PCM không nén, chúng bảo toàn toàn bộ chất lượng âm thanh — điều cực kỳ quan trọng khi huấn luyện mô hình âm học mà ngay cả những artifact nhỏ cũng có thể làm lệch kết quả.
Phát hành lần đầu: 1990

Các câu hỏi thường gặp

Tại sao chuyển đổi WebM sang SPH?

SPH là chuẩn NIST cho nghiên cứu giọng nói. Video web WebM — bài giảng, podcast, bài nói — cung cấp dữ liệu giọng nói đa dạng cho huấn luyện ASR.

Công cụ nào xử lý được SPH?

Kaldi, HTK, Praat và bộ công cụ NIST SPHERE đều hỗ trợ SPH tự nhiên. Đây là chuẩn trong các phòng thí nghiệm nghiên cứu nhận dạng giọng nói.

SPH có nén âm thanh không?

Không — SPH lưu trữ PCM không nén mất dữ liệu. Âm thanh WebM được giải mã và lưu ở chất lượng đầy đủ cho phân tích giọng nói chính xác.

WebM có tốt cho dữ liệu giọng nói không?

WebM là định dạng video web chuẩn. Video giáo dục và bài nói ghi âm trong WebM cung cấp dữ liệu giọng nói phong phú cho nghiên cứu.

Tôi có thể chuyển đổi hàng loạt không?

Tải lên nhiều video WebM và chuyển đổi sang SPH đồng thời. Hiệu quả để xây dựng kho ngữ liệu giọng nói từ bộ sưu tập video web.