MKV to SPH Converter

Trích xuất âm thanh SPHERE từ MKV cho bộ dữ liệu giọng nói

Thả tập tin ở đây. 1 GB Kích thước file tối đa hoặc là Đăng ký
đến
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Tiêu chuẩn nghiên cứu

SPH là tiêu chuẩn vàng cho kho ngữ liệu nghiên cứu giọng nói. Trích xuất âm thanh MKV ở định dạng mà các framework nhận dạng giọng nói yêu cầu.

Xây dựng kho dữ liệu

Chuyển đổi nhiều tệp MKV sang SPH cùng lúc. Hiệu quả cho việc tập hợp bộ dữ liệu giọng nói lớn từ bản ghi video.

Dữ liệu bảo mật

Tất cả tệp MKV tải lên bị xóa sau khi xử lý. Kết quả SPH bị xóa trong vòng 24 giờ — dữ liệu giọng nói nhạy cảm được giữ riêng tư.

Làm thế nào để chuyển đổi MKV sang SPH

1

Lựa chọn các tập tin từ Máy tính, Google Drive, Dropbox, URL hoặc bằng cách kéo tập tin vào trang này.

2

Chọn sph hoặc bất kỳ định dạng nào khác bạn cần chuyển đổi sang (hỗ trợ hơn 200 định dạng)

3

Hãy để tập tin chuyển đổi và bạn có thể tải tập tin sph của bạn xuống ngay sau đó

Về các định dạng

MKV (Matroska Video) là định dạng bộ chứa đa phương tiện tiêu chuẩn mở được phát triển bởi dự án Matroska, công bố định dạng vào tháng 12 năm 2002. Được đặt theo tên búp bê lồng matryoshka của Nga, định dạng được xây dựng trên Extensible Binary Meta Language (EBML), một biến thể nhị phân đơn giản hóa của XML cung cấp cấu trúc linh hoạt và tương thích với tương lai. MKV có thể chứa số lượng track video, âm thanh và phụ đề gần như không giới hạn trong một tệp duy nhất, hỗ trợ các codec từ H.264 và HEVC đến VP9 và AV1 cho video, và AAC, FLAC, Opus và DTS cho âm thanh. Một tính năng nổi bật là hỗ trợ phụ đề toàn diện, xử lý các định dạng từ văn bản SRT đơn giản đến phụ đề có kiểu ASS phức tạp và track PGS dạng bitmap từ đĩa Blu-ray. MKV cũng hỗ trợ đánh dấu chương, tệp đính kèm (chẳng hạn phông chữ cần thiết cho phụ đề có kiểu) và siêu dữ liệu gắn thẻ, biến nó thành một trong những bộ chứa giàu tính năng nhất hiện có. Thông số kỹ thuật mở đảm bảo rằng bất kỳ nhà phát triển nào cũng có thể triển khai đọc và ghi MKV mà không cần phí cấp phép, thúc đẩy sự áp dụng rộng rãi trên các trình phát media, công cụ truyền phát và phần mềm mã hóa. Khả năng đóng gói hầu như bất kỳ tổ hợp codec nào trong một tệp duy nhất, có tổ chức tốt, đã biến MKV thành bộ chứa được ưu tiên cho phân phối video chất lượng cao, lưu trữ và thư viện phương tiện cá nhân.
Nhà phát triển: Matroska
Phát hành lần đầu: Ngày 06 tháng 12 năm 2002
SPH là phần mở rộng tệp cho âm thanh lưu trữ trong định dạng NIST SPHERE (SPeech HEader REsources), một tiêu chuẩn do Viện Tiêu chuẩn và Công nghệ Quốc gia Hoa Kỳ tạo ra khoảng năm 1990. Được xây dựng cho nghiên cứu giọng nói, tệp SPH mang header ASCII 1024 byte chứa đầy siêu dữ liệu — mã định danh cơ sở dữ liệu, số kênh, tần số lấy mẫu, thứ tự byte và kiểu nén — giúp mỗi bản ghi tự mô tả. Âm thanh bên dưới thường là PCM tuyến tính 16-bit lấy mẫu ở 16 kHz, dù các cấu hình khác cũng được phép. Các nhà nghiên cứu tại NIST, DARPA và các trường đại học trên toàn thế giới dựa vào SPH để phân phối kho ngữ liệu giọng nói như TIMIT, Switchboard và các bộ sưu tập LDC — nền tảng của các hệ thống nhận dạng giọng nói tự động hiện đại. Ưu điểm chính là header đọc được bằng mắt người cho phép các script phân tích siêu dữ liệu bản ghi mà không cần giải mã nhị phân. Sự chuẩn hóa nghiêm ngặt của định dạng cũng loại bỏ sự mơ hồ khi chia sẻ tập dữ liệu giữa các tổ chức và nền tảng. Vì tệp SPH lưu trữ PCM không nén, chúng bảo toàn toàn bộ chất lượng âm thanh — điều cực kỳ quan trọng khi huấn luyện mô hình âm học mà ngay cả những artifact nhỏ cũng có thể làm lệch kết quả.
Phát hành lần đầu: 1990

Các câu hỏi thường gặp

Tại sao nên chuyển đổi MKV sang SPH?

SPH (SPHERE) là tiêu chuẩn NIST cho kho ngữ liệu nghiên cứu giọng nói. Được yêu cầu bởi Linguistic Data Consortium và các cơ sở dữ liệu giọng nói lớn.

Phần mềm nào đọc SPH?

Công cụ NIST SPeech HEader Resources, HTK, Kaldi, SoX và các framework xử lý giọng nói học thuật xử lý tệp SPH làm đầu vào chuẩn.

SPH có được dùng trong huấn luyện AI không?

Có — SPHERE được sử dụng rộng rãi cho dữ liệu huấn luyện nhận dạng giọng nói. Nhiều bộ dữ liệu ASR nền tảng được phân phối ở định dạng SPH.

SPH có chứa metadata không?

Có — tệp SPH bao gồm header văn bản với tần số lấy mẫu, số kênh, loại mã hóa và metadata hữu ích cho xử lý tự động.

Có thể xử lý hàng loạt MKV không?

Có — tải lên nhiều bản ghi MKV và trích xuất âm thanh SPH từ tất cả. Lý tưởng để xây dựng bộ dữ liệu giọng nói từ nguồn video.