Bộ chuyển đổi MXF sang SPH

Trích xuất dữ liệu giọng nói NIST SPH từ bản ghi MXF

Thả tập tin ở đây. 1 GB Kích thước file tối đa hoặc là Đăng ký
đến
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Tiêu chuẩn nghiên cứu

SPH là tiêu chuẩn NIST cho nghiên cứu giọng nói. Trích xuất âm thanh MXF cho phân tích ngôn ngữ và nghiên cứu nhận dạng.

Siêu dữ liệu phong phú

Định dạng SPHERE mang siêu dữ liệu ghi âm chi tiết — bối cảnh giá trị cho nghiên cứu giọng nói từ nguồn MXF.

Trích xuất trên đám mây

Trích xuất SPH từ MXF chạy trên máy chủ — không cần công cụ NIST trên máy trạm nghiên cứu.

Làm thế nào để chuyển đổi MXF sang SPH

1

Lựa chọn các tập tin từ Máy tính, Google Drive, Dropbox, URL hoặc bằng cách kéo tập tin vào trang này.

2

Chọn sph hoặc bất kỳ định dạng nào khác bạn cần chuyển đổi sang (hỗ trợ hơn 200 định dạng)

3

Hãy để tập tin chuyển đổi và bạn có thể tải tập tin sph của bạn xuống ngay sau đó

Về các định dạng

MXF (Material Exchange Format) là bộ chứa phương tiện chuyên nghiệp được chuẩn hóa bởi Hiệp hội Kỹ sư Điện ảnh và Truyền hình (SMPTE) năm 2004 theo thông số kỹ thuật SMPTE 377M. Được thiết kế cho ngành phát sóng và hậu kỳ, MXF cung cấp bộ bọc trung lập với nhà cung cấp để mang video, âm thanh và siêu dữ liệu mô tả phong phú giữa các hệ thống và nền tảng sản xuất khác nhau. Định dạng hỗ trợ nhiều codec chuyên nghiệp bao gồm MPEG-2, AVC-Intra, DNxHD, DNxHR, ProRes và JPEG 2000, thích ứng với nhiều cấp chất lượng từ dựng proxy đến lưu trữ chất lượng master. Khung siêu dữ liệu mở rộng là một trong những đặc điểm định danh của MXF, mang theo thông tin sản xuất như timecode, tên clip, đánh dấu mô tả, tham chiếu nguồn và thông số kỹ thuật trong lược đồ mã hóa Key-Length-Value (KLV) có cấu trúc. Siêu dữ liệu này đi cùng nội dung xuyên suốt chuỗi sản xuất, giảm rủi ro mất thông tin khi tệp di chuyển giữa các hệ thống thu nhận, dựng phim, đồ họa, phát sóng và lưu trữ. Tệp MXF sử dụng hệ thống mẫu hoạt động xác định các mức độ phức tạp khác nhau, từ gói đơn mục đơn giản (OP1a) đến danh sách phát đa mục phức tạp. Các nhà sản xuất thiết bị phát sóng lớn và hệ thống quy trình làm việc dựa trên tệp hỗ trợ MXF phổ biến, và nó phục vụ làm định dạng trao đổi cho các tiêu chuẩn như AS-02 và AS-11 được sử dụng trong phát sóng.
Phát hành lần đầu: 2004
SPH là phần mở rộng tệp cho âm thanh lưu trữ trong định dạng NIST SPHERE (SPeech HEader REsources), một tiêu chuẩn do Viện Tiêu chuẩn và Công nghệ Quốc gia Hoa Kỳ tạo ra khoảng năm 1990. Được xây dựng cho nghiên cứu giọng nói, tệp SPH mang header ASCII 1024 byte chứa đầy siêu dữ liệu — mã định danh cơ sở dữ liệu, số kênh, tần số lấy mẫu, thứ tự byte và kiểu nén — giúp mỗi bản ghi tự mô tả. Âm thanh bên dưới thường là PCM tuyến tính 16-bit lấy mẫu ở 16 kHz, dù các cấu hình khác cũng được phép. Các nhà nghiên cứu tại NIST, DARPA và các trường đại học trên toàn thế giới dựa vào SPH để phân phối kho ngữ liệu giọng nói như TIMIT, Switchboard và các bộ sưu tập LDC — nền tảng của các hệ thống nhận dạng giọng nói tự động hiện đại. Ưu điểm chính là header đọc được bằng mắt người cho phép các script phân tích siêu dữ liệu bản ghi mà không cần giải mã nhị phân. Sự chuẩn hóa nghiêm ngặt của định dạng cũng loại bỏ sự mơ hồ khi chia sẻ tập dữ liệu giữa các tổ chức và nền tảng. Vì tệp SPH lưu trữ PCM không nén, chúng bảo toàn toàn bộ chất lượng âm thanh — điều cực kỳ quan trọng khi huấn luyện mô hình âm học mà ngay cả những artifact nhỏ cũng có thể làm lệch kết quả.
Phát hành lần đầu: 1990

Các câu hỏi thường gặp

Tại sao nên chuyển MXF sang SPH?

SPHERE (SPH) là định dạng âm thanh tiêu chuẩn cho nghiên cứu giọng nói NIST — thiết yếu cho kho ngữ liệu và nghiên cứu nhận dạng.

Phần mềm nào dùng tệp SPH?

Chiến dịch đánh giá giọng nói NIST, kho ngữ liệu Linguistic Data Consortium và nghiên cứu nhận dạng giọng nói dùng định dạng SPH.

SPH có tương thích rộng rãi không?

SPH chuyên dụng cho nghiên cứu giọng nói. SOX, công cụ NIST và bộ công cụ nhận dạng giọng nói Kaldi xử lý tệp SPH.

SPH mang siêu dữ liệu gì?

Header SPHERE chứa siêu dữ liệu phong phú về điều kiện ghi âm, thông tin người nói và chi tiết kênh.

Có thể xử lý hàng loạt không?

Tải nhiều tệp MXF lên và trích xuất âm thanh SPH từ mỗi tệp đồng thời để xây dựng kho ngữ liệu giọng nói.