Bộ chuyển đổi MPEG sang SPH

Trích xuất âm thanh MPEG dạng NIST SPHERE giọng nói trực tuyến

Thả tập tin ở đây. 1 GB Kích thước file tối đa hoặc là Đăng ký
đến
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Video sang corpus giọng nói

Trích xuất hội thoại từ video MPEG và đóng gói dạng NIST SPHERE — bỏ qua trích xuất thủ công khi xây dựng bộ dữ liệu nghiên cứu giọng nói.

Chuẩn NIST

Đầu ra SPH đáp ứng chính xác đặc tả NIST SPHERE. Nhập trực tiếp vào Kaldi, HTK hoặc bất kỳ framework nhận dạng giọng nói nào.

Xử lý an toàn

Tệp MPEG tải lên được gỡ sau khi chuyển đổi. Tệp đầu ra SPH được xóa trong vòng 24 giờ — tài liệu nghiên cứu được bảo mật.

Làm thế nào để chuyển đổi MPEG sang SPH

1

Lựa chọn các tập tin từ Máy tính, Google Drive, Dropbox, URL hoặc bằng cách kéo tập tin vào trang này.

2

Chọn sph hoặc bất kỳ định dạng nào khác bạn cần chuyển đổi sang (hỗ trợ hơn 200 định dạng)

3

Hãy để tập tin chuyển đổi và bạn có thể tải tập tin sph của bạn xuống ngay sau đó

Về các định dạng

MPEG (MPEG-1) là tiêu chuẩn nén video và âm thanh nền tảng được công bố vào tháng 8 năm 1993 bởi Moving Picture Experts Group dưới mã ISO/IEC 11172. Đây là tiêu chuẩn quốc tế đầu tiên cho nén mất dữ liệu của hình ảnh chuyển động và âm thanh đi kèm, thiết lập các nguyên tắc và kỹ thuật ảnh hưởng đến hầu hết mọi codec video sau này. Video MPEG-1 đạt được nén thông qua sự kết hợp của dự đoán bù chuyển động, mã hóa biến đổi cosin rời rạc và mã hóa entropy độ dài thay đổi, tổ chức quanh ba loại khung hình: I-frame (mã hóa intra), P-frame (dự đoán) và B-frame (dự đoán hai chiều). Tiêu chuẩn nhắm đến tốc độ bit khoảng 1,5 Mbps cho cả âm thanh và video kết hợp, tạo ra chất lượng tương đương băng VHS ở độ phân giải SIF (352x240 cho NTSC). Mức nén này được chọn cụ thể để phù hợp với thông lượng dữ liệu của ổ CD-ROM tốc độ 1x, tạo điều kiện cho định dạng Video CD đưa video kỹ thuật số đến người tiêu dùng vào đầu những năm 1990. Thành phần âm thanh, đặc biệt là Layer III (MP3), đã trở thành định dạng âm thanh có ảnh hưởng lớn nhất trong lịch sử. Cấu trúc khung hình I/P/B, phương pháp ước lượng chuyển động và mã hóa biến đổi dựa trên khối đã thiết lập khuôn mẫu kiến trúc mà mọi codec video lớn đều tuân theo, từ MPEG-2 qua H.264 và xa hơn nữa. Dù đã bị vượt qua về hiệu suất nén từ lâu, MPEG-1 vẫn được hỗ trợ bởi hầu như tất cả phần mềm phương tiện.
Nhà phát triển: Moving Picture Experts Group
Phát hành lần đầu: Tháng tám 1993
SPH là phần mở rộng tệp cho âm thanh lưu trữ trong định dạng NIST SPHERE (SPeech HEader REsources), một tiêu chuẩn do Viện Tiêu chuẩn và Công nghệ Quốc gia Hoa Kỳ tạo ra khoảng năm 1990. Được xây dựng cho nghiên cứu giọng nói, tệp SPH mang header ASCII 1024 byte chứa đầy siêu dữ liệu — mã định danh cơ sở dữ liệu, số kênh, tần số lấy mẫu, thứ tự byte và kiểu nén — giúp mỗi bản ghi tự mô tả. Âm thanh bên dưới thường là PCM tuyến tính 16-bit lấy mẫu ở 16 kHz, dù các cấu hình khác cũng được phép. Các nhà nghiên cứu tại NIST, DARPA và các trường đại học trên toàn thế giới dựa vào SPH để phân phối kho ngữ liệu giọng nói như TIMIT, Switchboard và các bộ sưu tập LDC — nền tảng của các hệ thống nhận dạng giọng nói tự động hiện đại. Ưu điểm chính là header đọc được bằng mắt người cho phép các script phân tích siêu dữ liệu bản ghi mà không cần giải mã nhị phân. Sự chuẩn hóa nghiêm ngặt của định dạng cũng loại bỏ sự mơ hồ khi chia sẻ tập dữ liệu giữa các tổ chức và nền tảng. Vì tệp SPH lưu trữ PCM không nén, chúng bảo toàn toàn bộ chất lượng âm thanh — điều cực kỳ quan trọng khi huấn luyện mô hình âm học mà ngay cả những artifact nhỏ cũng có thể làm lệch kết quả.
Phát hành lần đầu: 1990

Các câu hỏi thường gặp

Tại sao chuyển đổi MPEG sang SPH?

SPH là chuẩn NIST SPHERE cho nghiên cứu giọng nói. Hội thoại video MPEG trở thành dữ liệu được định dạng đúng cho huấn luyện và đánh giá ASR.

Công cụ nào xử lý SPH?

Kaldi, HTK, Praat và NIST SPHERE toolkit hỗ trợ SPH nguyên bản. Đây là định dạng trao đổi chuẩn cho nghiên cứu âm thanh giọng nói.

SPH có nén âm thanh không?

Không — SPH lưu trữ dữ liệu PCM mà không nén lossy. Âm thanh MPEG đến định dạng SPHERE ở chất lượng đầy đủ cho xử lý giọng nói chính xác.

Âm thanh MPEG-1 có đủ không?

Âm thanh MPEG-1 cung cấp chất lượng đủ cho nghiên cứu giọng nói. Nội dung hội thoại được bảo toàn tốt qua quá trình trích xuất và mã hóa SPH.

Có thể chuyển đổi nhiều tệp MPEG không?

Tải lên nhiều video MPEG và chuyển đổi hàng loạt sang SPH. Hiệu quả cho xây dựng corpus giọng nói từ bộ sưu tập video MPEG lưu trữ.