Bộ chuyển đổi MPEG sang SPH

Trích xuất âm thanh MPEG dạng NIST SPHERE giọng nói trực tuyến

Chọn Tập tin

Thả tập tin ở đây. 1 GB Kích thước file tối đa hoặc là Đăng ký

đến

Video sang corpus giọng nói

Trích xuất hội thoại từ video MPEG và đóng gói dạng NIST SPHERE — bỏ qua trích xuất thủ công khi xây dựng bộ dữ liệu nghiên cứu giọng nói.

Chuẩn NIST

Đầu ra SPH đáp ứng chính xác đặc tả NIST SPHERE. Nhập trực tiếp vào Kaldi, HTK hoặc bất kỳ framework nhận dạng giọng nói nào.

Xử lý an toàn

Tệp MPEG tải lên được gỡ sau khi chuyển đổi. Tệp đầu ra SPH được xóa trong vòng 24 giờ — tài liệu nghiên cứu được bảo mật.

Làm thế nào để chuyển đổi MPEG sang SPH

Lựa chọn các tập tin từ Máy tính, Google Drive, Dropbox, URL hoặc bằng cách kéo tập tin vào trang này.

Chọn sph hoặc bất kỳ định dạng nào khác bạn cần chuyển đổi sang (hỗ trợ hơn 200 định dạng)

Hãy để tập tin chuyển đổi và bạn có thể tải tập tin sph của bạn xuống ngay sau đó

Về các định dạng

MPEG (MPEG-1) là tiêu chuẩn nén video và âm thanh nền tảng được công bố vào tháng 8 năm 1993 bởi Moving Picture Experts Group dưới mã ISO/IEC 11172. Đây là tiêu chuẩn quốc tế đầu tiên cho nén mất dữ liệu của hình ảnh chuyển động và âm thanh đi kèm, thiết lập các nguyên tắc và kỹ thuật ảnh hưởng đến hầu hết mọi codec video sau này. Video MPEG-1 đạt được nén thông qua sự kết hợp của dự đoán bù chuyển động, mã hóa biến đổi cosin rời rạc và mã hóa entropy độ dài thay đổi, tổ chức quanh ba loại khung hình: I-frame (mã hóa intra), P-frame (dự đoán) và B-frame (dự đoán hai chiều). Tiêu chuẩn nhắm đến tốc độ bit khoảng 1,5 Mbps cho cả âm thanh và video kết hợp, tạo ra chất lượng tương đương băng VHS ở độ phân giải SIF (352x240 cho NTSC). Mức nén này được chọn cụ thể để phù hợp với thông lượng dữ liệu của ổ CD-ROM tốc độ 1x, tạo điều kiện cho định dạng Video CD đưa video kỹ thuật số đến người tiêu dùng vào đầu những năm 1990. Thành phần âm thanh, đặc biệt là Layer III (MP3), đã trở thành định dạng âm thanh có ảnh hưởng lớn nhất trong lịch sử. Cấu trúc khung hình I/P/B, phương pháp ước lượng chuyển động và mã hóa biến đổi dựa trên khối đã thiết lập khuôn mẫu kiến trúc mà mọi codec video lớn đều tuân theo, từ MPEG-2 qua H.264 và xa hơn nữa. Dù đã bị vượt qua về hiệu suất nén từ lâu, MPEG-1 vẫn được hỗ trợ bởi hầu như tất cả phần mềm phương tiện.

Nhà phát triển: Moving Picture Experts Group

Phát hành lần đầu: Tháng tám 1993

SPH là phần mở rộng tệp cho âm thanh lưu trữ trong định dạng NIST SPHERE (SPeech HEader REsources), một tiêu chuẩn do Viện Tiêu chuẩn và Công nghệ Quốc gia Hoa Kỳ tạo ra khoảng năm 1990. Được xây dựng cho nghiên cứu giọng nói, tệp SPH mang header ASCII 1024 byte chứa đầy siêu dữ liệu — mã định danh cơ sở dữ liệu, số kênh, tần số lấy mẫu, thứ tự byte và kiểu nén — giúp mỗi bản ghi tự mô tả. Âm thanh bên dưới thường là PCM tuyến tính 16-bit lấy mẫu ở 16 kHz, dù các cấu hình khác cũng được phép. Các nhà nghiên cứu tại NIST, DARPA và các trường đại học trên toàn thế giới dựa vào SPH để phân phối kho ngữ liệu giọng nói như TIMIT, Switchboard và các bộ sưu tập LDC — nền tảng của các hệ thống nhận dạng giọng nói tự động hiện đại. Ưu điểm chính là header đọc được bằng mắt người cho phép các script phân tích siêu dữ liệu bản ghi mà không cần giải mã nhị phân. Sự chuẩn hóa nghiêm ngặt của định dạng cũng loại bỏ sự mơ hồ khi chia sẻ tập dữ liệu giữa các tổ chức và nền tảng. Vì tệp SPH lưu trữ PCM không nén, chúng bảo toàn toàn bộ chất lượng âm thanh — điều cực kỳ quan trọng khi huấn luyện mô hình âm học mà ngay cả những artifact nhỏ cũng có thể làm lệch kết quả.

Nhà phát triển: National Institute of Standards and Technology

Phát hành lần đầu: 1990

Các câu hỏi thường gặp

Tại sao chuyển đổi MPEG sang SPH?

SPH là chuẩn NIST SPHERE cho nghiên cứu giọng nói. Hội thoại video MPEG trở thành dữ liệu được định dạng đúng cho huấn luyện và đánh giá ASR.

Công cụ nào xử lý SPH?

Kaldi, HTK, Praat và NIST SPHERE toolkit hỗ trợ SPH nguyên bản. Đây là định dạng trao đổi chuẩn cho nghiên cứu âm thanh giọng nói.

SPH có nén âm thanh không?

Không — SPH lưu trữ dữ liệu PCM mà không nén lossy. Âm thanh MPEG đến định dạng SPHERE ở chất lượng đầy đủ cho xử lý giọng nói chính xác.

Âm thanh MPEG-1 có đủ không?

Âm thanh MPEG-1 cung cấp chất lượng đủ cho nghiên cứu giọng nói. Nội dung hội thoại được bảo toàn tốt qua quá trình trích xuất và mã hóa SPH.

Có thể chuyển đổi nhiều tệp MPEG không?

Tải lên nhiều video MPEG và chuyển đổi hàng loạt sang SPH. Hiệu quả cho xây dựng corpus giọng nói từ bộ sưu tập video MPEG lưu trữ.

Chuyển đổi liên quan

MPEG sang MP3

MPEG sang WAV

MPEG sang MP4

MPEG sang OGG

MPEG sang M4A

MPEG sang WMA

MPEG sang GIF

MPEG sang AAC

MPEG sang FLAC

MPEG sang AVI

MPEG sang M4R

MPEG sang AIFF

MPEG sang MJPEG

MPEG sang MOV

MPEG sang WMV

MPEG sang AMR

MPEG sang OPUS

MPEG sang DIVX

MPEG sang GSM

MPEG sang 3GP

MPEG sang AV1

MPEG sang AC3

MPEG sang MP2

MPEG sang WEBM

MPEG sang FLV

MPEG sang VOB

MPEG sang CDDA

MPEG sang AU

MPEG sang M4V

MPEG sang XVID

MPEG sang MKV

MPEG sang DTS

MPEG sang TS

MPEG sang AVCHD

MPEG sang W64

MPEG sang HEVC

MPEG sang OGV

MPEG sang SWF

MPEG sang M2V

MPEG sang SLN

MPEG sang F4V

MPEG sang ASF

MPEG sang VOX

MPEG sang WV

MPEG sang SPX

MPEG sang 8SVX

MPEG sang CAF

MPEG sang 3G2

MPEG sang RMVB

MPEG sang VOC

MPEG sang MTS

MPEG sang CVS

MPEG sang OGA

MPEG sang SD2

MPEG sang RA

MPEG sang WVE

MPEG sang AMB

MPEG sang AVR

MPEG sang MXF

MPEG sang GSRT

Bộ chuyển đổi cụ thể

MP3 sang SPH

WAV sang SPH

MP4 sang SPH

ASF sang SPH

FLAC sang SPH

M4A sang SPH

OGG sang SPH

SWF sang SPH

WVE sang SPH

3G2 sang SPH

3GP sang SPH

AAF sang SPH

AV1 sang SPH

AVCHD sang SPH

AVI sang SPH

CAVS sang SPH

DIVX sang SPH

DV sang SPH

F4V sang SPH

FLV sang SPH

HEVC sang SPH

M2TS sang SPH

M2V sang SPH

M4V sang SPH

MJPEG sang SPH

MKV sang SPH

MOD sang SPH

MOV sang SPH

MPEG sang SPH

MPEG-2 sang SPH