Bộ chuyển đổi MPEG sang NIST

Tạo âm thanh NIST SPHERE từ tệp video MPEG trực tuyến

Thả tập tin ở đây. 1 GB Kích thước file tối đa hoặc là Đăng ký
đến
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Tuân thủ chuẩn

Đầu ra NIST SPHERE tuân theo đặc tả National Institute of Standards and Technology — tương thích với mọi framework nghiên cứu ASR lớn.

MPEG sang NIST trực tiếp

Đi từ video MPEG sang âm thanh giọng nói NIST trong một bước. Không cần trích xuất âm thanh thủ công hay chuyển đổi định dạng trung gian.

Trên trình duyệt

Không cần SPHERE toolkit hay bộ giải mã MPEG cục bộ. Chuyển đổi MPEG sang NIST qua trình duyệt web trên mọi thiết bị hay nền tảng.

Làm thế nào để chuyển đổi MPEG sang NIST

1

Lựa chọn các tập tin từ Máy tính, Google Drive, Dropbox, URL hoặc bằng cách kéo tập tin vào trang này.

2

Chọn nist hoặc bất kỳ định dạng nào khác bạn cần chuyển đổi sang (hỗ trợ hơn 200 định dạng)

3

Hãy để tập tin chuyển đổi và bạn có thể tải tập tin nist của bạn xuống ngay sau đó

Về các định dạng

MPEG (MPEG-1) là tiêu chuẩn nén video và âm thanh nền tảng được công bố vào tháng 8 năm 1993 bởi Moving Picture Experts Group dưới mã ISO/IEC 11172. Đây là tiêu chuẩn quốc tế đầu tiên cho nén mất dữ liệu của hình ảnh chuyển động và âm thanh đi kèm, thiết lập các nguyên tắc và kỹ thuật ảnh hưởng đến hầu hết mọi codec video sau này. Video MPEG-1 đạt được nén thông qua sự kết hợp của dự đoán bù chuyển động, mã hóa biến đổi cosin rời rạc và mã hóa entropy độ dài thay đổi, tổ chức quanh ba loại khung hình: I-frame (mã hóa intra), P-frame (dự đoán) và B-frame (dự đoán hai chiều). Tiêu chuẩn nhắm đến tốc độ bit khoảng 1,5 Mbps cho cả âm thanh và video kết hợp, tạo ra chất lượng tương đương băng VHS ở độ phân giải SIF (352x240 cho NTSC). Mức nén này được chọn cụ thể để phù hợp với thông lượng dữ liệu của ổ CD-ROM tốc độ 1x, tạo điều kiện cho định dạng Video CD đưa video kỹ thuật số đến người tiêu dùng vào đầu những năm 1990. Thành phần âm thanh, đặc biệt là Layer III (MP3), đã trở thành định dạng âm thanh có ảnh hưởng lớn nhất trong lịch sử. Cấu trúc khung hình I/P/B, phương pháp ước lượng chuyển động và mã hóa biến đổi dựa trên khối đã thiết lập khuôn mẫu kiến trúc mà mọi codec video lớn đều tuân theo, từ MPEG-2 qua H.264 và xa hơn nữa. Dù đã bị vượt qua về hiệu suất nén từ lâu, MPEG-1 vẫn được hỗ trợ bởi hầu như tất cả phần mềm phương tiện.
Nhà phát triển: Moving Picture Experts Group
Phát hành lần đầu: Tháng tám 1993
NIST SPHERE (SPeech HEader REsources) là định dạng tệp âm thanh chuyên dụng do Viện Tiêu chuẩn và Công nghệ Quốc gia Hoa Kỳ phát triển, phục vụ nghiên cứu giọng nói, đặc biệt các dự án được DARPA tài trợ. Định dạng này đóng gói các mẫu âm thanh thô kèm theo phần header ASCII có cấu trúc, chứa siêu dữ liệu như tần số lấy mẫu, số kênh, kiểu mã hóa, thông tin nhân khẩu học người nói và chú thích phiên âm — lý tưởng cho việc phân phối kho dữ liệu giọng nói. Các tệp NIST thường lưu trữ âm thanh PCM không nén hoặc mu-law ở tần số lấy mẫu chất lượng điện thoại (8 kHz hoặc 16 kHz), dù bộ chứa đủ linh hoạt để hỗ trợ nhiều kiểu mã hóa khác. Ưu điểm nổi bật là phần header tự mô tả phong phú, cho phép nhà nghiên cứu nhúng trực tiếp siêu dữ liệu chi tiết của kho ngữ liệu vào tệp mà không cần tệp đi kèm. SPHERE cũng trở thành tiêu chuẩn thực tế cho các cơ sở dữ liệu giọng nói lớn như TIMIT, Switchboard và Fisher corpus, được công nhận rộng rãi trong các phòng thí nghiệm học thuật và chính phủ. Đặc tả mở và sự sẵn có của các công cụ dòng lệnh (sphere, h_strip, w_decode) giúp việc chuyển đổi, kiểm tra và xử lý các tệp này trở nên đơn giản trong các quy trình xử lý giọng nói.
Phát hành lần đầu: 1990

Các câu hỏi thường gặp

Tại sao chuyển đổi MPEG sang NIST?

NIST SPHERE là định dạng chuẩn để phân phối dữ liệu giọng nói. Hội thoại video MPEG trở thành âm thanh chuẩn hóa cho nghiên cứu nhận dạng.

NIST khác SPH thế nào?

Chúng là cùng một định dạng — SPHERE của National Institute of Standards and Technology. NIST và SPH là phần mở rộng hoán đổi được.

NIST có hỗ trợ chất lượng MPEG không?

NIST lưu trữ PCM không nén. Âm thanh trích xuất từ MPEG được bảo toàn ở chất lượng đầy đủ, bất kể mã hóa MPEG gốc.

Công cụ ASR nào chấp nhận NIST?

Kaldi, HTK, framework đánh giá NIST và hầu hết phòng thí nghiệm giọng nói học thuật làm việc với âm thanh NIST SPHERE làm định dạng đầu vào chuẩn.

Có xử lý hàng loạt không?

Có — tải lên nhiều video MPEG và chuyển đổi tất cả sang NIST cùng lúc. Thực tế cho xây dựng corpus từ kho video lưu trữ.