Bộ chuyển đổi AVI sang NIST

Trích xuất âm thanh từ video AVI sang định dạng NIST SPHERE trực tuyến

Thả tập tin ở đây. 1 GB Kích thước file tối đa hoặc là Đăng ký
đến
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Tuân thủ tiêu chuẩn

Đầu ra tuân theo đặc tả NIST SPHERE chính xác. Âm thanh AVI được đóng gói với header đúng để dùng trực tiếp trong quy trình nghiên cứu giọng nói.

Không cần cài đặt

Chuyển AVI sang NIST ngay trên trình duyệt — không cần tải bộ công cụ SPHERE. Chỉ tải lên, chuyển đổi và lấy tệp âm thanh nghiên cứu.

Xử lý dữ liệu an toàn

Video AVI tải lên được xóa sau chuyển đổi. Tệp NIST đầu ra được xóa trong vòng 24 giờ — dữ liệu giọng nói bảo mật.

Làm thế nào để chuyển đổi AVI sang NIST

1

Lựa chọn các tập tin từ Máy tính, Google Drive, Dropbox, URL hoặc bằng cách kéo tập tin vào trang này.

2

Chọn nist hoặc bất kỳ định dạng nào khác bạn cần chuyển đổi sang (hỗ trợ hơn 200 định dạng)

3

Hãy để tập tin chuyển đổi và bạn có thể tải tập tin nist của bạn xuống ngay sau đó

Về các định dạng

AVI (Audio Video Interleave) là một trong những định dạng bộ chứa đa phương tiện lâu đời và được công nhận rộng rãi nhất, được giới thiệu bởi Microsoft vào tháng 11 năm 1992 như một phần của công nghệ Video for Windows. Dựa trên cấu trúc Resource Interchange File Format (RIFF), AVI xen kẽ dữ liệu âm thanh và video theo từng khối xen kẽ, cho phép phát lại đồng bộ mà không cần quản lý luồng phức tạp. Định dạng không phụ thuộc codec, nghĩa là nó có thể chứa video được nén bằng hầu như bất kỳ codec nào, từ Cinepak và Indeo thời kỳ đầu đến các luồng DivX, Xvid và H.264 hiện đại. Sự linh hoạt này đã góp phần vào việc áp dụng rộng rãi trên máy tính cá nhân trong suốt những năm 1990 và 2000. Một đặc điểm đáng chú ý là cấu trúc nội bộ đơn giản giúp tệp AVI tương đối dễ chỉnh sửa và xử lý ở cấp nhị phân so với các bộ chứa hiện đại phức tạp hơn. AVI cũng hỗ trợ nhiều luồng âm thanh, cho phép nội dung đa ngôn ngữ trong một tệp duy nhất. Tuy nhiên, thông số kỹ thuật ban đầu có những hạn chế, bao gồm giới hạn kích thước tệp 2 GB trong các triển khai cũ và không hỗ trợ gốc cho tốc độ khung hình thay đổi hoặc định dạng phụ đề nâng cao. Phần mở rộng OpenDML (AVI 2.0) đã khắc phục giới hạn kích thước bằng cách cho phép tệp vượt qua ranh giới ban đầu. Dù đã tồn tại hàng thập kỷ, AVI vẫn là một trong những định dạng đa phương tiện được công nhận rộng rãi nhất và vẫn được hỗ trợ bởi trình phát media và công cụ chỉnh sửa trên tất cả hệ điều hành chính.
Nhà phát triển: Microsoft
Phát hành lần đầu: Ngày 10 tháng 11 năm 1992
NIST SPHERE (SPeech HEader REsources) là định dạng tệp âm thanh chuyên dụng do Viện Tiêu chuẩn và Công nghệ Quốc gia Hoa Kỳ phát triển, phục vụ nghiên cứu giọng nói, đặc biệt các dự án được DARPA tài trợ. Định dạng này đóng gói các mẫu âm thanh thô kèm theo phần header ASCII có cấu trúc, chứa siêu dữ liệu như tần số lấy mẫu, số kênh, kiểu mã hóa, thông tin nhân khẩu học người nói và chú thích phiên âm — lý tưởng cho việc phân phối kho dữ liệu giọng nói. Các tệp NIST thường lưu trữ âm thanh PCM không nén hoặc mu-law ở tần số lấy mẫu chất lượng điện thoại (8 kHz hoặc 16 kHz), dù bộ chứa đủ linh hoạt để hỗ trợ nhiều kiểu mã hóa khác. Ưu điểm nổi bật là phần header tự mô tả phong phú, cho phép nhà nghiên cứu nhúng trực tiếp siêu dữ liệu chi tiết của kho ngữ liệu vào tệp mà không cần tệp đi kèm. SPHERE cũng trở thành tiêu chuẩn thực tế cho các cơ sở dữ liệu giọng nói lớn như TIMIT, Switchboard và Fisher corpus, được công nhận rộng rãi trong các phòng thí nghiệm học thuật và chính phủ. Đặc tả mở và sự sẵn có của các công cụ dòng lệnh (sphere, h_strip, w_decode) giúp việc chuyển đổi, kiểm tra và xử lý các tệp này trở nên đơn giản trong các quy trình xử lý giọng nói.
Phát hành lần đầu: 1990

Các câu hỏi thường gặp

Tại sao chuyển đổi AVI sang NIST?

NIST SPHERE là định dạng tiêu chuẩn cho bộ dữ liệu nghiên cứu giọng nói. Trích xuất âm thanh AVI sang NIST giúp hội thoại video dùng được trong hệ thống nhận dạng.

Phần mềm nào đọc tệp NIST?

Bộ công cụ NIST SPHERE, framework ASR Kaldi và HTK đều hỗ trợ âm thanh NIST nguyên bản. SOX cũng xử lý đọc ghi định dạng này.

NIST khác WAV thế nào?

NIST SPHERE bao gồm header metadata phong phú cho quản lý kho ngữ liệu giọng nói mà WAV thiếu. Cả hai lưu âm thanh PCM, nhưng NIST nhắm vào quy trình nghiên cứu.

Chất lượng âm thanh có được duy trì không?

NIST lưu dữ liệu PCM không nén, nên âm thanh trích xuất từ AVI giữ nguyên chất lượng. Không áp dụng mã hóa lossy trong chuyển đổi.

Có xử lý được video dài không?

Máy chủ xử lý tệp AVI nhiều thời lượng khác nhau. Video dài hơn mất thời gian tương ứng, nhưng chuyển đổi vẫn ổn định và đáng tin cậy.