Bộ chuyển đổi AVI sang SPH

Trích xuất âm thanh AVI sang định dạng giọng nói NIST SPHERE trực tuyến

Thả tập tin ở đây. 1 GB Kích thước file tối đa hoặc là Đăng ký
đến
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

AVI sang dữ liệu giọng nói

Chuyển âm thanh video từ AVI thành dữ liệu giọng nói định dạng SPHERE, sẵn sàng cho kho ngữ liệu ngôn ngữ, huấn luyện nhận dạng và phân tích âm học.

Xử lý trên máy chủ

Trích xuất âm thanh và mã hóa SPH chạy trên máy chủ. Máy bạn không bị gánh nặng — không cần cài phần mềm cục bộ.

Đầu ra sẵn sàng nghiên cứu

SPH đầu ra từ tệp AVI đáp ứng thông số NIST SPHERE. Nhập trực tiếp vào Kaldi, HTK hoặc framework xử lý giọng nói khác.

Làm thế nào để chuyển đổi AVI sang SPH

1

Lựa chọn các tập tin từ Máy tính, Google Drive, Dropbox, URL hoặc bằng cách kéo tập tin vào trang này.

2

Chọn sph hoặc bất kỳ định dạng nào khác bạn cần chuyển đổi sang (hỗ trợ hơn 200 định dạng)

3

Hãy để tập tin chuyển đổi và bạn có thể tải tập tin sph của bạn xuống ngay sau đó

Về các định dạng

AVI (Audio Video Interleave) là một trong những định dạng bộ chứa đa phương tiện lâu đời và được công nhận rộng rãi nhất, được giới thiệu bởi Microsoft vào tháng 11 năm 1992 như một phần của công nghệ Video for Windows. Dựa trên cấu trúc Resource Interchange File Format (RIFF), AVI xen kẽ dữ liệu âm thanh và video theo từng khối xen kẽ, cho phép phát lại đồng bộ mà không cần quản lý luồng phức tạp. Định dạng không phụ thuộc codec, nghĩa là nó có thể chứa video được nén bằng hầu như bất kỳ codec nào, từ Cinepak và Indeo thời kỳ đầu đến các luồng DivX, Xvid và H.264 hiện đại. Sự linh hoạt này đã góp phần vào việc áp dụng rộng rãi trên máy tính cá nhân trong suốt những năm 1990 và 2000. Một đặc điểm đáng chú ý là cấu trúc nội bộ đơn giản giúp tệp AVI tương đối dễ chỉnh sửa và xử lý ở cấp nhị phân so với các bộ chứa hiện đại phức tạp hơn. AVI cũng hỗ trợ nhiều luồng âm thanh, cho phép nội dung đa ngôn ngữ trong một tệp duy nhất. Tuy nhiên, thông số kỹ thuật ban đầu có những hạn chế, bao gồm giới hạn kích thước tệp 2 GB trong các triển khai cũ và không hỗ trợ gốc cho tốc độ khung hình thay đổi hoặc định dạng phụ đề nâng cao. Phần mở rộng OpenDML (AVI 2.0) đã khắc phục giới hạn kích thước bằng cách cho phép tệp vượt qua ranh giới ban đầu. Dù đã tồn tại hàng thập kỷ, AVI vẫn là một trong những định dạng đa phương tiện được công nhận rộng rãi nhất và vẫn được hỗ trợ bởi trình phát media và công cụ chỉnh sửa trên tất cả hệ điều hành chính.
Nhà phát triển: Microsoft
Phát hành lần đầu: Ngày 10 tháng 11 năm 1992
SPH là phần mở rộng tệp cho âm thanh lưu trữ trong định dạng NIST SPHERE (SPeech HEader REsources), một tiêu chuẩn do Viện Tiêu chuẩn và Công nghệ Quốc gia Hoa Kỳ tạo ra khoảng năm 1990. Được xây dựng cho nghiên cứu giọng nói, tệp SPH mang header ASCII 1024 byte chứa đầy siêu dữ liệu — mã định danh cơ sở dữ liệu, số kênh, tần số lấy mẫu, thứ tự byte và kiểu nén — giúp mỗi bản ghi tự mô tả. Âm thanh bên dưới thường là PCM tuyến tính 16-bit lấy mẫu ở 16 kHz, dù các cấu hình khác cũng được phép. Các nhà nghiên cứu tại NIST, DARPA và các trường đại học trên toàn thế giới dựa vào SPH để phân phối kho ngữ liệu giọng nói như TIMIT, Switchboard và các bộ sưu tập LDC — nền tảng của các hệ thống nhận dạng giọng nói tự động hiện đại. Ưu điểm chính là header đọc được bằng mắt người cho phép các script phân tích siêu dữ liệu bản ghi mà không cần giải mã nhị phân. Sự chuẩn hóa nghiêm ngặt của định dạng cũng loại bỏ sự mơ hồ khi chia sẻ tập dữ liệu giữa các tổ chức và nền tảng. Vì tệp SPH lưu trữ PCM không nén, chúng bảo toàn toàn bộ chất lượng âm thanh — điều cực kỳ quan trọng khi huấn luyện mô hình âm học mà ngay cả những artifact nhỏ cũng có thể làm lệch kết quả.
Phát hành lần đầu: 1990

Các câu hỏi thường gặp

Tại sao chuyển đổi AVI sang SPH?

SPH (SPHERE) là tiêu chuẩn âm thanh giọng nói từ NIST dùng trong ngôn ngữ học và nhận dạng giọng nói. Chuyển AVI trích xuất hội thoại cho bộ dữ liệu nghiên cứu.

Công cụ nào hoạt động với tệp SPH?

HTK, Kaldi, Praat và framework phân tích giọng nói khác đọc SPH. Bộ công cụ NIST SPHERE cung cấp công cụ gốc cho định dạng này.

SPH và NIST có giống nhau không?

SPH và NIST đều chỉ định dạng SPHERE do Viện Tiêu chuẩn và Công nghệ Quốc gia định nghĩa. Chúng giống nhau về chức năng.

SPH có hỗ trợ âm thanh stereo không?

Tệp SPHERE có thể lưu dữ liệu đa kênh, dù kho ngữ liệu giọng nói thường dùng mono. Kênh âm thanh từ AVI được bảo toàn theo cấu hình.

Tôi có thể xử lý tệp AVI lớn không?

Máy chủ xử lý tệp AVI nhiều kích thước. Video lớn hơn có thể mất lâu hơn, nhưng trích xuất âm thanh và mã hóa SPH vẫn đáng tin cậy.