Bộ chuyển đổi OGG sang NIST

Tạo tệp giọng nói NIST SPHERE từ âm thanh OGG

Thả tập tin ở đây. 1 GB Kích thước file tối đa hoặc là Đăng ký
đến
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Chuẩn nghiên cứu giọng nói

NIST SPHERE được yêu cầu bởi các bộ công cụ xử lý giọng nói lớn — tạo tệp định dạng đúng từ bản ghi OGG.

Đầu ra sẵn sàng cho kho ngữ liệu

Tạo tệp SPHERE với tiêu đề chính xác, sẵn sàng cho huấn luyện nhận dạng giọng nói và phân tích ngôn ngữ.

Xử lý trực tuyến

Không cần cài đặt bộ công cụ giọng nói — chuyển đổi OGG sang NIST SPHERE trực tiếp qua trình duyệt.

Làm thế nào để chuyển đổi OGG sang NIST

1

Lựa chọn các tập tin từ Máy tính, Google Drive, Dropbox, URL hoặc bằng cách kéo tập tin vào trang này.

2

Chọn nist hoặc bất kỳ định dạng nào khác bạn cần chuyển đổi sang (hỗ trợ hơn 200 định dạng)

3

Hãy để tập tin chuyển đổi và bạn có thể tải tập tin nist của bạn xuống ngay sau đó

Về các định dạng

OGG Vorbis là codec âm thanh nén có tổn hao, mã nguồn mở và miễn phí bản quyền, nằm trong định dạng bộ chứa Ogg, cả hai đều do Xiph.Org Foundation phát triển. Vorbis được thiết kế như giải pháp thay thế không bằng sáng chế cho MP3 và AAC, sử dụng phép biến đổi cosine rời rạc cải tiến (MDCT) với mã hóa tốc độ bit thay đổi thích ứng theo độ phức tạp tín hiệu từng khung. Các thử nghiệm nghe mù liên tục cho thấy Vorbis mang lại chất lượng cảm nhận ngang hoặc vượt trội MP3, đặc biệt trong dải 96-192 kbps. Định dạng hỗ trợ tần số lấy mẫu từ 8 kHz đến 192 kHz và từ 1 đến 255 kênh, bao phủ mọi thứ từ giọng nói mono đến mix âm thanh vòm. Ưu điểm vượt trội là hoàn toàn không có phí cấp phép — nhà phát triển game, nền tảng phát trực tuyến và nhà sản xuất phần cứng có thể triển khai Vorbis mà không lo ngại về bản quyền. Spotify đã dựa vào Vorbis trong nhiều năm làm codec phát trực tuyến chính vì lý do này. Định dạng cũng xử lý suy giảm chất lượng ở tốc độ bit thấp tốt hơn nhiều đối thủ, đó là lý do nó vẫn phổ biến trong trò chơi điện tử nơi dung lượng lưu trữ hạn hẹp và hàng nghìn hiệu ứng âm thanh cạnh tranh không gian. VLC, Firefox, Chrome và Android đều hỗ trợ giải mã Vorbis nguyên bản.
Nhà phát triển: Xiph.Org Foundation
Phát hành lần đầu: Ngày 01 tháng 5 năm 2000
NIST SPHERE (SPeech HEader REsources) là định dạng tệp âm thanh chuyên dụng do Viện Tiêu chuẩn và Công nghệ Quốc gia Hoa Kỳ phát triển, phục vụ nghiên cứu giọng nói, đặc biệt các dự án được DARPA tài trợ. Định dạng này đóng gói các mẫu âm thanh thô kèm theo phần header ASCII có cấu trúc, chứa siêu dữ liệu như tần số lấy mẫu, số kênh, kiểu mã hóa, thông tin nhân khẩu học người nói và chú thích phiên âm — lý tưởng cho việc phân phối kho dữ liệu giọng nói. Các tệp NIST thường lưu trữ âm thanh PCM không nén hoặc mu-law ở tần số lấy mẫu chất lượng điện thoại (8 kHz hoặc 16 kHz), dù bộ chứa đủ linh hoạt để hỗ trợ nhiều kiểu mã hóa khác. Ưu điểm nổi bật là phần header tự mô tả phong phú, cho phép nhà nghiên cứu nhúng trực tiếp siêu dữ liệu chi tiết của kho ngữ liệu vào tệp mà không cần tệp đi kèm. SPHERE cũng trở thành tiêu chuẩn thực tế cho các cơ sở dữ liệu giọng nói lớn như TIMIT, Switchboard và Fisher corpus, được công nhận rộng rãi trong các phòng thí nghiệm học thuật và chính phủ. Đặc tả mở và sự sẵn có của các công cụ dòng lệnh (sphere, h_strip, w_decode) giúp việc chuyển đổi, kiểm tra và xử lý các tệp này trở nên đơn giản trong các quy trình xử lý giọng nói.
Phát hành lần đầu: 1990

Các câu hỏi thường gặp

Tại sao cần chuyển OGG sang NIST?

NIST SPHERE là định dạng chuẩn cho tập dữ liệu nghiên cứu giọng nói. Công cụ nghiên cứu ngôn ngữ và pipeline huấn luyện ASR mong đợi âm thanh định dạng SPHERE.

Phần mềm nào sử dụng tệp NIST?

HTK, Kaldi, công cụ đánh giá giọng nói NIST và kho ngữ liệu nghiên cứu giọng nói học thuật sử dụng SPHERE làm định dạng âm thanh chính.

NIST có giống SPHERE không?

Đúng — NIST SPHERE (SPeech HEader Resources) được định nghĩa bởi Viện Tiêu chuẩn và Công nghệ Quốc gia cho sử dụng nghiên cứu giọng nói.

NIST hỗ trợ tần số mẫu nào?

Tệp SPHERE thường sử dụng 8 hoặc 16 kHz — tần số chuẩn cho nghiên cứu giọng nói điện thoại và băng rộng.

Tôi có thể chuyển hàng loạt OGG sang NIST không?

Tải lên toàn bộ tập dữ liệu giọng nói OGG và chuyển sang NIST SPHERE trong một lần — sẵn sàng cho pipeline nghiên cứu.