VocalStack Logo

Documentation

Nhập dữ liệu phiên âm

Lấy dữ liệu từ các bản dịch đang chờ hoặc đã hoàn thành

Phiên bản

Kiểm tra và quản lý trạng thái phiên dịch với các phiên

Dịch một bản dịch

Dịch văn bản được phiên âm sang ngôn ngữ khác

Bản dịch âm thanh từ URL

Transcribe speech from pre-recorded audio in a URL to plain text (bằng tiếng Anh)

Mã xác thực bên máy khách

Tạo một ký hiệu xác thực tạm thời cho các yêu cầu bên máy khách

Yêu cầu và đáp ứng phiên âm

Tùy chọn yêu cầu và đáp ứng chung cho tất cả các thao tác phiên âm

Transcribe và trình bày một phiên họp Polyglot

Tạo một phiên họp có thể được sử dụng để phát sóng một bản ghi trực tiếp thông qua một liên kết chia sẻ công cộng

Transcript từ Microphone hoặc LiveStream

Xem tài liệu
Transcribe live speech from a microphone or live stream. Hợp nhất với Polyglot để tạo một liên kết có thể chia sẻ công khai cho bản dịch mà người dùng có thể đọc bằng bất kỳ ngôn ngữ nào.
Để phiên âm từ một microphone chúng ta phải liên tục gửi các gói dữ liệu âm thanh đến API VocalStack.
JavaScript
import { LiveTranscription } from '@vocalstack/js-sdk'; const sdk = new LiveTranscription({ apiKey: 'YOUR-API-KEY' }); const stream = await sdk.connect({ // Optional: Integrate this stream with a Polyglot session polyglot_id: 'YOUR-POLYGLOT-SESSION-ID', // Optional: language of the speech spoken // (this can be used to improve the transcription accuracy) language: 'en', // Optional: Translate the transcription to these languages translations: ['de'], // Optional: Stop the stream after this many seconds of inactivity timeout_period_s: 60, // Optional: Hard stop the stream after this many seconds max_duration_s: 300, }); // Start the stream stream.start(); // Get audio data from a microphone and send it to the stream // stream.sendBuffer(buffer); // *** This is a placeholder for the actual implementation *** // Manually stop the stream (in this example, after 60 seconds) // If max_duration_s is set, stopping the stream is optional setTimeout(() => stream.stop(), 60000); // Listen for stream transcription data stream.onData((response) => { const { status, data } = response; console.log(status); // 'waiting', 'processing', 'done', 'stopping' or 'error' if (data) { console.log(data.timeline); // an object with the transcription timeline } if (status === 'done') { console.log(data.summary); // a summary of the transcription console.log(data.keywords); // an array of keywords console.log(data.paragraphs); // the entire transcription in paragraph form } });
Việc lấy dữ liệu dòng âm thanh sẽ khác nhau dựa trên môi trường mà bạn muốn thực hiện thao tác phiên âm. Đây là một vài ví dụ về cách bạn có thể làm điều này:
Trong NextJS bạn nên cài đặt một gói có thể lấy dữ liệu âm thanh từ thiết bị của bạn, sau đó bạn có thể chuyển tiếp đến API VocalStack. Đây là một ví dụ:
JavaScript
const mic = require('mic'); // Create a new instance of the microphone utility const micInstance = mic(); // Get the audio input stream const micStream = micInstance.getAudioStream(); // Capture the audio data from the microphone micStream.on('data', (data) => { stream.sendBuffer(data); // send the buffer data to the VocalStack API }); // Start capturing audio from the microphone micInstance.start();
Ở trình duyệt web bạn có thể muốn sử dụng. Trình ghi đĩa đa phương tiệnName API như có thể thấy trong ví dụ sau. (Cũng có thể là một ý tưởng tốt để sử dụng một gói như recordrtc which improves browser compatibility)
JavaScript
// Request access to the microphone const mediaStream = await navigator.mediaDevices.getUserMedia({ audio: true }); // Create a MediaRecorder instance to capture audio data const mediaRecorder = new MediaRecorder(mediaStream); // Event handler to process audio data packets mediaRecorder.ondataavailable = async (event) => { const blob = event.data; // this is the audio packet (Blob) const buffer = await blob.arrayBuffer(); // convert the Blob to a Buffer stream.sendBuffer(buffer); // send the buffer data to the VocalStack API }; // Start capturing audio, and send it to the stream every second mediaRecorder.start(1000);
Ghi chú rằng để truy cập API VocalStack trên máy khách web, bạn cần phải sử dụng một token xác thực:
Mã xác thực bên máy khách
Tạo một ký hiệu xác thực tạm thời cho các yêu cầu bên máy khách. Thực hiện các yêu cầu API an toàn trong trình duyệt web mà không cần tiết lộ các khóa API của bạn.
VocalStack API có thể được sử dụng để phiên âm bất kỳ URL HLS LiveStream nào, bao gồm các nguồn như Youtube Live, Facebook Live, và Twitch. Xin chú ý rằng URL của dòng phải là. . m3u8 file extension that represents a valid HLS (HTTP Live Streaming) playlist file.
JavaScript
import { LiveTranscription } from '@vocalstack/js-sdk'; const sdk = new LiveTranscription({ apiKey: 'YOUR-API-KEY' }); const stream = await sdk.connect({ // must be a valid HLS streaming protocol livestream_url: 'http://a.files.bbci.co.uk/media/live/manifesto/audio/simulcast/hls/nonuk/sbr_low/ak/bbc_world_service.m3u8', // The rest of these options are the same as for microphone live transcriptons }); stream.start(); stream.onData((response) => { // The response object is the same as the one // returned by microphone transcriptions });
Tạo bản dịch trực tiếp với Polyglot đơn giản như thêm một. polyglot_ id option to the transcription request, as demonstrated in the examples above.
Polyglot tạo một liên kết có thể chia sẻ công khai liên quan đến bản phiên âm của bạn (liên kết có thể được bảo vệ bằng mật khẩu):
  • Người dùng có thể đọc bản dịch của bạn trong thời gian thực bằng cách sử dụng liên kết.
  • Người dùng có thể chọn ngôn ngữ để đọc phiên âm trong thời gian thực.
  • Người dùng có thể đọc phiên âm của bạn sau này, và tất cả các phiên âm khác được tích hợp với phiên bản Polyglot của bạn.
Bạn được chào đón để sử dụng API VocalStack và thực hiện giao diện người dùng có nhãn trắng của riêng mình thay vì sử dụng giao diện được cung cấp bởi VocalStack. Chúng tôi sẽ rất vui khi nghe về nó nếu anh muốn, để chúng tôi có thể học hỏi về cách làm cho sản phẩm của mình tốt hơn!
Hãy tìm hiểu thêm về Polyglot làm việc như thế nào tại. vocalstack.com/polyglot.
Transcribe và trình bày một phiên họp Polyglot
Tạo một phiên họp có thể được sử dụng để phát sóng một bản ghi trực tiếp thông qua một liên kết chia sẻ công cộng. Người dùng có thể đọc phiên âm trực tiếp bằng ngôn ngữ yêu thích của họ, và thậm chí phiên âm quá khứ khi phiên bạn dạng của bạn không hoạt động.
Nhập dữ liệu phiên âm
Lấy dữ liệu từ các bản dịch đang chờ hoặc đã hoàn thành. Điều này bao gồm thời gian phiên âm, từ khóa, tóm tắt, và các đoạn văn.
Mã xác thực bên máy khách
Tạo một ký hiệu xác thực tạm thời cho các yêu cầu bên máy khách. Thực hiện các yêu cầu API an toàn trong trình duyệt web mà không cần tiết lộ các khóa API của bạn.
Scroll Up