Documentation

Pobierz dane transkrypcji

Pobiera dane z oczekujących lub ukończonych transkrypcji

Transkrypcja

Monitoruj i zarządzaj stanem transkrypcji z sesjami

Przetłumacz a Transscription

Przetłumacz transkrybowany tekst na inny język

Transkrypcja audio z URL

Transkrypcja mowy z nagranego dźwięku w URL do zwykłego tekstu

Tokeny uwierzytelniania po stronie klienta

Utwórz tymczasowy token uwierzytelniania dla żądań po stronie klienta

Żądanie transkrypcji i odpowiedź

Wspólne opcje żądania i odpowiedzi dla wszystkich operacji transkrypcji

Transkrypcja i prezentacja sesji poliglotycznej

Utwórz sesję, która może być użyta do transmisji transkrypcji na żywo za pośrednictwem publicznego łącza udostępniania

Transkrypcja z mikrofonu lub LiveStream

Przeglądaj dokumentację
Transkrypcja mowy na żywo z mikrofonu lub strumienia na żywo. Zintegruj z Polyglot, aby utworzyć publiczny link do transkrypcji, który użytkownicy mogą przeczytać w dowolnym języku.
Aby transkrybować z mikrofonu musimy stale wysyłać pakiety strumieni danych audio do VocalStack API.
JavaScript
import { LiveTranscription } from '@vocalstack/js-sdk'; const sdk = new LiveTranscription({ apiKey: 'YOUR-API-KEY' }); const stream = await sdk.connect({ // Optional: Integrate this stream with a Polyglot session polyglot_id: 'YOUR-POLYGLOT-SESSION-ID', // Optional: language of the speech spoken // (this can be used to improve the transcription accuracy) language: 'en', // Optional: Translate the transcription to these languages translations: ['de'], // Optional: Stop the stream after this many seconds of inactivity timeout_period_s: 60, // Optional: Hard stop the stream after this many seconds max_duration_s: 300, }); // Start the stream stream.start(); // Get audio data from a microphone and send it to the stream // stream.sendBuffer(buffer); // *** This is a placeholder for the actual implementation *** // Manually stop the stream (in this example, after 60 seconds) // If max_duration_s is set, stopping the stream is optional setTimeout(() => stream.stop(), 60000); // Listen for stream transcription data stream.onData((response) => { const { status, data } = response; console.log(status); // 'waiting', 'processing', 'done', 'stopping' or 'error' if (data) { console.log(data.timeline); // an object with the transcription timeline } if (status === 'done') { console.log(data.summary); // a summary of the transcription console.log(data.keywords); // an array of keywords console.log(data.paragraphs); // the entire transcription in paragraph form } });
Pobieranie danych strumienia audio będzie się różnić w zależności od środowiska, w którym chcesz wykonać operację transkrypcji. Oto kilka przykładów, jak można to zrobić:
W NextJS należy zainstalować pakiet, który może pobrać dane audio z urządzenia, które można następnie przekazać do VocalStack API. Oto przykład:
JavaScript
const mic = require('mic'); // Create a new instance of the microphone utility const micInstance = mic(); // Get the audio input stream const micStream = micInstance.getAudioStream(); // Capture the audio data from the microphone micStream.on('data', (data) => { stream.sendBuffer(data); // send the buffer data to the VocalStack API }); // Start capturing audio from the microphone micInstance.start();
W przeglądarce internetowej możesz użyć pozycji. MediaRecorder API, jak widać na poniższym przykładzie (może być również dobrym pomysłem użycie pakietu takiego jak recordrtc which improves browser compatibility)
JavaScript
// Request access to the microphone const mediaStream = await navigator.mediaDevices.getUserMedia({ audio: true }); // Create a MediaRecorder instance to capture audio data const mediaRecorder = new MediaRecorder(mediaStream); // Event handler to process audio data packets mediaRecorder.ondataavailable = async (event) => { const blob = event.data; // this is the audio packet (Blob) const buffer = await blob.arrayBuffer(); // convert the Blob to a Buffer stream.sendBuffer(buffer); // send the buffer data to the VocalStack API }; // Start capturing audio, and send it to the stream every second mediaRecorder.start(1000);
Pamiętaj, że aby uzyskać dostęp do VocalStack API na klientach internetowych, musisz użyć tokenu uwierzytelniania:
Tokeny uwierzytelniania po stronie klienta
Utwórz tymczasowy token uwierzytelniania dla żądań po stronie klienta. Bezpiecznie implementuj żądania API w przeglądarkach internetowych bez ujawniania kluczy API.
VocalStack API może być używany do transkrypcji dowolnego adresu URL HLS LiveStream, w tym źródeł takich jak Youtube Live, Facebook Live i Twitch. Należy pamiętać, że adres URL strumienia musi być. .m3u8 Rozszerzenie pliku, które reprezentuje prawidłowy plik listy odtwarzania HLS (HTTP Live Streaming).
JavaScript
import { LiveTranscription } from '@vocalstack/js-sdk'; const sdk = new LiveTranscription({ apiKey: 'YOUR-API-KEY' }); const stream = await sdk.connect({ // must be a valid HLS streaming protocol livestream_url: 'http://a.files.bbci.co.uk/media/live/manifesto/audio/simulcast/hls/nonuk/sbr_low/ak/bbc_world_service.m3u8', // The rest of these options are the same as for microphone live transcriptons }); stream.start(); stream.onData((response) => { // The response object is the same as the one // returned by microphone transcriptions });
Integracja transkrypcji na żywo z Polyglot jest tak prosta, jak dodanie Poliglot opcja do żądania transkrypcji, jak pokazano w powyższych przykładach.
Polyglot tworzy publiczny link do udostępniania związany z transkrypcjami (link może być chroniony hasłem):
  • Użytkownicy mogą czytać transkrypcję w czasie rzeczywistym za pomocą linku.
  • Użytkownicy mogą wybrać język, w którym mają czytać transkrypcję w czasie rzeczywistym.
  • Użytkownicy mogą przeczytać transkrypcję w późniejszym czasie, a wszystkie inne transkrypcje zintegrowane z konkretną sesją Polyglot.
Zapraszamy do korzystania z VocalStack API i wdrożenia własnego interfejsu użytkownika z białą etykietą zamiast korzystania z tego, który jest dostarczany przez VocalStack. Chcielibyśmy usłyszeć o tym, jeśli to zrobisz, abyśmy mogli dowiedzieć się, jak uczynić nasz produkt lepszym!
Dowiedz się więcej o tym, jak działa Polyglot w języku. Strona główna vocalstack.com/polyglot.
Transkrypcja i prezentacja sesji poliglotycznej
Utwórz sesję, która może być użyta do transmisji transkrypcji na żywo za pośrednictwem publicznego łącza udostępniania. Użytkownicy mogą czytać transkrypcje na żywo w preferowanym języku, a nawet transkrypcje z przeszłości, gdy sesja jest nieaktywna.
Pobierz dane transkrypcji
Pobiera dane z oczekujących lub ukończonych transkrypcji. Obejmuje to oś czasu transkrypcji, słowa kluczowe, podsumowanie i segmenty akapitu.
Tokeny uwierzytelniania po stronie klienta
Utwórz tymczasowy token uwierzytelniania dla żądań po stronie klienta. Bezpiecznie implementuj żądania API w przeglądarkach internetowych bez ujawniania kluczy API.
Scroll Up