VocalStack Logo

Documentation

Transkriptionsdaten abrufen

Abrufen von Daten aus ausstehenden oder abgeschlossenen Transkriptionen

Transkriptionssitzungen

Überwachen und verwalten Sie den Transkriptionsstatus mit Sitzungen

Übersetzen einer Transkription

Übersetzen Sie transkribierten Text in eine andere Sprache

Audio aus URL transkribieren

Transkribieren Sie Sprache aus voraufgezeichnetem Audio in einer URL in Klartext

Clientseitige Authentifizierungs-Token

Erstellen Sie ein temporäres Authentifizierungstoken für clientseitige Anforderungen

Transkriptionsanfrage und Antwort

Gemeinsame Anforderungsoptionen und Antworten für alle Transkriptionsvorgänge

Transkribieren und Präsentieren einer Polyglot-Sitzung

Erstellen Sie eine Sitzung, die verwendet werden kann, um eine Live-Transkription über einen öffentlichen Link zu übertragen

Transkribieren von einem Mikrofon oder LiveStream

Dokumentation durchsuchen
Transkribieren Sie Live-Sprache von einem Mikrofon oder Live-Stream. Integrieren Sie Polyglot, um einen öffentlichen Link für die Transkription zu erstellen, den Benutzer in jeder Sprache lesen können.
Um von einem Mikrofon zu transkribieren, müssen wir kontinuierlich Audio-Datenstrompakete an die VocalStack API senden.
JavaScript
import { LiveTranscription } from '@vocalstack/js-sdk'; const sdk = new LiveTranscription({ apiKey: 'YOUR-API-KEY' }); const stream = await sdk.connect({ // Optional: Integrate this stream with a Polyglot session polyglot_id: 'YOUR-POLYGLOT-SESSION-ID', // Optional: language of the speech spoken // (this can be used to improve the transcription accuracy) language: 'en', // Optional: Translate the transcription to these languages translations: ['de'], // Optional: Stop the stream after this many seconds of inactivity timeout_period_s: 60, // Optional: Hard stop the stream after this many seconds max_duration_s: 300, }); // Start the stream stream.start(); // Get audio data from a microphone and send it to the stream // stream.sendBuffer(buffer); // *** This is a placeholder for the actual implementation *** // Manually stop the stream (in this example, after 60 seconds) // If max_duration_s is set, stopping the stream is optional setTimeout(() => stream.stop(), 60000); // Listen for stream transcription data stream.onData((response) => { const { status, data } = response; console.log(status); // 'waiting', 'processing', 'done', 'stopping' or 'error' if (data) { console.log(data.timeline); // an object with the transcription timeline } if (status === 'done') { console.log(data.summary); // a summary of the transcription console.log(data.keywords); // an array of keywords console.log(data.paragraphs); // the entire transcription in paragraph form } });
Das Abrufen der Audiostream-Daten unterscheidet sich je nach Umgebung, in der Sie die Transkription ausführen möchten. Hier sind ein paar Beispiele, wie Sie dies tun können:
In NextJS solltest du ein Paket installieren, das Audiodaten von deinem Gerät abrufen kann, die du dann an die VocalStack API weiterleiten kannst. Hier ein Beispiel:
JavaScript
const mic = require('mic'); // Create a new instance of the microphone utility const micInstance = mic(); // Get the audio input stream const micStream = micInstance.getAudioStream(); // Capture the audio data from the microphone micStream.on('data', (data) => { stream.sendBuffer(data); // send the buffer data to the VocalStack API }); // Start capturing audio from the microphone micInstance.start();
Im Webbrowser können Sie die Funktion. MediaRecorder API, wie im folgenden Beispiel zu sehen ist. (Es kann auch eine gute Idee sein, ein Paket wie zu verwenden.) recordrtc welches die Browserkompatibilität verbessert)
JavaScript
// Request access to the microphone const mediaStream = await navigator.mediaDevices.getUserMedia({ audio: true }); // Create a MediaRecorder instance to capture audio data const mediaRecorder = new MediaRecorder(mediaStream); // Event handler to process audio data packets mediaRecorder.ondataavailable = async (event) => { const blob = event.data; // this is the audio packet (Blob) const buffer = await blob.arrayBuffer(); // convert the Blob to a Buffer stream.sendBuffer(buffer); // send the buffer data to the VocalStack API }; // Start capturing audio, and send it to the stream every second mediaRecorder.start(1000);
Beachten Sie, dass Sie für den Zugriff auf die VocalStack API auf Web-Clients ein Auth-Token verwenden müssen:
Clientseitige Authentifizierungs-Token
Erstellen Sie ein temporäres Authentifizierungstoken für clientseitige Anforderungen. Implementieren Sie API-Anforderungen sicher in Webbrowsern, ohne Ihre API-Schlüssel offenzulegen.
VocalStack API kann verwendet werden, um jede HLS LiveStream URL zu transkribieren, einschließlich Quellen wie Youtube Live, Facebook Live und Twitch. Bitte beachten Sie, dass die Stream-URL ein. .m3u8 Dateierweiterung, die eine gültige HLS (HTTP Live Streaming) Wiedergabeliste darstellt.
JavaScript
import { LiveTranscription } from '@vocalstack/js-sdk'; const sdk = new LiveTranscription({ apiKey: 'YOUR-API-KEY' }); const stream = await sdk.connect({ // must be a valid HLS streaming protocol livestream_url: 'http://a.files.bbci.co.uk/media/live/manifesto/audio/simulcast/hls/nonuk/sbr_low/ak/bbc_world_service.m3u8', // The rest of these options are the same as for microphone live transcriptons }); stream.start(); stream.onData((response) => { // The response object is the same as the one // returned by microphone transcriptions });
Die Integration von Live-Transkriptionen mit Polyglot ist so einfach wie das Hinzufügen eines polyglot_id Option zur Transkriptionsanforderung, wie in den obigen Beispielen gezeigt.
Polyglot erstellt einen öffentlichen Link, der mit Ihren Transkriptionen verknüpft ist (der Link kann passwortgeschützt sein):
  • Benutzer können Ihre Transkription in Echtzeit über den Link lesen.
  • Die Benutzer können die Sprache auswählen, in der sie die Transkription in Echtzeit lesen möchten.
  • Benutzer können Ihre Transkription zu einem späteren Zeitpunkt lesen, und alle anderen Transkriptionen sind in Ihre spezielle Polyglot-Sitzung integriert.
Sie können gerne die VocalStack API verwenden und Ihre eigene White-Label-Benutzeroberfläche implementieren, anstatt die von VocalStack bereitgestellte zu verwenden. Wir würden uns freuen, wenn Sie uns davon berichten würden, so dass wir lernen können, wie wir unser Produkt verbessern können!
Erfahren Sie mehr darüber, wie Polyglot bei arbeitet Mehr Informationen unter vocalstack.com/polyglot.
Transkribieren und Präsentieren einer Polyglot-Sitzung
Erstellen Sie eine Sitzung, die verwendet werden kann, um eine Live-Transkription über einen öffentlichen Link zu übertragen. Benutzer können Live-Transkripte in ihrer bevorzugten Sprache lesen und sogar vergangene Transkripte, wenn Ihre Sitzung inaktiv ist.
Transkriptionsdaten abrufen
Abrufen von Daten aus ausstehenden oder abgeschlossenen Transkriptionen. Dazu gehören die Transkriptionszeitleiste, Schlüsselwörter, Zusammenfassung und Absatzsegmente.
Clientseitige Authentifizierungs-Token
Erstellen Sie ein temporäres Authentifizierungstoken für clientseitige Anforderungen. Implementieren Sie API-Anforderungen sicher in Webbrowsern, ohne Ihre API-Schlüssel offenzulegen.
Scroll Up