Documentation

Transkriptionsdaten abrufen

Abrufen von Daten aus ausstehenden oder abgeschlossenen Transkriptionen

Transkribieren von einem Mikrofon oder LiveStream

Von einem Mikrofon transkribieren
- Auf dem Server
- Im Webbrowser
Transkribieren von einem HLS-LiveStream
Integration mit Polyglot
Die nächsten Schritte

Transkriptionssitzungen

Überwachen und verwalten Sie den Transkriptionsstatus mit Sitzungen

Übersetzen einer Transkription

Übersetzen Sie transkribierten Text in eine andere Sprache

Audio aus URL transkribieren

Transkribieren Sie Sprache aus voraufgezeichnetem Audio in einer URL in Klartext

Clientseitige Authentifizierungs-Token

Erstellen Sie ein temporäres Authentifizierungstoken für clientseitige Anforderungen

Transkriptionsanfrage und Antwort

Gemeinsame Anforderungsoptionen und Antworten für alle Transkriptionsvorgänge

Transkribieren und Präsentieren einer Polyglot-Sitzung

Erstellen Sie eine Sitzung, die verwendet werden kann, um eine Live-Transkription über einen öffentlichen Link zu übertragen

Transkribieren von einem Mikrofon oder LiveStream

Dokumentation durchsuchen

Transkribieren Sie Live-Sprache von einem Mikrofon oder Live-Stream. Integrieren Sie Polyglot, um einen öffentlichen Link für die Transkription zu erstellen, den Benutzer in jeder Sprache lesen können.

Von einem Mikrofon transkribieren

Um von einem Mikrofon zu transkribieren, müssen wir kontinuierlich Audio-Datenstrompakete an die VocalStack API senden.

JavaScript
import { LiveTranscription } from '@vocalstack/js-sdk';

const sdk = new LiveTranscription({ apiKey: 'YOUR-API-KEY' });

const stream = await sdk.connect({
  // Optional: Integrate this stream with a Polyglot session
  polyglot_id: 'YOUR-POLYGLOT-SESSION-ID',
  // Optional: language of the speech spoken
  // (this can be used to improve the transcription accuracy)
  language: 'en',
  // Optional: Translate the transcription to these languages
  translations: ['de'],
  // Optional: Stop the stream after this many seconds of inactivity
  timeout_period_s: 60,
  // Optional: Hard stop the stream after this many seconds
  max_duration_s: 300,
});

// Start the stream
stream.start();

// Get audio data from a microphone and send it to the stream
// stream.sendBuffer(buffer);
// *** This is a placeholder for the actual implementation ***

// Manually stop the stream (in this example, after 60 seconds)
// If max_duration_s is set, stopping the stream is optional
setTimeout(() => stream.stop(), 60000);

// Listen for stream transcription data
stream.onData((response) => {
  const { status, data } = response;
  console.log(status); // 'waiting', 'processing', 'done', 'stopping' or 'error'
  if (data) {
    console.log(data.timeline); // an object with the transcription timeline
  }
  if (status === 'done') {
    console.log(data.summary); // a summary of the transcription
    console.log(data.keywords); // an array of keywords
    console.log(data.paragraphs); // the entire transcription in paragraph form
  }
});

Das Abrufen der Audiostream-Daten unterscheidet sich je nach Umgebung, in der Sie die Transkription ausführen möchten. Hier sind ein paar Beispiele, wie Sie dies tun können:

Auf dem Server

In NextJS solltest du ein Paket installieren, das Audiodaten von deinem Gerät abrufen kann, die du dann an die VocalStack API weiterleiten kannst. Hier ein Beispiel:

JavaScript
const mic = require('mic');

// Create a new instance of the microphone utility
const micInstance = mic();

// Get the audio input stream
const micStream = micInstance.getAudioStream();

// Capture the audio data from the microphone
micStream.on('data', (data) => {
  stream.sendBuffer(data); // send the buffer data to the VocalStack API
});

// Start capturing audio from the microphone
micInstance.start();

Im Webbrowser

Im Webbrowser können Sie die Funktion. MediaRecorder API, wie im folgenden Beispiel zu sehen ist. (Es kann auch eine gute Idee sein, ein Paket wie zu verwenden.) recordrtc welches die Browserkompatibilität verbessert)

JavaScript
// Request access to the microphone
const mediaStream = await navigator.mediaDevices.getUserMedia({ audio: true });

// Create a MediaRecorder instance to capture audio data
const mediaRecorder = new MediaRecorder(mediaStream);

// Event handler to process audio data packets
mediaRecorder.ondataavailable = async (event) => {
  const blob = event.data; // this is the audio packet (Blob)
  const buffer = await blob.arrayBuffer(); // convert the Blob to a Buffer
  stream.sendBuffer(buffer); // send the buffer data to the VocalStack API
};

// Start capturing audio, and send it to the stream every second
mediaRecorder.start(1000);

Beachten Sie, dass Sie für den Zugriff auf die VocalStack API auf Web-Clients ein Auth-Token verwenden müssen:

Clientseitige Authentifizierungs-Token

Erstellen Sie ein temporäres Authentifizierungstoken für clientseitige Anforderungen. Implementieren Sie API-Anforderungen sicher in Webbrowsern, ohne Ihre API-Schlüssel offenzulegen.

Transkribieren von einem HLS-LiveStream

VocalStack API kann verwendet werden, um jede HLS LiveStream URL zu transkribieren, einschließlich Quellen wie Youtube Live, Facebook Live und Twitch. Bitte beachten Sie, dass die Stream-URL ein. .m3u8 Dateierweiterung, die eine gültige HLS (HTTP Live Streaming) Wiedergabeliste darstellt.

JavaScript
import { LiveTranscription } from '@vocalstack/js-sdk';

const sdk = new LiveTranscription({ apiKey: 'YOUR-API-KEY' });

const stream = await sdk.connect({
  // must be a valid HLS streaming protocol
  livestream_url:
    'http://a.files.bbci.co.uk/media/live/manifesto/audio/simulcast/hls/nonuk/sbr_low/ak/bbc_world_service.m3u8',

  // The rest of these options are the same as for microphone live transcriptons
});

stream.start();

stream.onData((response) => {
  // The response object is the same as the one
  // returned by microphone transcriptions
});

Integration mit Polyglot

Die Integration von Live-Transkriptionen mit Polyglot ist so einfach wie das Hinzufügen eines polyglot_id Option zur Transkriptionsanforderung, wie in den obigen Beispielen gezeigt.

Leistungen

Polyglot erstellt einen öffentlichen Link, der mit Ihren Transkriptionen verknüpft ist (der Link kann passwortgeschützt sein):

Benutzer können Ihre Transkription in Echtzeit über den Link lesen.
Die Benutzer können die Sprache auswählen, in der sie die Transkription in Echtzeit lesen möchten.
Benutzer können Ihre Transkription zu einem späteren Zeitpunkt lesen, und alle anderen Transkriptionen sind in Ihre spezielle Polyglot-Sitzung integriert.

White Labeling

Sie können gerne die VocalStack API verwenden und Ihre eigene White-Label-Benutzeroberfläche implementieren, anstatt die von VocalStack bereitgestellte zu verwenden. Wir würden uns freuen, wenn Sie uns davon berichten würden, so dass wir lernen können, wie wir unser Produkt verbessern können!

Erfahren Sie mehr

Erfahren Sie mehr darüber, wie Polyglot bei arbeitet Mehr Informationen unter vocalstack.com/polyglot.

Die nächsten Schritte

Transkribieren und Präsentieren einer Polyglot-Sitzung

Erstellen Sie eine Sitzung, die verwendet werden kann, um eine Live-Transkription über einen öffentlichen Link zu übertragen. Benutzer können Live-Transkripte in ihrer bevorzugten Sprache lesen und sogar vergangene Transkripte, wenn Ihre Sitzung inaktiv ist.

Transkriptionsdaten abrufen

Abrufen von Daten aus ausstehenden oder abgeschlossenen Transkriptionen. Dazu gehören die Transkriptionszeitleiste, Schlüsselwörter, Zusammenfassung und Absatzsegmente.

Clientseitige Authentifizierungs-Token

Erstellen Sie ein temporäres Authentifizierungstoken für clientseitige Anforderungen. Implementieren Sie API-Anforderungen sicher in Webbrowsern, ohne Ihre API-Schlüssel offenzulegen.

Scroll Up

Polyglot

Business

Entdecken Sie die Welt mit VocalStacks Polyglot-Transkription!

Warum große KI-Modelle bei der Transkription wichtig sind

Dokumentation

API Referenz

Documentation

Transkriptionsdaten abrufen

Transkribieren von einem Mikrofon oder LiveStream

Transkriptionssitzungen

Übersetzen einer Transkription

Audio aus URL transkribieren

Clientseitige Authentifizierungs-Token

Transkriptionsanfrage und Antwort

Transkribieren und Präsentieren einer Polyglot-Sitzung

Transkribieren von einem Mikrofon oder LiveStream