VocalStack Logo

Documentation

Ottieni dati di trascrizione

Ottieni dati da trascrizioni in sospeso o completate

Sessioni di trascrizione

Monitorare e gestire lo stato della trascrizione con le sessioni

Tradurre una Trascrizione

Traduci il testo trascritto in un'altra lingua

Trascrivere Audio da URL

Trascrivi il discorso dall'audio preregistrato in un URL in testo normale

Token di autenticazione lato client

Crea un token di autenticazione temporaneo per le richieste lato client

Richiesta e risposta di trascrizione

Opzioni e risposte comuni per tutte le operazioni di trascrizione

Trascrivere e presentare una sessione poliglotta

Creare una sessione che può essere utilizzata per trasmettere una trascrizione dal vivo tramite un link condivisibile pubblico

Trascrizione da un microfono o LiveStream

Sfoglia la documentazione
Trascrivi il discorso dal vivo da un microfono o da un live stream. Integrate Polyglot per creare un link pubblico condivisibile per la trascrizione che gli utenti possono leggere in qualsiasi lingua.
Per trascrivere da un microfono dobbiamo inviare continuamente pacchetti di flusso di dati audio all'API VocalStack.
JavaScript
import { LiveTranscription } from '@vocalstack/js-sdk'; const sdk = new LiveTranscription({ apiKey: 'YOUR-API-KEY' }); const stream = await sdk.connect({ // Optional: Integrate this stream with a Polyglot session polyglot_id: 'YOUR-POLYGLOT-SESSION-ID', // Optional: language of the speech spoken // (this can be used to improve the transcription accuracy) language: 'en', // Optional: Translate the transcription to these languages translations: ['de'], // Optional: Stop the stream after this many seconds of inactivity timeout_period_s: 60, // Optional: Hard stop the stream after this many seconds max_duration_s: 300, }); // Start the stream stream.start(); // Get audio data from a microphone and send it to the stream // stream.sendBuffer(buffer); // *** This is a placeholder for the actual implementation *** // Manually stop the stream (in this example, after 60 seconds) // If max_duration_s is set, stopping the stream is optional setTimeout(() => stream.stop(), 60000); // Listen for stream transcription data stream.onData((response) => { const { status, data } = response; console.log(status); // 'waiting', 'processing', 'done', 'stopping' or 'error' if (data) { console.log(data.timeline); // an object with the transcription timeline } if (status === 'done') { console.log(data.summary); // a summary of the transcription console.log(data.keywords); // an array of keywords console.log(data.paragraphs); // the entire transcription in paragraph form } });
L'ottenimento dei dati del flusso audio sarà diverso in base all'ambiente in cui si desidera eseguire l'operazione di trascrizione. Ecco un paio di esempi di come si potrebbe fare questo:
In NextJS dovresti installare un pacchetto che possa recuperare i dati audio dal tuo dispositivo, che puoi poi inoltrare all'API VocalStack. Ecco un esempio:
JavaScript
const mic = require('mic'); // Create a new instance of the microphone utility const micInstance = mic(); // Get the audio input stream const micStream = micInstance.getAudioStream(); // Capture the audio data from the microphone micStream.on('data', (data) => { stream.sendBuffer(data); // send the buffer data to the VocalStack API }); // Start capturing audio from the microphone micInstance.start();
Sul browser web si può usare il comando. MediaRecorder (Può anche essere una buona idea usare un pacchetto come.py, che può essere scaricato da questo link:.py). recordrtc che migliora la compatibilità del browser)
JavaScript
// Request access to the microphone const mediaStream = await navigator.mediaDevices.getUserMedia({ audio: true }); // Create a MediaRecorder instance to capture audio data const mediaRecorder = new MediaRecorder(mediaStream); // Event handler to process audio data packets mediaRecorder.ondataavailable = async (event) => { const blob = event.data; // this is the audio packet (Blob) const buffer = await blob.arrayBuffer(); // convert the Blob to a Buffer stream.sendBuffer(buffer); // send the buffer data to the VocalStack API }; // Start capturing audio, and send it to the stream every second mediaRecorder.start(1000);
Nota che per accedere all'API VocalStack sui client web dovrai utilizzare un token di autenticazione:
Token di autenticazione lato client
Crea un token di autenticazione temporaneo per le richieste lato client. Implementa in modo sicuro le richieste API nei browser Web senza esporre le chiavi API.
VocalStack API può essere utilizzato per trascrivere qualsiasi URL HLS LiveStream, comprese le fonti come Youtube Live, Facebook Live e Twitch. Si prega di notare che l'URL del flusso deve essere un. .m3u8 è un'estensione di file che rappresenta un file di playlist HLS (HTTP Live Streaming) valido.
JavaScript
import { LiveTranscription } from '@vocalstack/js-sdk'; const sdk = new LiveTranscription({ apiKey: 'YOUR-API-KEY' }); const stream = await sdk.connect({ // must be a valid HLS streaming protocol livestream_url: 'http://a.files.bbci.co.uk/media/live/manifesto/audio/simulcast/hls/nonuk/sbr_low/ak/bbc_world_service.m3u8', // The rest of these options are the same as for microphone live transcriptons }); stream.start(); stream.onData((response) => { // The response object is the same as the one // returned by microphone transcriptions });
Integrare le trascrizioni dal vivo con Polyglot è semplice come aggiungere un. poliglot_id opzione alla richiesta di trascrizione, come dimostrato negli esempi sopra.
Polyglot crea un link pubblico condivisibile associato alle tue trascrizioni (il link può essere protetto da password):
  • Gli utenti possono leggere la tua trascrizione in tempo reale utilizzando il link.
  • Gli utenti possono scegliere la lingua in cui leggere la trascrizione in tempo reale.
  • Gli utenti possono leggere la tua trascrizione in un secondo momento, e tutte le altre trascrizioni integrate con la tua particolare sessione Polyglot.
Siete invitati a utilizzare l'API VocalStack e implementare la vostra interfaccia utente white label invece di utilizzare quella fornita da VocalStack. Ci piacerebbe sentire di esso se lo fai, così possiamo imparare a rendere il nostro prodotto migliore!
Scopri di più su come funziona Polyglot a. Visualizza il sito vocalstack.com/polyglot.
Trascrivere e presentare una sessione poliglotta
Creare una sessione che può essere utilizzata per trasmettere una trascrizione dal vivo tramite un link condivisibile pubblico. Gli utenti possono leggere le trascrizioni in tempo reale nella loro lingua preferita e anche le trascrizioni passate quando la sessione è inattiva.
Ottieni dati di trascrizione
Ottieni dati da trascrizioni in sospeso o completate. Questo include la timeline di trascrizione, le parole chiave, il riepilogo e i segmenti di paragrafo.
Token di autenticazione lato client
Crea un token di autenticazione temporaneo per le richieste lato client. Implementa in modo sicuro le richieste API nei browser Web senza esporre le chiavi API.
Scroll Up