Documentation

Ottieni dati di trascrizione

Ottieni dati da trascrizioni in sospeso o completate

Trascrizione da un microfono o LiveStream

Trascrivere da un Microfono
- Sul server
- Sul browser Web
Trascrizione da un LiveStream HLS
Integrazione con Polyglot
I prossimi passi

Sessioni di trascrizione

Monitorare e gestire lo stato della trascrizione con le sessioni

Tradurre una Trascrizione

Traduci il testo trascritto in un'altra lingua

Trascrivere Audio da URL

Trascrivi il discorso dall'audio preregistrato in un URL in testo normale

Token di autenticazione lato client

Crea un token di autenticazione temporaneo per le richieste lato client

Richiesta e risposta di trascrizione

Opzioni e risposte comuni per tutte le operazioni di trascrizione

Trascrivere e presentare una sessione poliglotta

Creare una sessione che può essere utilizzata per trasmettere una trascrizione dal vivo tramite un link condivisibile pubblico

Trascrizione da un microfono o LiveStream

Sfoglia la documentazione

Trascrivi il discorso dal vivo da un microfono o da un live stream. Integrate Polyglot per creare un link pubblico condivisibile per la trascrizione che gli utenti possono leggere in qualsiasi lingua.

Trascrivere da un Microfono

Per trascrivere da un microfono dobbiamo inviare continuamente pacchetti di flusso di dati audio all'API VocalStack.

JavaScript
import { LiveTranscription } from '@vocalstack/js-sdk';

const sdk = new LiveTranscription({ apiKey: 'YOUR-API-KEY' });

const stream = await sdk.connect({
  // Optional: Integrate this stream with a Polyglot session
  polyglot_id: 'YOUR-POLYGLOT-SESSION-ID',
  // Optional: language of the speech spoken
  // (this can be used to improve the transcription accuracy)
  language: 'en',
  // Optional: Translate the transcription to these languages
  translations: ['de'],
  // Optional: Stop the stream after this many seconds of inactivity
  timeout_period_s: 60,
  // Optional: Hard stop the stream after this many seconds
  max_duration_s: 300,
});

// Start the stream
stream.start();

// Get audio data from a microphone and send it to the stream
// stream.sendBuffer(buffer);
// *** This is a placeholder for the actual implementation ***

// Manually stop the stream (in this example, after 60 seconds)
// If max_duration_s is set, stopping the stream is optional
setTimeout(() => stream.stop(), 60000);

// Listen for stream transcription data
stream.onData((response) => {
  const { status, data } = response;
  console.log(status); // 'waiting', 'processing', 'done', 'stopping' or 'error'
  if (data) {
    console.log(data.timeline); // an object with the transcription timeline
  }
  if (status === 'done') {
    console.log(data.summary); // a summary of the transcription
    console.log(data.keywords); // an array of keywords
    console.log(data.paragraphs); // the entire transcription in paragraph form
  }
});

L'ottenimento dei dati del flusso audio sarà diverso in base all'ambiente in cui si desidera eseguire l'operazione di trascrizione. Ecco un paio di esempi di come si potrebbe fare questo:

Sul server

In NextJS dovresti installare un pacchetto che possa recuperare i dati audio dal tuo dispositivo, che puoi poi inoltrare all'API VocalStack. Ecco un esempio:

JavaScript
const mic = require('mic');

// Create a new instance of the microphone utility
const micInstance = mic();

// Get the audio input stream
const micStream = micInstance.getAudioStream();

// Capture the audio data from the microphone
micStream.on('data', (data) => {
  stream.sendBuffer(data); // send the buffer data to the VocalStack API
});

// Start capturing audio from the microphone
micInstance.start();

Sul browser Web

Sul browser web si può usare il comando. MediaRecorder (Può anche essere una buona idea usare un pacchetto come.py, che può essere scaricato da questo link:.py). recordrtc che migliora la compatibilità del browser)

JavaScript
// Request access to the microphone
const mediaStream = await navigator.mediaDevices.getUserMedia({ audio: true });

// Create a MediaRecorder instance to capture audio data
const mediaRecorder = new MediaRecorder(mediaStream);

// Event handler to process audio data packets
mediaRecorder.ondataavailable = async (event) => {
  const blob = event.data; // this is the audio packet (Blob)
  const buffer = await blob.arrayBuffer(); // convert the Blob to a Buffer
  stream.sendBuffer(buffer); // send the buffer data to the VocalStack API
};

// Start capturing audio, and send it to the stream every second
mediaRecorder.start(1000);

Nota che per accedere all'API VocalStack sui client web dovrai utilizzare un token di autenticazione:

Token di autenticazione lato client

Crea un token di autenticazione temporaneo per le richieste lato client. Implementa in modo sicuro le richieste API nei browser Web senza esporre le chiavi API.

Trascrizione da un LiveStream HLS

VocalStack API può essere utilizzato per trascrivere qualsiasi URL HLS LiveStream, comprese le fonti come Youtube Live, Facebook Live e Twitch. Si prega di notare che l'URL del flusso deve essere un. .m3u8 è un'estensione di file che rappresenta un file di playlist HLS (HTTP Live Streaming) valido.

JavaScript
import { LiveTranscription } from '@vocalstack/js-sdk';

const sdk = new LiveTranscription({ apiKey: 'YOUR-API-KEY' });

const stream = await sdk.connect({
  // must be a valid HLS streaming protocol
  livestream_url:
    'http://a.files.bbci.co.uk/media/live/manifesto/audio/simulcast/hls/nonuk/sbr_low/ak/bbc_world_service.m3u8',

  // The rest of these options are the same as for microphone live transcriptons
});

stream.start();

stream.onData((response) => {
  // The response object is the same as the one
  // returned by microphone transcriptions
});

Integrazione con Polyglot

Integrare le trascrizioni dal vivo con Polyglot è semplice come aggiungere un. poliglot_id opzione alla richiesta di trascrizione, come dimostrato negli esempi sopra.

Benefici

Polyglot crea un link pubblico condivisibile associato alle tue trascrizioni (il link può essere protetto da password):

Gli utenti possono leggere la tua trascrizione in tempo reale utilizzando il link.
Gli utenti possono scegliere la lingua in cui leggere la trascrizione in tempo reale.
Gli utenti possono leggere la tua trascrizione in un secondo momento, e tutte le altre trascrizioni integrate con la tua particolare sessione Polyglot.

White labelling

Siete invitati a utilizzare l'API VocalStack e implementare la vostra interfaccia utente white label invece di utilizzare quella fornita da VocalStack. Ci piacerebbe sentire di esso se lo fai, così possiamo imparare a rendere il nostro prodotto migliore!

Scopri di più

Scopri di più su come funziona Polyglot a. Visualizza il sito vocalstack.com/polyglot.

I prossimi passi

Trascrivere e presentare una sessione poliglotta

Creare una sessione che può essere utilizzata per trasmettere una trascrizione dal vivo tramite un link condivisibile pubblico. Gli utenti possono leggere le trascrizioni in tempo reale nella loro lingua preferita e anche le trascrizioni passate quando la sessione è inattiva.

Ottieni dati di trascrizione

Ottieni dati da trascrizioni in sospeso o completate. Questo include la timeline di trascrizione, le parole chiave, il riepilogo e i segmenti di paragrafo.

Token di autenticazione lato client

Crea un token di autenticazione temporaneo per le richieste lato client. Implementa in modo sicuro le richieste API nei browser Web senza esporre le chiavi API.

Scroll Up

Polyglot

Business

Sblocca il mondo con la trascrizione poliglotta di VocalStack!

Perché i modelli AI di grandi dimensioni sono importanti nella trascrizione

Documentazione

Riferimento API

Documentation

Ottieni dati di trascrizione

Trascrizione da un microfono o LiveStream

Sessioni di trascrizione

Tradurre una Trascrizione

Trascrivere Audio da URL

Token di autenticazione lato client

Richiesta e risposta di trascrizione

Trascrivere e presentare una sessione poliglotta

Trascrizione da un microfono o LiveStream