Documentation

Obtener datos de transcripción

Obtenga datos de transcripciones pendientes o completadas

Transcribir desde un micrófono o LiveStream

Transcribe el discurso en vivo desde un micrófono o transmisión en vivo

Sesiones de transcripción

Monitoree y administre el estado de transcripción con sesiones

Transcribir audio desde URL

Transcribir el discurso de audio pregrabado en una URL a texto plano

Tokens de autenticación del lado del cliente

Crear un token de autenticación temporal para solicitudes del lado del cliente

Solicitud y respuesta de transcripción

El código de idioma ISO 639-1 para el discurso.
The
- Si el estado es "en proceso" o "hecho", el objeto de línea de tiempo estará disponible, mostrando toda la transcripción disponible hasta ese punto. La línea de tiempo es un array de objetos que contiene estas propiedades:
- : la transcripción completa agrupada en párrafos, segmentada por temas, o por una transición significativa a un nuevo tema
:,

Transcribir y presentar una sesión políglota

Crear una sesión que se pueda utilizar para transmitir una transcripción en vivo a través de un enlace público compartible

Solicitud y respuesta de transcripción

Buscar en la documentación

Opciones de solicitud y respuestas comunes para todas las operaciones de transcripción.Utilice las opciones para configurar los ajustes de transcripción.

El código de idioma ISO 639-1 para el discurso.

Por ejemplo, "en" (inglés), o "ro" (rumano). Por defecto, VocalStack intentará transcribir en todos los idiomas si esta opción no está disponible. Esto puede ser útil para el habla multilingüe. Sin embargo, si conoces el idioma del discurso, proporcionar esta opción puede aumentar la precisión de la transcripción.

languageLa duración, en segundos, del archivo de audio. Esta opción se utiliza como una protección para asegurar que la transcripción se produce solo si la longitud del archivo de audio coincide con la duración de la opción. Por defecto, esta opción se ignora, y las transcripciones se procesarán independientemente de su longitud. La duración máxima que se puede transcribir, en segundos.
duration_s Use esta opción si desea limitar la cantidad de voz que se transcribe. Si desea procesar toda la transcripción, independientemente de su duración (⚠️ use con precaución). Por defecto, esta opción está configurada en. , asegurando que solo se transcriben las dos primeras horas del discurso.
max_duration_sRespuesta de transcripciónPuede monitorear de forma asíncrona los datos de transcripción a medida que se vuelven disponibles usando. controlador de eventos que proporciona el 0 Objeto.7200El objeto de respuesta

The

objeto tiene las siguientes propiedades:onData: Uno de "esperando", "procesando", "hecho" o "error"response: Un valor entre 0 y 1 que indica el porcentaje de progreso de la transcripción

Si el estado es "en proceso" o "hecho", el objeto de línea de tiempo estará disponible, mostrando toda la transcripción disponible hasta ese punto. La línea de tiempo es un array de objetos que contiene estas propiedades:

: la hora de inicio del segmento de transcripciónresponse: la hora de finalización del segmento de transcripción

status: el trozo de texto en el segmento de transcripción
data.progress: un almacén de clave-valor de códigos de idioma en ISO 639-1 y traducciones (esta propiedad solo está disponible si la transcripción tiene al menos una traducción)
data.timelinePost-procesamientoUna vez que la transcripción se completa, se producirá el postprocesamiento, en cuyo punto el
- start será enviado a
- end.En la respuesta final, el estado de la transcripción será "hecho", y estas nuevas propiedades serán incluidas en el archivo de transcripción.
- text: unas palabras clave que representan los temas de la transcripción
- translations: un resumen de un solo párrafo de toda la transcripción

: la transcripción completa agrupada en párrafos, segmentada por temas, o por una transición significativa a un nuevo tema

Soporte de TypescriptresponseEl SDK JavaScript de VocalStack tiene soporte completo para TypeScript. Por ejemplo, el onData objeto tiene el data type.

keywords:,:
summary:,:
paragraphs:,

:,

:, response:,:UrlTranscriptionResponse:,:

TypeScript
import { UrlTranscription, UrlTranscriptionResponse } from '@vocalstack/js-sdk';

const sdk = new UrlTranscription({ apiKey: 'YOUR-API-KEY' });
const transcription = await sdk.start({ url: 'http://example.com/audio.mp3' });

transcription.onData((response: UrlTranscriptionResponse) => {
  console.log(response.data);
});

Scroll Up

Polyglot

Business

¡Desbloquea el mundo con la transcripción políglota de VocalStack!

Por qué los modelos de IA grandes importan en la transcripción

Documentación

Referencia de API

Documentation

Obtener datos de transcripción

Transcribir desde un micrófono o LiveStream

Sesiones de transcripción

Traducir una transcripción

Transcribir audio desde URL

Tokens de autenticación del lado del cliente

Solicitud y respuesta de transcripción

Transcribir y presentar una sesión políglota

Solicitud y respuesta de transcripción

El código de idioma ISO 639-1 para el discurso.

The

Si el estado es "en proceso" o "hecho", el objeto de línea de tiempo estará disponible, mostrando toda la transcripción disponible hasta ese punto. La línea de tiempo es un array de objetos que contiene estas propiedades:

: la transcripción completa agrupada en párrafos, segmentada por temas, o por una transición significativa a un nuevo tema

:,