Transcriviu la veu a text utilitzant els models d'IA més grans i potents disponibles, incloent: OpenAI Whisper large-v3 LLM. Excel· lent gestió del soroll de fons, accents múltiples o veu en directe.
Sigueu un dels primers a adoptar-lo i rebi hores de transcripció gratuïtes addicionals cada mes!
Sense costos recurrents
$40 per mes Facturació anual AnualmentMensual Anualment |
Transcripcions pregravades | $0.35 per hora |
---|---|
Transcripció en directe | $0.80 per hora |
Accés API | |
---|---|
Accés a la base de dades | |
Serveis gestionats | |
Límit de la taxa de transcripció | màx. 50 sessions simultànies |
Inici del servidor | warm boot in non-peak times |
Transcriu l' àudio des del fitxer pujat | |
---|---|
Transcriu l' àudio des de l' URL | |
Transcriu l' àudio des del micròfon | |
Exporta subtítols i fitxers | |
Tradueix les transcripcions | |
Polyglot |
Transcripció des del micròfon | |
---|---|
Transcriu des de la seqüència en directe | |
Transcripcions en temps real via URL públic | |
Traduccions en temps real via URL públic | |
Transcripcions històriques via URL públic | |
Habilita la protecció per contrasenya | |
Transcripcions de flux en directe planificades |
Implementació d' idioma | 57 idiomes més dialectes i accents |
---|---|
Detecció automàtica de l' idioma | |
Segmentació de paràgrafs | |
Resum | |
Estampats de temps a nivell de paraula | |
Alineament a nivell de paraula | |
Diarització de parlants |
Ajuda i suport | Implementació de correu electrònic i xat en viu |
---|---|
SLA |
VocalStack utilitza grans models de llenguatge (LLM) per obtenir la millor qualitat de transcripció possible, fins i tot en els entorns d'àudio més desafiants. Això inclou Whisper, que serveix com a model bàsic per a la plataforma VocalStack. El gran model Whisper és un model d'IA d'última generació que ha estat entrenat en una gran quantitat de dades per entendre i transcriure la parla amb precisió.
Per entendre millor l'impacte de la mida d'un model d'IA, utilitzem els diferents models Whisper per transcriure un fragment fictici:
No, no et facturaran tota l'hora. Els nostres costos de facturació sempre es calculen per segon d'àudio transcrit, independentment de si la transcripció és un àudio preenregistrat o en directe. Això vol dir que només et facturen pel que necessites transcriure. L'única excepció és que l'àudio ha de durar almenys un minut. En cas contrari, se us facturarà el minut sencer.
Per simplificar- ho encara més, aquí teniu el que se us facturarà en cada pla per una transcripció preenregistrada (suposant que heu utilitzat totes les hores de transcripció gratuïtes del mes):
No, no hi ha costos ocults. Només pagueu per la transcripció del vostre contingut d'àudio. (En altres paraules, només pels costos que apareixen a la taula de preus. ) Altres característiques com la detecció automàtica de l' idioma, traduccions, resum, segmentació de paràgrafs, detecció de paraules clau i marques de temps s' inclouen de forma gratuïta.
Importantment, el nombre de traduccions no afecta el cost de la transcripció. Per exemple, si transcriu un arxiu d'àudio en anglès i després el tradueix al castellà, francès i alemany, només se li facturarà la transcripció de l'àudio en anglès. Això també s'aplica a les transcripcions en directe utilitzant Polyglot. Podeu realitzar un nombre ilimitat de traduccions en qualsevol moment sense cap càrrec addicional.
La transcripció prèviament gravada es refereix al procés de transcripció d'àudio que s'ha gravat prèviament. Es pot pujar com un arxiu d'àudio i transcrit en un moment posterior, fent-lo adequat per a podcasts, entrevistes, vídeos i altres continguts gravats.
La transcripció en directe es refereix al procés de transcriure l'àudio en temps real mentre es parla. Això és útil per a fluxos en directe, podcasts, esdeveniments, reunions, conferències i altres escenaris on es requereix la transcripció immediata (i possiblement la traducció)