Transkrypcja mowy na tekst przy użyciu największych i najpotężniejszych modeli sztucznej inteligencji, w tym: OpenAI Whisper large-v3 LLM. Doskonała obsługa hałasu w tle, wielu akcentów lub mowy na żywo.
Bądź wczesnym użytkownikiem i otrzymuj dodatkowe darmowe godziny transkrypcji każdego miesiąca!
Brak kosztów cyklicznych
Cena za miesiąc
Rozliczane co miesiącRozliczane corocznie
$40 Cena za miesiąc Rozliczane corocznie Co rokuMiesięcznie Co roku |
Pre-recorded Transscriptions | $0.35 Cena za godzinę |
---|---|
Live Transscription | $0.80 Cena za godzinę |
API Access | |
---|---|
Database Access | |
Usługi zarządzane | |
Limit szybkości transkrypcji | max 50 jednoczesnych sesji |
Server Start | warm boot in non-peak times |
Transkrypcja audio z przesłanego pliku | |
---|---|
Transkrypcja audio z URL | |
Transkrypcja dźwięku z mikrofonu | |
Eksportowanie napisów i plików | |
Przetłumacz Transkrypcje | |
Polyglot |
Transkrypcja z mikrofonu | |
---|---|
Transkrypcja z Live Stream | |
Transkrypcje w czasie rzeczywistym za pośrednictwem publicznego adresu URL | |
Tłumaczenia w czasie rzeczywistym za pośrednictwem publicznego adresu URL | |
Historyczne transkrypcje poprzez publiczny adres URL | |
Włącz ochronę hasłem | |
Zaplanowane transkrypcje Livestream |
Wsparcie językowe | 57 języków plus dialekty i akcenty |
---|---|
Automatyczne wykrywanie języka | |
Segmentacja akapitu | |
Sumowanie | |
Word-Level Time Stamps | |
Word-Level Alignment | |
Diaryzacja głosu |
Pomoc & wsparcie | Wsparcie przez e-mail i czat na żywo |
---|---|
SLA |
VocalStack wykorzystuje duże modele językowe (LLM), aby uzyskać najlepszą możliwą jakość transkrypcji, nawet w najbardziej wymagających środowiskach audio. Obejmuje to Whisper, który służy jako podstawowy model dla platformy VocalStack. Duży model Whisper to najnowocześniejszy model sztucznej inteligencji, który został przeszkolony na podstawie ogromnej ilości danych, aby dokładnie rozumieć i transkrybować mowę.
Aby lepiej zrozumieć wpływ rozmiaru modelu AI, użyjmy różnych modeli Whisper do transkrypcji fikcyjnego fragmentu:
Nie, nie zostaniesz obciążony za całą godzinę. Nasze koszty rozliczeniowe są zawsze obliczane za sekundę transkrypcji audio, niezależnie od tego, czy transkrypcja jest nagrana wstępnie, czy na żywo. Oznacza to, że płacisz tylko za to, co musisz przetranskrybować. Jedynym wyjątkiem jest to, że dźwięk musi trwać co najmniej minutę. W przeciwnym razie zostanie naliczona opłata za całą minutę.
Aby jeszcze bardziej to uprościć, oto, ile będziesz płacić w ramach każdego planu za wstępnie nagraną transkrypcję (zakładając, że wykorzystałeś wszystkie bezpłatne godziny transkrypcji w danym miesiącu):
Nie, nie ma żadnych ukrytych kosztów. Płacisz tylko za transkrypcję treści audio. (Innymi słowy, tylko za koszty wymienione w tabeli cenowej. ) Inne funkcje, takie jak automatyczne wykrywanie języka, tłumaczenia, podsumowania, segmentacja akapitu, wykrywanie słów kluczowych i znaczniki czasu są zawarte za darmo.
Co ważne, liczba tłumaczeń nie wpływa na koszt transkrypcji. Na przykład, jeśli dokonasz transkrypcji pliku audio w języku angielskim, a następnie przetłumaczysz go na język hiszpański, francuski i niemiecki, zostaniesz obciążony tylko za transkrypcję audio w języku angielskim. Dotyczy to również transkrypcji na żywo przy użyciu Polyglot. Możesz wykonać nieograniczoną liczbę tłumaczeń w dowolnym momencie bez żadnych dodatkowych opłat.
Wstępnie nagrana transkrypcja odnosi się do procesu transkrypcji dźwięku, który został wcześniej nagrany. Można go przesłać jako plik audio i transkrybować w późniejszym czasie, dzięki czemu nadaje się do podcastów, wywiadów, filmów i innych nagranych treści.
Transkrypcja na żywo odnosi się do procesu transkrypcji dźwięku w czasie rzeczywistym, gdy jest on mówiony. Jest to przydatne w przypadku transmisji na żywo, podcastów, wydarzeń, spotkań, wykładów i innych scenariuszy, w których wymagana jest natychmiastowa transkrypcja (i ewentualnie tłumaczenie)