Kai kūrėjai pirmą kartą išbando transkripcijos DI modelius, jie dažnai yra sužavėti. Atrodo, kad surasti stebuklingą sprendimą, kuris staiga atveria milžinišką naują potencialą, kol kažkas nesugebės apskaičiuoti skaičių. Džiaugsmas greitai išnyksta, kai tampa aiškios tikrosios sąnaudos, susijusios su šių DI modelių integruojimu į verslo infrastruktūrą. Burtininkas pradeda atrodyti kaip brangus hobis. Aukštos klasės aparatinė įranga arba debesų paslaugų mokesčiai ir skalėjimo sudėtingumas greitai padidėja, paverčiant pradinį jaudulį realybės patikrinimu.
Nepaisant įspūdingo tikslumo ir pajėgumų, geri transkripcijos DI modeliai kelia keletą reikšmingų iššūkių. Pažvelkime į "OpenAI" "Whisper" modelius, sutelkdami dėmesį į jų aparatūros reikalavimus:
Model | Size | RAM Requirement | Speed |
---|---|---|---|
Whisper Tiny | 39 MB | 1 GB | Very Fast (x10) |
Whisper Base | 74 MB | 1.5 GB | Fast (x7) |
Whisper Small | 244 MB | 2 GB | Moderate (x4) |
Whisper Medium | 769 MB | 5 GB | Slower (x2) |
Whisper Large-v3 | 1550 MB | 10 GB | Slowest |
Dideli DI modeliai suteikia didelį tikslumą, tačiau jiems reikia didelės atminties ir apdorojimo galios, o tai gali būti sudėtinga. Tai ypač pasakytina apie gyvus transkripcijas, kuriose labai svarbu greitai apdoroti. Dideliems modelims reikia daugiau laiko apdoroti garsą, o tai daro įtaką naudotojo patirčiai, kai reikalingi akimirksni rezultatai.
Kad būtų užtikrinta kokybė ir efektyvumas, "SaaS" transkripcijos paslaugų teikėjai paprastai neatskleidžia, kokius DI modelius jie naudoja, dažnai todėl, kad jie bando sumažinti išlaidas, vengdami didelių, išteklių dauginčių modelių.
Tačiau didesni modeliai yra labai svarbūs jūsų transkripcijų kokybei. Daugiau apie tai galite perskaityti čia:
Pažiūrėkime, kiek laiko užtruks perrašyti 1 valanda iš anksto įrašytos kalbos, naudojant "Whisper's" large-v3 modelis "AWS":
Graphic Card | EC2 Instance | Cost per Hour | Transcription Time | Total Cost |
---|---|---|---|---|
NVIDIA A100 | p4d.24xlarge | $32.77 | 10 minutes | $5.46 |
NVIDIA V100 | p3.2xlarge | $3.06 | 13 minutes | $0.68 |
NVIDIA T4 | g4dn.xlarge | $0.526 | 40 minutes | $0.35 |
NVIDIA K80 | p2.xlarge | $0.75 | 50 minutes | $0.75 |
NVIDIA M60 | g3s.xlarge | $0.75 | 67 minutes | $0.83 |
(Šios išlaidos pagrįstos AWS kainomis N. Virdžinijos regionas ir gali skirtis priklausomai nuo jūsų regiono. Mokestis neįtrauktas. )
Pridėjus papildomus DI modelius, kurie pagerina transkripciją, pvz., vertimą, žodžių laiko ženklus, santrauką ar kalbėtojo dienoraštį, gali dar labiau padidinti aparatūros reikalavimus ir išlaidas.
Šiandien atviro kodo transkripcijos įrankiai yra puikūs eksperimentams. Juos dažnai sujungia nuostabūs daktaro studentai, bandantys perkelti duomenų mokslo ribas. Deja, jie nėra pasirengę gaminti daugumai verslo reikalavimų. Kad pritaikytas sprendimas veiktų, įmonėms reikia mašininio mokymosi ekspertų, debesų inžinierių ir daugybės "Python" kūrėjų, o tai greitai tampa brangu. Mažoms ir vidutinėms įmonėms tos svajonių komandos surinkimo sąnaudos gali būti didesnės nei pati aparatinė įranga.
Nustatytų AI transkripcijos sprendimų išlaikymas apima ne tik pradinį įrengimą ir aparatūrą. Nuolatinis GPU tvarkyklų atnaujinimai, saugumo pataisos ir DI modelio patobulinimai padidina reikšmingas nuolatines išlaidas. Be to, reikia prižiūrėti debesų infrastruktūrą, spręsti sistemos išjungimus, perprasti modelius, kai duomenys keičiasi, ir užtikrinti, kad būtų laikomasi naujų duomenų privatumo taisyklių. Kiekvienas iš šių veiksnių reikalauja laiko, patirties ir išteklių, o tai padidina bendrą nuosavybės sąnaudas.
Savo transkripcijos sistemos sukūrimas gali atrodyti patrauklus, bet tai sudėtinga. Tai apima kelių modelių integraciją, greičio optimizavimą ir aparatūros skalėtinumo valdymą. Daugeliui komandų, naudojantis įkurta platforma, tokia kaip VocalStack yra daug efektyvesnė - sutaupoma laiko, pinigų ir galvos skausmo.
Norėdami sumažinti išlaidas, kūrėjai gali bandyti sukurti pritaikytą sprendimą, pritaikytą jų unikaliems verslo poreikiams. Nors tai gali būti įmanoma komandoms, turinčioms didelę patirtį keliose srityse, tai nėra be iššūkių. Nėra vienodo požiūrio į kokybišką transkripciją. Tvirtos transkripcijos paslaugos sukūrimas reiškia daugelio DI modelių integraciją ir skalėtinų debesų paslaugų valdymą, kurie gali tapti sudėtingi ir daug išteklių reikalaujantys.
Vietoj to, kad iš pradžių sukurtumėte savo pritaikytą sprendimą, kuris gali būti ilgai ir brangiai, efektyviau pasinaudoti "VocalStack" platforma, kuri jau išsprendžia šiuos iššūkius. Sistemos, kuriančios didelius modelius, optimizuojančios greitį, valdančios aparatūros skalėtinumą ir išlaikyančios sąnaudų efektyvumą, kūrimas nėra nereikšmingas.
Naudodamiesi įkurtu sprendimu, tokiu kaip "VocalStack", galite sutelkti dėmesį į tai, kas svarbu - teikti geriausią transkripcijos patirtį, be laiko ir brangių proceso, kurio metu sukuriate savo infrastruktūrą. "VocalStack" tvarko visus sunkius darbus: nuo greičio ir skalėtinumo optimizavimo iki aparatūros poreikių valdymo. Tai leidžia jums praleisti galvos skausmą ir tiesiog pasinerti į sklandžią, aukštos kokybės transkripcijos paslaugą. Įsivaizduokite laisvę kurti naujoves nesijaudindami dėl sudėtingų backend iššūkių - tai yra tai, ką siūlo VocalStack.
Beje, be papildomų išlaidų,"VocalStack" naudoja įvairius DI modelius, kad žymiai pagerintų "VocalStack" kokybę. kiekviena transkripcija.
Daugiau skaitykite www.vocalstack.com/business
Jei esate kūrėjas ir nesuprantate, kaip užteršti rankas, kodėl gi ne išbandyti "Whisper" atviro kodo modelių? Eikite į "OpenAI" "Whisper" "GitHub" saugykla ir eksperimentuoti su skirtingais modelio dydžiais. (Pasaudžiavimas: didesni modeliai gali sukelti jūsų mašinos perkaitimą, jei neturite specializuotos grafikos kortelės).
Po kelių bandomųjų transkripcijų su "Whisper" vietinėje mašinoje, galite pradėti identifikuoti keletą iššūkių, susijusių su "Whisper" naudojimu rankiniu būdu. Pavyzdžiui, skalėtinumas gali būti brangus, o "Whisper" pagal numatytuosius nustatymus nėra optimizuotas gyviems transkripcijoms, todėl reikia papildomų pritaikytų sprendimų.
Nesijaudink, "VocalStack" tau palaiko nugarą! Atsisiųskite "VocalStack JavaScript SDK" ir transkripcija bus lengva:
Scroll Up