Кога програмерите за прв пат ги тестираат моделите на вештачка интелигенција за транскрипција, честопати се возбудени. Се чувствува како да се најде магично решение кое одеднаш отклучува огромен нов потенцијал... додека некој не ги пресмета бројките. Возбуденоста брзо исчезнува кога вистинските трошоци за интегрирање на овие модели на вештачка интелигенција во бизнис инфраструктурата стануваат очигледни. Магискиот трик почнува да изгледа повеќе како скапо хоби. Високо-класниот хардвер или трошоците за облачна услуга и сложеноста на скалата брзо се зголемуваат, претворајќи го тоа почетно возбуда во проверка на реалноста.
И покрај нивната импресивна точност и способности, добрите модели на вештачка интелигенција за транскрипција претставуваат неколку значајни предизвици. Ајде да ги погледнеме моделите на OpenAI's Whisper, фокусирајќи се на нивните хардверски барања:
Model | Size | RAM Requirement | Speed |
---|---|---|---|
Whisper Tiny | 39 MB | 1 GB | Very Fast (x10) |
Whisper Base | 74 MB | 1.5 GB | Fast (x7) |
Whisper Small | 244 MB | 2 GB | Moderate (x4) |
Whisper Medium | 769 MB | 5 GB | Slower (x2) |
Whisper Large-v3 | 1550 MB | 10 GB | Slowest |
Големите модели на вештачка интелигенција нудат голема точност, но бараат значителна меморија и обработувачка моќ, што може да биде предизвик. Ова е особено вистина за живите транскрипции, каде што брзата обработка е од клучно значење. Големите модели бараат повеќе време за обработка на аудио, што влијае на корисничкото искуство кога се потребни моментални резултати.
За да се постигне рамнотежа помеѓу квалитетот и ефикасноста, провајдерите на услуги за транскрипција SaaS обично не откриваат кои модели на вештачка интелигенција ги користат, често затоа што се обидуваат да ги намалат трошоците со избегнување на големи, ресурсно интензивни модели.
Сепак, поголемите модели се многу важни за квалитетот на вашите транскрипции. Можете да прочитате повеќе за ова тука:
Да видиме колку време ќе ни треба за да го препишеме. Еден час. Презапишани зборови со помош на Whisper large-v3 Модел на AWS:
Graphic Card | EC2 Instance | Cost per Hour | Transcription Time | Total Cost |
---|---|---|---|---|
NVIDIA A100 | p4d.24xlarge | $32.77 | 10 minutes | $5.46 |
NVIDIA V100 | p3.2xlarge | $3.06 | 13 minutes | $0.68 |
NVIDIA T4 | g4dn.xlarge | $0.526 | 40 minutes | $0.35 |
NVIDIA K80 | p2.xlarge | $0.75 | 50 minutes | $0.75 |
NVIDIA M60 | g3s.xlarge | $0.75 | 67 minutes | $0.83 |
(Овие трошоци се базирани на цените на AWS во N. Регионот на Вирџинија и може да варира во зависност од вашиот регион. Данокот не е вклучен. )
Додавањето на дополнителни модели на вештачка интелигенција кои ја подобруваат транскрипцијата како што се превод, временски марки на зборовите, резиме или дијаризација на говорникот може понатаму да ги зголеми барањата за хардвер и трошоците.
Инструментите за транскрипција со отворен код денес се одлични за експериментирање. Тие често се составени од брилијантни докторанти кои се обидуваат да ги прошират границите на науката за податоци. За жал, овие не се подготвени за производство за повеќето деловни барања. За да функционира прилагодено решение, на бизнисите им се потребни експерти за машинско учење, инженери за облак и многу Python програмери, а тоа брзо станува скапо. За мали и средни бизниси, трошоците за собирање на тој тим од соништа може да бидат повисоки од самиот хардвер.
Создавањето на прилагодени решенија за транскрипција на вештачка интелигенција е повеќе од само почетна поставка и хардвер. Редовното ажурирање на GPU драйверите, безбедносните закрпувања и подобрувањата на моделот на вештачка интелигенција додаваат значителни текущи трошоци. Покрај тоа, постои одржување на облачната инфраструктура, справување со прекини на системот, преобучување на моделите кога податоците се развиваат и обезбедување на усогласување со новите прописи за приватност на податоците. Секој од овие фактори бара време, експертиза и ресурси, што се додава на вкупните трошоци за сопственост.
Изградбата на свој систем за транскрипција може да изгледа примамливо, но е комплексно. Тоа вклучува интегрирање на повеќе модели, оптимизирање за брзина и управување со скалираност на хардверот. За повеќето тимови, користењето на воспоставена платформа како VocalStack е многу поефикасно - заштеда на време, пари и главоболки.
За да ги намалат трошоците, програмерите може да се обидат да создадат прилагодено решение прилагодено на нивните уникатни бизнис потреби. Иако ова може да биде изводливо за тимови со длабока експертиза во неколку области, тоа не е без предизвици. Не постои еден пристап за квалитетна транскрипција. Создавањето на стабилна услуга за транскрипција значи интегрирање на повеќе модели на вештачка интелигенција и управување со скалабилни облачни услуги, кои можат да станат комплицирани и интензивни во потрошувачката на ресурси.
Наместо да го градите сопственото решение од нула, што може да биде долготрајно и скапо, поефикасно е да ја искористите платформата на VocalStack која веќе ги решава овие предизвици. Развојот на систем за ракување со големи модели, оптимизирање на брзината, управување со хардверската скалабилност и одржување на економичноста не е тривиално.
Користејќи воспоставено решение како VocalStack, можете да се фокусирате на она што е важно - да го обезбедите најдоброто искуство за транскрипција - без долготраен и скап процес на изградба на сопствена инфраструктура. VocalStack се занимава со сите тешки работи: од оптимизирање на брзината и скалабилноста до управување со хардверските потреби. Тоа ви овозможува да ги прескокнете главоболките и да се нурнете директно во обезбедување на беспрекорна, висококвалитетна услуга за транскрипција. Замислете ја слободата да се иновации без да се грижите за сложени backend предизвици - тоа е она што VocalStack нуди.
Патем, во без дополнителни трошоци,VocalStack користи широк спектар на модели на вештачка интелигенција за значително подобрување на квалитетот на информациите. секоја транскрипција.- Што е тоа?.
Прочитајте повеќе на www.vocalstack.com/business
Ако сте програмер и не ви пречи да си ги изцапате рацете, зошто да не ги пробате моделите со отворен код на Whisper? Оди кон OpenAI's Whisper GitHub репозиториум Експериментирајте со различни модели. (Предупредување: поголемите модели може да предизвикаат прегревање на вашата машина ако немате специјализирана графичка картичка).
По неколку тест транскрипции со Whisper на вашата локална машина, можеби ќе почнете да идентификувате неколку предизвици со рачно користење на Whisper. На пример, скалабилноста може да биде скапа, а Whisper не е оптимизиран за живи транскрипции по подразбирање, што бара дополнителни прилагодени решенија.
Не грижете се, ВокалСтак ви го чува грбот! Преземете го VocalStack JavaScript SDK и транскрипцијата станува лесен:
Scroll Up