Cuando los desarrolladores prueban por primera vez modelos de IA de transcripción, a menudo están emocionados. Se siente como encontrar una solución mágica que de repente desbloquea un tremendo nuevo potencial... hasta que alguien hace los números. La emoción se desvanece rápidamente cuando los costos reales de integrar estos modelos de IA en la infraestructura empresarial se vuelven evidentes. El truco de magia comienza a parecer más un pasatiempo caro. El hardware de alta gama, o las tarifas de servicio en la nube, y la complejidad de la escala se suman rápidamente, convirtiendo esa emoción inicial en una comprobación de la realidad.
A pesar de su impresionante precisión y capacidades, los buenos modelos de IA de transcripción presentan varios desafíos significativos. Echemos un vistazo a los modelos de susurro de OpenAI, centrándonos en sus requisitos de hardware:
Model | Size | RAM Requirement | Speed |
---|---|---|---|
Whisper Tiny | 39 MB | 1 GB | Very Fast (x10) |
Whisper Base | 74 MB | 1.5 GB | Fast (x7) |
Whisper Small | 244 MB | 2 GB | Moderate (x4) |
Whisper Medium | 769 MB | 5 GB | Slower (x2) |
Whisper Large-v3 | 1550 MB | 10 GB | Slowest |
Los grandes modelos de IA ofrecen una gran precisión, pero requieren una memoria y una potencia de procesamiento significativas, lo que puede ser un desafío. Esto es especialmente cierto para las transcripciones en vivo, donde el procesamiento rápido es crucial. Los modelos grandes tardan más tiempo en procesar el audio, lo que afecta la experiencia del usuario cuando se necesitan resultados instantáneos.
Para equilibrar la calidad y la eficiencia, los proveedores de servicios de transcripción SaaS generalmente no revelan qué modelos de IA utilizan, a menudo porque están tratando de reducir costos evitando modelos grandes e intensivos en recursos.
Sin embargo, los modelos más grandes son muy importantes para la calidad de sus transcripciones. Puede leer más sobre esto aquí:
Veamos cuánto tiempo llevaría transcribirlo. Una hora. de habla pregrabada usando el susurro large-v3 modelo en AWS:
Graphic Card | EC2 Instance | Cost per Hour | Transcription Time | Total Cost |
---|---|---|---|---|
NVIDIA A100 | p4d.24xlarge | $32.77 | 10 minutes | $5.46 |
NVIDIA V100 | p3.2xlarge | $3.06 | 13 minutes | $0.68 |
NVIDIA T4 | g4dn.xlarge | $0.526 | 40 minutes | $0.35 |
NVIDIA K80 | p2.xlarge | $0.75 | 50 minutes | $0.75 |
NVIDIA M60 | g3s.xlarge | $0.75 | 67 minutes | $0.83 |
(Estos costes se basan en los precios de AWS en el N. Virginia y puede variar según su región. El impuesto no está incluido. (Entrevista con el ponente)
La adición de modelos de IA suplementarios que mejoran la transcripción como la traducción, las marcas de tiempo de las palabras, el resumen o la diarización del orador puede aumentar aún más los requisitos y costos de hardware.
Las herramientas de transcripción de código abierto de hoy son excelentes para experimentar. A menudo son reunidos por brillantes estudiantes de doctorado que intentan empujar los límites de la ciencia de datos. Desafortunadamente, estos no están listos para la producción para la mayoría de los requisitos empresariales. Para que una solución personalizada funcione, las empresas necesitan expertos en aprendizaje automático, ingenieros de nube y muchos desarrolladores de Python, y eso se vuelve caro rápidamente. Para las pequeñas y medianas empresas, el costo de reunir ese equipo de ensueño puede ser más alto que el propio hardware.
El mantenimiento de soluciones de transcripción de IA personalizadas va más allá de la configuración inicial y el hardware. Mantenerse al día con las actualizaciones regulares de controladores de GPU, parches de seguridad y mejoras en el modelo de IA agrega costos continuos significativos. Además de eso, hay el mantenimiento de la infraestructura de nube, lidiar con interrupciones del sistema, volver a entrenar modelos cuando los datos evolucionan y garantizar el cumplimiento de las nuevas regulaciones de privacidad de datos. Cada uno de estos factores requiere tiempo, experiencia y recursos, lo que aumenta el costo total de la propiedad.
Construir tu propio sistema de transcripción puede parecer tentador, pero es complejo. Implica la integración de múltiples modelos, la optimización para la velocidad y la gestión de la escalabilidad del hardware. Para la mayoría de los equipos, usar una plataforma establecida como VocalStack es mucho más eficiente, ahorrando tiempo, dinero y dolores de cabeza.
Para reducir los costos, los desarrolladores podrían intentar crear una solución personalizada adaptada a sus necesidades comerciales únicas. Si bien esto puede ser factible para equipos con una profunda experiencia en varios campos, no está exento de desafíos. No existe un enfoque único para la transcripción de calidad. Crear un servicio de transcripción robusto significa integrar múltiples modelos de IA y administrar servicios en la nube escalables, que pueden ser complicados e intensivos en recursos.
En lugar de construir su propia solución personalizada desde cero, lo que puede ser costoso y llevar mucho tiempo, es más eficiente aprovechar la plataforma de VocalStack que ya resuelve estos desafíos. Desarrollar un sistema para manejar grandes modelos, optimizar la velocidad, administrar la escalabilidad del hardware y mantener la eficiencia de costos no es trivial.
Al usar una solución establecida como VocalStack, puede centrarse en lo que importa, ofrecer la mejor experiencia de transcripción, sin el proceso costoso y que consume mucho tiempo de construir su propia infraestructura. VocalStack maneja todo el trabajo pesado: desde la optimización de la velocidad y la escalabilidad hasta la gestión de las necesidades de hardware. Le permite saltarse los dolores de cabeza y sumergirse directamente en la prestación de un servicio de transcripción sin problemas y de alta calidad. Imagínese la libertad de innovar sin preocuparse por los complejos desafíos de backend, eso es lo que ofrece VocalStack.
Por cierto, en sin coste adicional,VocalStack aprovecha una amplia gama de modelos de IA para mejorar significativamente la calidad de cada una de las transcripciones.No lo sé.
Leer más en www.vocalstack.com/business
Si eres un desarrollador y no te importa ensuciarte las manos, ¿por qué no pruebas los modelos de código abierto de Whisper? Dirigirse hacia El repositorio de GitHub de OpenAI y experimentar con los diferentes tamaños de modelo. (Advertencia: los modelos más grandes pueden hacer que su máquina se sobrecalente si no tiene una tarjeta gráfica especializada).
Después de algunas transcripciones de prueba con Whisper en su máquina local, es posible que comience a identificar varios desafíos con el uso de Whisper manualmente. Por ejemplo, la escalabilidad puede ser costosa, y Whisper no está optimizado para transcripciones en vivo por defecto, lo que requiere soluciones personalizadas adicionales.
¡No te preocupes, VocalStack tiene tu espalda! Descargue el VocalStack JavaScript SDK y la transcripción se convierte en una brisa:
Scroll Up