عندما يجرب المطورون لأول مرة نماذج الذكاء الاصطناعي النسخية، غالباً ما يكونوا متحمسين. يبدو الأمر وكأنه إيجاد حل سحري يفتح فجأة إمكانيات جديدة هائلة حتى يقوم شخص ما بحساب الأرقام. "يختفي الإثارة بسرعة عندما تصبح التكاليف الحقيقية لدمج نماذج الذكاء الاصطناعي هذه في البنية التحتية للأعمال واضحة.""" تبدأ خدعة السحر في أن تبدو مثل هواية باهظة الثمن "تضاف رسوم الأجهزة الراقية أو خدمات السحابة ، وتعقيد التوسع بسرعة ، مما يحول تلك الإثارة الأولية إلى فحص واقع.""".
على الرغم من دقة وقدراتها الرائعة ، فإن نماذج الذكاء الاصطناعي الجيدة للنسخ تقدم العديد من التحديات الكبيرة. دعونا نلقي نظرة على نماذج Whisper من OpenAI، مع التركيز على متطلبات الأجهزة الخاصة بها:
Model | Size | RAM Requirement | Speed |
---|---|---|---|
Whisper Tiny | 39 MB | 1 GB | Very Fast (x10) |
Whisper Base | 74 MB | 1.5 GB | Fast (x7) |
Whisper Small | 244 MB | 2 GB | Moderate (x4) |
Whisper Medium | 769 MB | 5 GB | Slower (x2) |
Whisper Large-v3 | 1550 MB | 10 GB | Slowest |
تقدم نماذج الذكاء الاصطناعي الكبيرة دقة كبيرة ولكنها تحتاج إلى ذاكرة كبيرة وقوة معالجة ، والتي يمكن أن تكون صعبة. هذا ينطبق بشكل خاص على النسخ الحية، حيث يكون المعالجة السريعة حاسمة. تستغرق النماذج الكبيرة وقتًا أطول لمعالجة الصوت ، مما يؤثر على تجربة المستخدم عندما تكون هناك حاجة إلى نتائج فورية.
من أجل تحقيق التوازن بين الجودة والكفاءة ، لا يكشف مقدمو خدمات النسخ SaaS عادةً عن نماذج الذكاء الاصطناعي التي يستخدمونها ، غالبًا لأنهم يحاولون خفض التكاليف عن طريق تجنب النماذج الكبيرة والمستهلكة للموارد.
ومع ذلك، فإن النماذج الكبيرة مهمة جداً لجودة النسخ الخاصة بك. يمكنك قراءة المزيد عن هذا هنا:
دعونا نرى كم من الوقت سيستغرق نسخ ساعة واحدة من الكلام المسجل مسبقًا باستخدام Whisper's large-v3 النموذج على AWS:
Graphic Card | EC2 Instance | Cost per Hour | Transcription Time | Total Cost |
---|---|---|---|---|
NVIDIA A100 | p4d.24xlarge | $32.77 | 10 minutes | $5.46 |
NVIDIA V100 | p3.2xlarge | $3.06 | 13 minutes | $0.68 |
NVIDIA T4 | g4dn.xlarge | $0.526 | 40 minutes | $0.35 |
NVIDIA K80 | p2.xlarge | $0.75 | 50 minutes | $0.75 |
NVIDIA M60 | g3s.xlarge | $0.75 | 67 minutes | $0.83 |
(تستند هذه التكاليف إلى تسعير AWS في N. منطقة فيرجينيا وقد تختلف حسب منطقتك. الضريبة غير مدرجة )
يمكن أن يؤدي إضافة نماذج الذكاء الاصطناعي التكميلية التي تحسن النسخ مثل الترجمة أو طوابع الوقت الكلمات أو الملخص أو توضيح المتحدث إلى زيادة متطلبات الأجهزة والتكاليف.
أدوات النسخ مفتوحة المصدر اليوم رائعة للتجربة. غالبًا ما يتم تجميعها من قبل طلاب الدكتوراه الرائعين الذين يحاولون دفع حدود علم البيانات. لسوء الحظ هذه ليست جاهزة للإنتاج لمعظم متطلبات الأعمال. لجعل الحل المخصص يعمل، تحتاج الشركات إلى خبراء التعلم الآلي، ومهندسي السحابة، والكثير من مطوري بايثون، وهذا يصبح باهظ الثمن بسرعة. بالنسبة للشركات الصغيرة والمتوسطة، يمكن أن تكون تكلفة تجميع فريق الأحلام أعلى من الأجهزة نفسها.
إن الحفاظ على حلول النسخ المخصصة للذكاء الاصطناعي يتجاوز مجرد الإعداد الأولي والأجهزة. "يضيف ""التواجد مع تحديثات برامج تشغيل الجرافيك العادية، وصققات الأمان، وتحسينات نموذج الذكاء الاصطناعي"" تكاليف مستمرة كبيرة." وعلاوة على ذلك، هناك صيانة البنية التحتية السحابية، والتعامل مع انقطاع النظام، وإعادة تدريب النماذج عندما تتطور البيانات، وضمان الامتثال لقوانين الخصوصية الجديدة. كل من هذه العوامل تتطلب الوقت والخبرة والموارد، مما يزيد من التكلفة الإجمالية للملكية.
بناء نظام النسخ الخاص بك قد يبدو مغرياً، لكنه معقد. يتضمن دمج نماذج متعددة، وتحسين السرعة، وإدارة قابلية التوسع في الأجهزة. بالنسبة لمعظم الفرق، استخدام منصة راسخة مثل VocalStack هو أكثر كفاءة بكثير توفير الوقت والمال والصداع.
لتخفيض التكاليف، قد يحاول المطورون إنشاء حل مخصص مصمم خصيصًا لاحتياجاتهم التجارية الفريدة. على الرغم من أن هذا يمكن أن يكون ممكنًا بالنسبة للفرق ذات الخبرة العميقة في العديد من المجالات ، إلا أنه ليس بدون تحديات. لا يوجد نهج واحد يناسب الجميع في النسخ الجيد. إن إنشاء خدمة نسخ قوية يعني دمج نماذج الذكاء الاصطناعي المتعددة وإدارة خدمات السحابة القابلة للتوسع ، والتي يمكن أن تصبح معقدة ومستهلكة للموارد.
بدلاً من بناء حل مخصص خاص بك من الصفر ، والذي يمكن أن يستغرق وقتاً ومكلفًا ، من الفعال الاستفادة من منصة VocalStack التي تحل هذه التحديات بالفعل. تطوير نظام للتعامل مع النماذج الكبيرة وتحسين السرعة وإدارة قابلية التوسع في الأجهزة والحفاظ على كفاءة التكلفة ليس أمرًا بسيطًا.
من خلال استخدام حل راسخ مثل VocalStack ، يمكنك التركيز على ما يهم - تقديم أفضل تجربة نسخ - دون عملية استهلاك الوقت والمكلفة لبناء البنية التحتية الخاصة بك. تتعامل VocalStack مع جميع الأعمال الثقيلة: من تحسين السرعة وقابلية التوسع إلى إدارة احتياجات الأجهزة. يسمح لك بالتخطي الصداع والغوص مباشرة في توفير خدمة النسخ السلسة عالية الجودة. تخيل الحرية في الابتكار دون القلق بشأن التحديات المعقدة للخلف - هذا ما تقدمه VocalStack.
بالمناسبة، في لا تكلفة إضافية,"تستفيد ""فوكالستاك"" من مجموعة متنوعة من نماذج الذكاء الاصطناعي لتحسين جودة ""فوكالستاك"" بشكل كبير." كل نسخة.- نعم.
اقرأ المزيد في www.vocalstack.com/business
إذا كنت مطورًا ولا تمانع في تلطخ يديك ، فلماذا لا تجرب نماذج المصدر المفتوح لـ Whisper؟ توجه إلى مخزن Whisper GitHub لـ OpenAI وتجربة أحجام النماذج المختلفة. (تحذير: قد تسبب النماذج الكبيرة في تسخين جهازك إذا لم يكن لديك بطاقة رسومات متخصصة).
بعد بضعة نسخ اختبار مع Whisper على جهازك المحلي ، قد تبدأ في تحديد العديد من التحديات مع استخدام Whisper يدويًا. على سبيل المثال ، يمكن أن تكون قابلية التوسع مكلفة ، ولا يتم تحسين Whisper للنصوص الحية بشكل افتراضي ، مما يتطلب حلول مخصصة إضافية.
لا تقلق، فوكالستاك يحمي ظهرك! قم بتحميل VocalStack JavaScript SDK ويصبح النسخ سهلًا:
Scroll Up