當開發者第一次試用人工智能轉錄模型時, 他們往往會感到興奮. 感覺就像找到了一個神奇的解決方案, 突然間打開了巨大的新潛力, 直到有人把數字<unk>了. 當將 AI 模型整合到商業基礎設施的真實成本變得顯而易見時, 魔術技巧開始看起來更像一個昂貴的興趣. 高端硬體或雲端服務費用,以及擴展的複雜性, 快速增加, 將最初的興奮轉化為現實檢查.
儘管其令人印象深刻的精度和能力, 良好的轉錄人工智能模型卻存在幾個重大挑戰. 让我们来看看OpenAI的Whisper模型, 专注于它们的硬件要求:
Model | Size | RAM Requirement | Speed |
---|---|---|---|
Whisper Tiny | 39 MB | 1 GB | Very Fast (x10) |
Whisper Base | 74 MB | 1.5 GB | Fast (x7) |
Whisper Small | 244 MB | 2 GB | Moderate (x4) |
Whisper Medium | 769 MB | 5 GB | Slower (x2) |
Whisper Large-v3 | 1550 MB | 10 GB | Slowest |
大型人工智能模型提供高度精度, 但需要大量的内存和处理能力, 尤其對於現場轉錄, 快速處理非常重要. 大型模型需要更多時間來處理音頻, 影響用戶體驗,
為咗平衡品質和效率,SaaS 轉錄服務提供商通常不會透露他們使用哪些 AI 模型,通常是因為他們試圖避免使用大型,資源密集型號來削減成本
然而,更大型的模型對您的轉錄品質非常重要. 您可以在此處閱讀更多信息:
等我哋睇下轉錄需要幾長時間 一小時 预先录制的语音, 用于 Whisper 的语音 large-v3 AWS 上的模型:
Graphic Card | EC2 Instance | Cost per Hour | Transcription Time | Total Cost |
---|---|---|---|---|
NVIDIA A100 | p4d.24xlarge | $32.77 | 10 minutes | $5.46 |
NVIDIA V100 | p3.2xlarge | $3.06 | 13 minutes | $0.68 |
NVIDIA T4 | g4dn.xlarge | $0.526 | 40 minutes | $0.35 |
NVIDIA K80 | p2.xlarge | $0.75 | 50 minutes | $0.75 |
NVIDIA M60 | g3s.xlarge | $0.75 | 67 minutes | $0.83 |
(這些成本是根據N的AWS定價而定) 維爾吉尼亞地區,可能因地區而唔同. 稅收不包括在內. (美國)
添加改善轉錄的補充人工智能模型,如翻譯,單詞時間標籤,總結或演講者日記,可以进一步增加硬體要求和成本.
今天的開源轉錄工具非常適合實驗. 它们通常是由聪明的博士生一起编写的, 不幸的是,這些產品並未準備好應付大部分商業要求. 為咗令一個定制嘅解決方案運作, 企業需要機器學習專家,雲端工程師, 同埋好多Python開發者, 對於中小企業而言, 組成夢想團隊的成本可能高於硬體本身.
維持自訂 AI 轉錄解決方案不僅僅限於初始設置和硬體. 保持定期的 GPU 驅動程式更新,安全補丁和 AI 模型改善增加了顯著的持續成本. 此外,还需要维护云基础设施,处理系统中断,在数据演变时重新培训模型,并确保符合新的数据隐私法规. 每一個因素都需要時間,專業知識和資源, 增加所有權的總成本.
建立你自己的轉錄系統可能有吸引力, 但它是複雜的. 它涉及整合多個模型,優化速度,並管理硬體可擴展性. 對於大部分團隊來講,使用像VocalStack這樣的已建立的平台是更有效率的 - - 節省時間,金錢和頭痛.
為咗降低成本,開發者可能會試圖創造一個適合佢哋獨特嘅業務需求嘅定制解決方案. 雖然對於在多個領域有深厚專業知識的團隊來講, 質量轉錄並無一個通用的方法. 建立一個堅固的轉錄服務意味着整合多個 AI 模型和管理可擴展的雲端服務,這可能變得複雜且需要大量資源.
而不是從零開始建立自己的定制解決方案, 這可能耗時和昂貴, 利用VocalStack的平台更有效率, 開發一個可以處理大型模型,優化速度,管理硬體可擴展性,並保持成本效率的系統並不是微不足道的.
通过使用像VocalStack这样的既定解决方案, 您可以专注于重要的事情 - 提供最好的转录体验 - 没有需要花费时间和成本的建立自己的基础设施的过程. VocalStack 處理所有重型工作:從優化速度和可擴展性到管理硬體需求. 避免頭痛,直接投入提供無縫,高品質的轉錄服務. 想像一下可以自由地創新, 不需要擔心複雜的後端挑戰 - - 这就是VocalStack提供的.
順便說一下, 在 沒有額外費用,VocalStack 利用多種 AI 模型,大幅提高 AI 品質 每個轉錄.哩個就係我.
如果您是開發者,並不介意將手弄得污垢, 點解不試試Whisper的開源模型呢? 繼續往前走 OpenAI 的 Whisper GitHub 存储库 嘗試使用不同尺寸的模型 (警告:如果您沒有專用顯示卡,較大的模型可能會導致您的機器過熱).
在您本地機器上使用Whisper進行幾次測試轉錄後, 您可能會開始發現手動使用Whisper的幾個挑戰. 例如,可擴展性可能昂貴,而Whisper默認並未優化為實時轉錄,因此需要額外的自訂解決方案.
不用擔心,VocalStack會幫你! 下載VocalStack JavaScript SDK,並將轉錄變為一個風:
Scroll Up