ElevenLabs

ElevenLabs

人工智能领军企业 ElevenLabs 最近获得了 1.8 亿美元的巨额融资,该公司采取了一项开创性的举措,将业务范围扩大到音频生成之外。该公司已经以支持各种语音应用程序而闻名,现在正凭借其新产品Scribe进军竞争激烈的语音转文本市场。这一大胆的发布标志着 ElevenLabs 不仅要在音频创作方面出类拔萃,还要在转录技术领域占据主导地位,挑战该领域的老牌企业。

ElevenLabs Scribe 在语音识别方面有何独特之处?

ElevenLabs 的估值为 33 亿美元,对 AI 语音识别领域并不陌生。此前,该公司通过其庞大的语音库支持众多语音转文本解决方案。然而, Scribe标志着他们的第一个独立语音转文本模型,使其与 Gladia、Speechmatics、AssemblyAI、Deepgram 甚至 OpenAI 的 Whisper 等行业巨头竞争。那么,是什么让Scribe在如此竞争激烈的领域脱颖而出呢?

  1. 无与伦比的语言覆盖范围Scribe从一开始就支持超过 99 种语言,将其定位为真正的全球转录解决方案。
  2. 关键语言的卓越准确性:ElevenLabs 声称其对 25 多种语言的准确率非常高(单词错误率低于 5%),包括英语(准确率 97%)、法语、德语、印地语、日语和西班牙语。对语言准确性的关注是其一大关键优势。虽然这些说法令人印象深刻,但通过第三方测试进一步验证可以增强对这些数字的信心。
  3. 行业领先的性能:据报道,在 FLEURS 和 Common Voice 等基准测试中, Scribe 的表现优于 Google Gemini 2.0 Flash 和 Whisper Large V3 等顶级模型,凸显了其尖端功能。这一基准测试的成功表明人工智能驱动的转录模型取得了重大飞跃,提供了卓越的性能,这对于需要高精度的领域(如法律或医学转录)至关重要。

ElevenLabs 最初为其对话式 AI 平台开发了这种语音转文本技术,但通过Scribe ,该技术现在可以作为独立模型使用,从而扩大了其用户群。

探索 Scribe 的独特功能

在最近接受Bitcoin World采访时,ElevenLabs 首席执行官 Mati Staniszewski 讨论了公司改进语音识别的愿景。他强调,公司的目标是更好地理解对话,而不仅仅是生成内容。Staniszewski 还澄清了语音转文本是一个完全解决的问题的误解,特别是对于准确度一直不足的语言。据他说,该公司的主要优势之一在于其内部数据注释团队,他们有助于开发卓越的模型。

除了核心转录之外, Scribe还提供几个突出的功能:

  • 智能扬声器分类:此功能可以区分扬声器,非常适合多人对话。
  • 单词级时间戳Scribe为每个单词提供精确的时间戳,实现无缝字幕生成和详细分析。
  • 声音事件的自动标记:该模型可以检测并标记笑声和掌声等声音事件,为转录添加有价值的背景信息。

目前,ElevenLabs 已将Scribe集成到其工作室中,允许用户转录视频内容以添加字幕。虽然它目前支持预先录制的音频,但该公司承诺即将推出低延迟实时版本,这可能为现场会议转录和语音笔记开辟新的可能性。

定价和竞争:Scribe 值得吗?

ElevenLabs以每小时 0.40 美元的转录音频价格提供Scribe ,价格极具竞争力。虽然一些竞争对手提供的价格更低,但重要的是要权衡其提供的功能,尤其是Scribe提供的准确性和语言支持。

以下是与其他供应商的快速价格比较:

提供者

模型

优势

定价(约每小时)

ElevenLabs

广泛的语言支持、高精度、基准性能

0.40 美元

Deepgram

Nova-2

实时转录、可扩展、以开发人员为中心

各不相同

装配式人工智能

符合者-2

功能丰富,音频智能,摘要

各不相同

言语学

全球英语

准确率高,口音理解

各不相同

格拉迪亚

各种型号

专门模型,抗噪性

各不相同

优点和缺点

优点:

  • 全球覆盖:支持超过 99 种语言,使其成为国际应用的多功能工具。
  • 高准确度:声称对超过 25 种主要语言(包括英语(准确度为 97%))的单词错误率很低(低于 5%)。
  • 尖端性能:在基准测试中优于 Google Gemini 和 OpenAI 的 Whisper 等领先模型。
  • 智能区分:区分说话者,非常适合复杂的多人对话。
  • 实时功能即将推出:即将推出的实时转录将改变现场活动和会议的游戏规则。
  • 价格实惠Scribe每小时收费 0.40 美元,以极具竞争力的价格提供高质量的转录服务。

缺点:

  • 未经证实的声明:虽然准确性数据听起来令人印象深刻,但进一步的第三方验证可以帮助巩固信任。
  • 有限的实时支持:目前仅适用于预先录制的音频,但承诺很快会推出实时版本。
  • 价格比较:虽然价格实惠,但某些竞争对手可能会提供更低的价格,但功能集不同或准确性较低。

结论

随着语音转文本领域的竞争日趋激烈,ElevenLabs 的Scribe凭借其独特的全球语言支持、卓越准确性和创新功能组合,有望产生巨大影响。通过满足对更准确、更易用的转录解决方案日益增长的需求,ElevenLabs 已为成为这一市场的关键参与者奠定了基础。法律、医疗保健和媒体等严重依赖精确转录的行业很可能从这项技术中受益最多。随着该工具的不断发展,用户可以期待更先进的功能, Scribe将成为释放口语数据全部潜力的强大工具。

请注意,Plisio 还为您提供:

单击 2 次即可创建加密发票 and 接受加密捐赠

14 整合

10 最流行的编程语言库

19 加密货币和 12 区块链

Ready to Get Started?

Create an account and start accepting payments – no contracts or KYC required. Or, contact us to design a custom package for your business.

Make first step

Always know what you pay

Integrated per-transaction pricing with no hidden fees

Start your integration

Set up Plisio swiftly in just 10 minutes.