イレブンラボ

イレブンラボ

画期的な動きとして、最近 1 億 8,000 万ドルの巨額の資金調達ラウンドで勢いづいた AI リーダーの ElevenLabs は、オーディオ生成以外にもその範囲を拡大しています。さまざまな音声アプリケーションに搭載されていることですでに知られている同社は、新製品Scribeで、競争の激しい音声テキスト変換市場に参入します。この大胆なリリースは、オーディオ作成で卓越するだけでなく、トランスクリプション技術でも優位に立ち、この分野の既存企業に挑戦するという ElevenLabs の野心を示しています。

音声認識において ElevenLabs Scribe が優れている点は何ですか?

評価額が 33 億ドルの ElevenLabs は、AI 音声認識分野ではよく知られています。同社はこれまで、膨大な音声ライブラリを通じて多数の音声テキスト変換ソリューションをサポートしてきました。しかし、 Scribe は同社初のスタンドアロン音声テキスト変換モデルであり、Gladia、Speechmatics、AssemblyAI、Deepgram、さらには OpenAI の Whisper などの業界大手に対抗する存在となっています。では、このような競争の激しい分野でScribeが傑出しているのはなぜでしょうか。

  1. 比類のない言語カバレッジ: Scribe は最初から 99 を超える言語をサポートしており、真にグローバルな文字起こしソリューションとして位置付けられています。
  2. 主要言語での優れた精度: ElevenLabs は、英語 (97% の精度)、フランス語、ドイツ語、ヒンディー語、日本語、スペイン語など、25 を超える言語で優れた精度 (単語エラー率 5% 未満) を実現していると主張しています。言語の精度に重点が置かれていることが、重要な差別化要因です。これらの主張は印象的ですが、サードパーティのテストによるさらなる検証により、これらの数値の信頼性が強化される可能性があります。
  3. 業界をリードするパフォーマンス: FLEURS や Common Voice などのベンチマーク テストでは、 Scribe はGoogle Gemini 2.0 Flash や Whisper Large V3 などのトップ モデルよりも優れたパフォーマンスを発揮し、最先端の機能を発揮していることが明らかになっています。このベンチマークでの成功は、AI 駆動型文字起こしモデルの大きな飛躍を示しており、法務や医療の文字起こしなど、高い精度が求められる分野で極めて重要となる優れたパフォーマンスを提供します。

ElevenLabs はもともとこの音声テキスト変換技術を自社の会話型 AI プラットフォーム向けに開発しましたが、 Scribeによってこの技術がスタンドアロン モデルとして利用できるようになり、ユーザー ベースが拡大しました。

Scribe のユニークな機能を探る

ElevenLabsのCEOであるMati Staniszewski氏は、 Bitcoin Worldとの最近のインタビューで、音声認識の改善に関する同社のビジョンについて語った。同氏は、同社の目標は会話をよりよく理解することであり、コンテンツを生成することだけではないということを強調した。また、Staniszewski氏は、音声テキスト変換は、特に歴史的に精度が不十分であった言語に関しては、完全に解決された問題であるという誤解にも言及した。同氏によると、同社の主な強みの1つは、優れたモデルの開発に貢献する社内データ注釈チームにあるという。

コアなトランスクリプション機能に加えて、 Scribe はいくつかの優れた機能を提供します。

  • スマート スピーカーのダイアライゼーション: この機能は、話者を区別できるため、複数人での会話に最適です。
  • 単語レベルのタイムスタンプ: Scribe は各単語に正確なタイムスタンプを提供するため、シームレスな字幕生成と詳細な分析が可能になります。
  • サウンドイベントの自動タグ付け: モデルは笑い声や拍手などのサウンドイベントを検出してタグ付けし、書き起こしに貴重なコンテキストを追加できます。

現在、ElevenLabs はスタジオにScribeを統合しており、ユーザーは字幕やキャプション用のビデオ コンテンツを書き起こすことができます。現在は録音済みのオーディオをサポートしていますが、同社は低遅延のリアルタイム バージョンを近日中にリリースすることを約束しており、ライブ会議の書き起こしや音声メモ作成に新たな可能性が開かれる可能性があります。

価格と競争: Scribe は価値があるか?

ElevenLabs は、文字起こしされた音声 1 時間あたり 0.40 ドルという競争力のある料金でScribeを提供しています。競合他社の中にはもっと安い料金を提供しているところもありますが、提供される機能、特にScribe が提供する精度と言語サポートを比較検討することが重要です。

他のプロバイダーとの価格の簡単な比較は次のとおりです。

プロバイダー

モデル

強み

料金(おおよそ1時間あたり)

イレブンラボ

筆記者

広範な言語サポート、高精度、ベンチマークパフォーマンス

0.40ドル

ディープグラム

ノヴァ2

リアルタイムの文字起こし、スケーラビリティ、開発者重視

様々

アセンブリAI

コンフォーマー2

豊富な機能、オーディオインテリジェンス、要約

様々

スピーチマティックス

グローバル英語

高い精度、アクセント理解

様々

グラディア

さまざまなモデル

特殊モデル、ノイズ耐性

様々

長所と短所

長所:

  • グローバルリーチ: 99 を超える言語をサポートし、国際的なアプリケーションに使用できる多目的ツールです。
  • 高精度: 英語 (97% の精度) を含む 25 を超える主要言語で低い単語エラー率 (5% 未満) を主張します。
  • 最先端のパフォーマンス: ベンチマーク テストでは、Google Gemini や OpenAI の Whisper などの主要なモデルよりも優れたパフォーマンスを発揮します。
  • スマートダイアライゼーション: 話者を区別し、複雑な複数人の会話に最適です。
  • リアルタイム機能が近日登場: 近日登場するリアルタイム文字起こしは、ライブ イベントや会議に革命をもたらすでしょう。
  • 手頃な価格: Scribe は、1 時間あたり 0.40 ドルという競争力のある価格で、高品質の文字起こしを提供します。

短所:

  • 検証されていない主張: 精度の数値は印象的ですが、第三者によるさらなる検証が信頼を強固にするのに役立つ可能性があります。
  • 限定的なリアルタイム サポート: 現在は録音済みオーディオのみ利用可能ですが、リアルタイム バージョンも近日中に提供される予定です。
  • 価格比較: 手頃な価格であっても、競合他社によっては、機能セットが異なっていたり、精度が低かったりして、より低い料金を提供している場合があります。

結論

音声テキスト変換の競争が激化する中、ElevenLabs のScribe は、グローバル言語サポート、卓越した精度、革新的な機能のユニークな組み合わせで大きなインパクトを与える態勢が整っています。ElevenLabs は、より正確でアクセスしやすい文字起こしソリューションに対する高まる需要を捉え、この市場で主要プレーヤーとなるための基盤を整えました。正確な文字起こしに大きく依存する法務、医療、メディアなどの業界は、このテクノロジーから最も恩恵を受ける可能性が高いでしょう。このツールが進化し続けるにつれて、ユーザーはさらに高度な機能を期待でき、 Scribe は音声言語データの潜在能力を最大限に引き出す強力なツールとして位置付けられます。

Plisio では以下のサービスも提供しています。

2 クリックで暗号化請求書を作成 and 暗号通貨の寄付を受け入れる

14 統合

10 最も人気のあるプログラミング言語のライブラリ

19 暗号通貨と 12 ブロックチェーン

Ready to Get Started?

Create an account and start accepting payments – no contracts or KYC required. Or, contact us to design a custom package for your business.

Make first step

Always know what you pay

Integrated per-transaction pricing with no hidden fees

Start your integration

Set up Plisio swiftly in just 10 minutes.