ElevenLabs

ElevenLabs

In einem bahnbrechenden Schritt erweitert ElevenLabs, ein KI-Marktführer, der kürzlich durch eine kräftige Finanzierungsrunde von 180 Millionen US-Dollar gestärkt wurde, seine Reichweite über die Audiogenerierung hinaus. Das Unternehmen, das bereits für die Bereitstellung verschiedener Sprachanwendungen bekannt ist, wagt sich nun mit seinem neuen Angebot Scribe in den wettbewerbsintensiven Markt für Sprache-zu-Text-Anwendungen. Dieser mutige Start unterstreicht die Ambition von ElevenLabs, nicht nur in der Audioerstellung herausragend zu sein, sondern auch die Transkriptionstechnologie zu dominieren und etablierte Akteure in diesem Bereich herauszufordern.

Was zeichnet ElevenLabs Scribe bei der Spracherkennung aus?

Mit einer Bewertung von 3,3 Milliarden US-Dollar ist ElevenLabs kein Neuling auf dem Gebiet der KI-Spracherkennung. Zuvor unterstützte das Unternehmen über seine umfangreiche Sprachbibliothek zahlreiche Spracherkennungslösungen. Scribe ist jedoch ihr erstes eigenständiges Spracherkennungsmodell und positioniert sie gegen Branchenriesen wie Gladia, Speechmatics, AssemblyAI, Deepgram und sogar OpenAIs Whisper. Was also hebt Scribe in einem so wettbewerbsintensiven Bereich hervor?

  1. Unübertroffene Sprachenabdeckung : Scribe unterstützt von Anfang an über 99 Sprachen und positioniert sich damit als wirklich globale Transkriptionslösung.
  2. Hervorragende Genauigkeit in wichtigen Sprachen : ElevenLabs verspricht außergewöhnliche Genauigkeit (mit einer Wortfehlerrate von unter 5 %) in mehr als 25 Sprachen, darunter Englisch (97 % Genauigkeit), Französisch, Deutsch, Hindi, Japanisch und Spanisch. Dieser Fokus auf sprachliche Präzision ist ein wichtiges Unterscheidungsmerkmal. Diese Behauptungen sind zwar beeindruckend, aber eine weitere Validierung durch Tests von Drittanbietern könnte das Vertrauen in diese Zahlen stärken.
  3. Branchenführende Leistung : In Benchmarktests wie FLEURS und Common Voice übertrifft Scribe Berichten zufolge Spitzenmodelle wie Google Gemini 2.0 Flash und Whisper Large V3 und unterstreicht damit seine Spitzenleistung. Dieser Benchmark-Erfolg weist auf einen bedeutenden Fortschritt bei KI-gesteuerten Transkriptionsmodellen hin und bietet überlegene Leistung, die in Bereichen, in denen hohe Genauigkeit erforderlich ist, wie etwa der juristischen oder medizinischen Transkription, von entscheidender Bedeutung sein könnte.

ElevenLabs entwickelte diese Spracherkennungstechnologie ursprünglich für seine Konversations-KI-Plattform, mit Scribe ist die Technologie jetzt jedoch als eigenständiges Modell verfügbar, wodurch die Benutzerbasis erweitert wird.

Entdecken Sie die einzigartigen Funktionen von Scribe

In einem kürzlichen Interview mit Bitcoin World sprach Mati Staniszewski, CEO von ElevenLabs, über die Vision des Unternehmens zur Verbesserung der Spracherkennung. Er betonte, dass das Ziel des Unternehmens darin bestehe, Gespräche besser zu verstehen und nicht nur Inhalte zu generieren. Staniszewski ging auch auf das Missverständnis ein, dass die Spracherkennung ein vollständig gelöstes Problem sei, insbesondere bei Sprachen, bei denen die Genauigkeit in der Vergangenheit unzureichend war. Einer der Hauptvorteile des Unternehmens liege seiner Meinung nach in seinen internen Datenannotationsteams, die zur Entwicklung überlegener Modelle beitragen.

Zusätzlich zur Kerntranskription bietet Scribe mehrere herausragende Funktionen:

  • Smart Speaker Diarization : Diese Funktion kann zwischen Sprechern unterscheiden und ist daher ideal für Gespräche mit mehreren Personen.
  • Zeitstempel auf Wortebene : Scribe bietet präzise Zeitstempel für jedes Wort und ermöglicht so eine nahtlose Untertitelerstellung und detaillierte Analyse.
  • Automatisches Tagging von Tonereignissen : Das Modell kann Tonereignisse wie Lachen und Applaus erkennen und taggen und so den Transkriptionen wertvollen Kontext hinzufügen.

Derzeit hat ElevenLabs Scribe in sein Studio integriert, sodass Benutzer Videoinhalte für Untertitel und Bildunterschriften transkribieren können. Während es derzeit voraufgezeichnetes Audio unterstützt, verspricht das Unternehmen, dass bald eine Version mit geringer Latenz und Echtzeit verfügbar sein wird, die neue Möglichkeiten für die Transkription von Live-Meetings und das Aufzeichnen von Sprachnotizen eröffnen könnte.

Preise und Wettbewerb: Lohnt sich Scribe?

ElevenLabs bietet Scribe zu einem wettbewerbsfähigen Preis von 0,40 $ pro Stunde transkribierter Audiodaten an. Einige Mitbewerber bieten zwar günstigere Preise an, aber es ist wichtig, dies gegen die angebotenen Funktionen abzuwägen – insbesondere die Genauigkeit und Sprachunterstützung, die Scribe bietet.

Hier ein kurzer Preisvergleich mit anderen Anbietern:

Anbieter

Modell

Stärken

Preise (ca. pro Stunde)

ElevenLabs

Schreiber

Umfangreiche Sprachunterstützung, hohe Genauigkeit, Benchmark-Leistung

0,40 €

Deepgram

Nova-2

Echtzeittranskription, Skalierbarkeit, Entwicklerfokus

Variiert

AssemblyAI

Konformer-2

Funktionsreich, Audio-Intelligenz, Zusammenfassung

Variiert

Sprachwissenschaft

Globales Englisch

Hohe Genauigkeit, Akzentverständnis

Variiert

Gladia

Verschiedene Modelle

Spezialmodelle, Rauschrobustheit

Variiert

Für und Wider

Vorteile:

  • Globale Reichweite : Unterstützt über 99 Sprachen und ist damit ein vielseitiges Tool für internationale Anwendungen.
  • Hohe Genauigkeit : Behauptet eine niedrige Wortfehlerrate (unter 5 %) für über 25 wichtige Sprachen, einschließlich Englisch (97 % Genauigkeit).
  • Spitzenleistung : Übertrifft in Benchmarktests führende Modelle wie Google Gemini und OpenAI Whisper.
  • Smart Diarization : Unterscheidet Sprecher, ideal für komplexe Gespräche mit mehreren Personen.
  • Echtzeitfunktionen in Kürze verfügbar : Die kommende Echtzeittranskription wird bei Live-Events und Meetings eine bahnbrechende Neuerung darstellen.
  • Erschwingliche Preise : Mit 0,40 $ pro Stunde bietet Scribe einen wettbewerbsfähigen Preis für hochwertige Transkriptionen.

Nachteile:

  • Unbestätigte Behauptungen : Die Genauigkeitszahlen klingen zwar beeindruckend, aber eine weitere Validierung durch Dritte könnte dazu beitragen, das Vertrauen zu festigen.
  • Eingeschränkter Echtzeit-Support : Derzeit nur für aufgezeichnetes Audio verfügbar, eine Echtzeitversion ist jedoch bald versprochen.
  • Preisvergleich : Obwohl die Preise erschwinglich sind, bieten manche Wettbewerber möglicherweise niedrigere Preise an, allerdings mit einem anderen Funktionsumfang oder geringerer Genauigkeit.

Abschluss

Da der Bereich der Spracherkennung immer wettbewerbsintensiver wird, ist Scribe von ElevenLabs mit seiner einzigartigen Kombination aus globaler Sprachunterstützung, außergewöhnlicher Genauigkeit und innovativen Funktionen bestens aufgestellt, um einen starken Eindruck zu hinterlassen. ElevenLabs bedient die wachsende Nachfrage nach genaueren und zugänglicheren Transkriptionslösungen und hat die Voraussetzungen dafür geschaffen, ein wichtiger Akteur auf diesem Markt zu werden. Branchen wie Recht, Gesundheitswesen und Medien, die stark auf präzise Transkription angewiesen sind, werden wahrscheinlich am meisten von dieser Technologie profitieren. Da sich das Tool weiterentwickelt, können Benutzer mit noch fortschrittlicheren Funktionen rechnen, die Scribe zu einem leistungsstarken Tool machen, mit dem das volle Potenzial gesprochener Sprachdaten ausgeschöpft werden kann.

Bitte beachten Sie, dass Plisio Ihnen auch Folgendes bietet:

Erstellen Sie Krypto-Rechnungen mit 2 Klicks and Akzeptieren Sie Krypto-Spenden

14 Integrationen

10 Bibliotheken für die gängigsten Programmiersprachen

19 Kryptowährungen und 12 Blockchains

Ready to Get Started?

Create an account and start accepting payments – no contracts or KYC required. Or, contact us to design a custom package for your business.

Make first step

Always know what you pay

Integrated per-transaction pricing with no hidden fees

Start your integration

Set up Plisio swiftly in just 10 minutes.