ElevenLabs: Einblick in den 11 Milliarden Dollar teuren KI-Sprachgenerator

Verfasst am Jun 22, 2026 Verfasst von Mathis Curcio

Sie haben von ElevenLabs gehört, nur wussten Sie es nicht. Der Sprecher in einem YouTube-Erklärvideo, die Synchronisation in einem ausländischen Film, die Stimme am anderen Ende der Hotline: Viele dieser Audioinhalte werden heutzutage generiert, und ein Großteil davon stammt von einem Unternehmen, dessen Namen die meisten Menschen außerhalb der Tech-Branche nicht kennen. ElevenLabs entwickelt KI-Stimmen. Im Februar 2026 sammelte das Unternehmen für genau diese Aufgabe eine Finanzierungsrunde mit einer Bewertung von 11 Milliarden US-Dollar ein. Zwei Freunde aus Polen gründeten das Unternehmen 2022, und heute ist der KI-Sprachgenerator in Apps integriert, die von über einer Milliarde Menschen genutzt werden. Doch was genau leistet er, was kostet er, und warum bereitet er Sicherheitsexperten so große Sorgen?

Was ElevenLabs macht: KI-Stimmen und mehr

Es begann als einfaches Text-to-Speech-Tool. Heute ist es ein komplettes Audio-System, und die Stimmen sind nur der erste Eindruck. Der Umfang der übrigen Funktionen rechtfertigt den Preis. Die beiden Gründer gingen das Problem aus ungewöhnlichen Perspektiven an: Piotr Dabkowski war Machine-Learning-Ingenieur bei Google, Mati Staniszewski Stratege bei Palantir. Ihre gemeinsame Frustration war simpel: Synthetische Sprache konnte damals zwar Wörter aussprechen, aber nicht darstellen. Wenn wir das beheben, so dachten sie, ergibt sich alles Weitere von selbst. Der Großteil der Produkte des Unternehmens basiert noch immer auf dieser einen Idee.

Text-zu-Sprache- und lebensechte KI-Stimmen

Beginnen wir mit dem Kern: Er wandelt geschriebenen Text in gesprochenes Audio um. Das neueste Modell, Eleven v3 , wurde im Juni 2025 veröffentlicht. Es liest über 70 Sprachen und unterstützt Inline-Tags wie [flüstert] oder [lacht], sodass Sie die Wiedergabe Zeile für Zeile steuern können. Benötigen Sie stattdessen Geschwindigkeit? Ein schlankeres Modell namens Flash bietet eine nahezu sofortige Ausgabe, die etwas weniger Präzision erfordert – ein wichtiger Faktor für Live-Anwendungen. Das Ergebnis ist verblüffend lebensecht. Deshalb greifen Kreative bei Voiceovers, Podcasts und KI-Videos auf ElevenLabs zurück, wo eine roboterhafte Lesung den Zauber zerstören würde.

Was Version 3 auszeichnet, ist die Kontrolle. Ältere Sprachausgabeprogramme lesen alles mit dem gleichen monotonen Tonfall vor. Dieses nicht. Markiert man einen Satz als geflüstert, gehetzt oder mit einem Seufzer vorgetragen, erhält ein einzelner Textabschnitt plötzlich eine ganz eigene Ausdruckskraft. Wenn man zum ersten Mal eine sarkastische Zeile hört, ist das etwas irritierend. Die ältere Version Multilingual v2 unterstützt weiterhin 29 Sprachen und bleibt die Standardeinstellung für lange, gleichmäßige Sprachausgabe, bei der Konsistenz wichtiger ist als Vielfalt.

Sprachklonierung, Synchronisation und mehrsprachiges Audio

Zwei Funktionen heben das Programm über reine Sprachausgabe hinaus. Die erste ist die Stimmklonierung. Man gibt eine kurze Sprachprobe ab, und das Programm kopiert eine bestimmte Stimme – entweder eine schnelle, sofortige Kopie aus etwa einer Minute Audiomaterial oder eine professionellere, präzisere. Die zweite Funktion ist die KI-Synchronisation. Man gibt dem Programm ein fertiges Video, und es vertont den gesamten Text in einer anderen Sprache, wobei der Tonfall des Sprechers erhalten bleibt. So wird mehrsprachige Lokalisierung, die früher die Buchung eines Studios erforderte, mit wenigen Klicks möglich. Es gibt außerdem eine gemeinsame Sprachbibliothek, in der Nutzer Stimmen veröffentlichen und untereinander lizenzieren.

Die professionelle Kopie ist das, was Studios interessiert. Man gibt ihr dreißig Minuten sauberes Audiomaterial und eine Einverständniserklärung. Im Gegenzug fängt sie die Kadenz und den Akzent des Originals so genau ein, dass Synchronsprecher mittlerweile ihre eigenen Kopien lizenzieren und im Schlaf Geld verdienen. Die Instant-Kopie ist schneller und ungenauer. Sie eignet sich für einen schnellen Prototyp, ist aber leicht als synthetisch zu erkennen.

Scribe, KI-Musik und Konversationsagenten

Die Suite funktioniert auch in umgekehrter Richtung, von Audio zurück zu Text. Scribe ist das Spracherkennungsmodell. Es transkribiert mit Sprecherkennzeichnungen und Zeitstempeln, und die Version 2 unterstützt 99 Sprachen und kennzeichnet die Sprecher mit einer Genauigkeit von ca. 98 %. Hinzu kommt Eleven Music, das 2025 hinzugefügt wurde und auf Anfrage rauschfreie Hintergrundmusik ausgibt. Konversationelle KI-Agenten gehen noch einen Schritt weiter: Durch die Kombination von Spracherkennung, einem Sprachmodell und Text-zu-Sprache kann ein Bot zuhören, in Echtzeit antworten und nahtlos an einen menschlichen Gesprächspartner weiterleiten. Abgerundet wird das Ganze durch Soundeffekte und einen Sprachisolator zur Verbesserung verrauschter Aufnahmen.

Scribe ist der Punkt, an dem diese Plattform ihr wahres Potenzial zeigt. Es kann mehr als nur ein Transkript erstellen. Es kennzeichnet Nicht-Sprachgeräusche, setzt Zeitstempel auf Wortebene und trennt überlappende Sprecher. Deshalb nutzen Podcaster und Forscher es, um unstrukturierte Aufnahmen in durchsuchbaren und bearbeitbaren Text umzuwandeln. Und Version 2 ist rund 40 % günstiger als die erste Version. Ein KI-Produkt, das gleichzeitig besser und günstiger wird? Das ist selten.

elevenlabs-ai

Wie ElevenLabs zu einem 11 Milliarden Dollar schweren KI-Unternehmen wurde

Auf den Produktseiten wird das Unglaublichste verschwiegen: das Geld. Ein Blick auf die Finanzierungszahlen lässt das Wachstum jedoch völlig verblüffend erscheinen. Anfang 2025 sammelte ElevenLabs in einer Serie-C-Finanzierungsrunde 180 Millionen US-Dollar ein, was das Unternehmen mit 3,3 Milliarden US-Dollar bewertete. Andreessen Horowitz und ICONIQ Growth führten die Runde gemeinsam an. Dreizehn Monate später führte Sequoia eine Serie-D-Finanzierungsrunde über 500 Millionen US-Dollar an, wodurch der Wert des Unternehmens auf 11 Milliarden US-Dollar stieg. Eine Verdreifachung innerhalb eines Jahres – und das für dasselbe Unternehmen.

Der Umsatz erklärt das große Interesse. ElevenLabs überschritt bis Ende 2025 die Marke von 330 Millionen US-Dollar an jährlich wiederkehrenden Einnahmen. Was Investoren jedoch stutzig macht, ist das Tempo. Zwanzig Monate, um 100 Millionen US-Dollar zu erreichen. Dann zehn Monate, um den Umsatz zu verdoppeln. Und nur fünf Monate, um 330 Millionen US-Dollar zu erzielen. Jede Etappe ist kürzer als die vorherige. Laut eigenen Angaben vom Januar 2025 hatten bereits Mitarbeiter von über 60 % der Fortune-500-Unternehmen die Plattform genutzt.

Runden	Datum	Erzogen	Bewertung
Serie B	Januar 2024	80 Millionen US-Dollar	1,1 Milliarden US-Dollar
Serie C	Januar 2025	180 Millionen US-Dollar	3,3 Milliarden US-Dollar
Serie D	Februar 2026	500 Millionen US-Dollar	11 Milliarden US-Dollar

In fünf Finanzierungsrunden hat ElevenLabs rund 781 Millionen US-Dollar eingesammelt, und die Gründer haben offen über einen möglichen Börsengang gesprochen. Investoren überzeugt nicht die Endnutzer-App, sondern die zugrundeliegende Infrastruktur: Jedes Unternehmen, das ein Produkt mit Sprachausgabe ausstattet, ist ein potenzieller Kunde, und der Markt für synthetische Sprache existierte vor drei Jahren kaum. Die Strategie besteht darin, dass sich die Sprachsteuerung – ähnlich wie der Touchscreen – als Standardschnittstelle etabliert.

Preise von ElevenLabs: kostenlose und kostenpflichtige Tarife

Sie können ElevenLabs kostenlos nutzen, und der Gratis-Tarif bietet mehr als nur einen ersten Eindruck. Die kostenpflichtigen Tarife bieten hauptsächlich zusätzliche monatliche Credits, die beim Generieren von Audio verbraucht werden, anstatt komplett neue Funktionen freizuschalten. Hier ist die Struktur: 2026

Planen	Preis / Monat	Monatliche Gutschriften
Frei	0 €	10.000
Anlasser	6 US-Dollar	30.000
Schöpfer	22 US-Dollar	121.000
Pro	99 $	600.000
Skala	299 $	1.800.000
Geschäft	990 US-Dollar	6.000.000

Die Credits entsprechen in etwa den gesprochenen Zeichen. Ein kostenloser Plan mit 10.000 Credits reicht daher für einige Minuten Audio pro Monat. Der Creator-Plan für 22 US-Dollar ist der ideale Einstieg für alle, die regelmäßig veröffentlichen. Kommerzielle Nutzungsrechte sind in den kostenpflichtigen Tarifen enthalten. Entwickler zahlen pro Nutzung über die API anstatt einer monatlichen Pauschale.

Über dem Business-Tarif befindet sich ein maßgeschneiderter Enterprise-Tarif mit dediziertem Support, höheren Ratenlimits und den Vertragsbedingungen, die die meisten Großkunden benötigen. Die API-Nutzung wird anhand der generierten Zeichen abgerechnet, sodass eine App mit hohem Traffic nur proportional zur Nutzung zahlt, anstatt den Tarif im Voraus zu schätzen. Wichtig zu beachten: Nicht genutzte Guthaben verfallen, daher ist ein ungenutzter Monat bares Geld, das verloren geht.

Wer nutzt ElevenLabs und wofür?

Die interessanten Nutzer sind keine Hobbyisten, die kurze Clips erstellen; es sind Unternehmen, die Studiozeit einsparen. Hörbuchverlage vertonen ganze Kataloge, ohne Sprecher zu engagieren. YouTuber und Kursanbieter fügen Voiceovers in Sprachen hinzu, die sie nicht beherrschen. Spielestudios vertonen in großem Umfang auch Nebencharaktere. Barrierefreiheits-Apps lesen Artikel über die ElevenReader-App vor. Callcenter setzen Chatbots ein, die Standardfragen beantworten, bevor ein Mitarbeiter eingreift. Lokalisierungsteams synchronisieren Schulungsvideos für Mitarbeiter weltweit.

Diese Reichweite ist der Grund, warum die Bewertung gerechtfertigt ist. Das Unternehmen gibt an, dass seine API Produkte mit insgesamt über einer Milliarde Nutzern unterstützt, darunter Kunden wie Meta, Epic Games und Salesforce. Für die meisten dieser Käufer stellt ElevenLabs die unverzichtbare Audioinfrastruktur dar: unsichtbare Audiokomponenten in Produkten mit anderem Namen.

Einige Beispiele verdeutlichen das Ausmaß. Die App ElevenReader liest Artikel, PDFs und E-Books in einer wählbaren Stimme vor und hat sich damit zu einem unverzichtbaren Hilfsmittel für Menschen mit Legasthenie oder Sehbehinderung entwickelt. Redaktionen erstellen automatisch Audioversionen ihrer Artikel. Indie-Entwickler verleihen Nicht-Spieler-Charakteren individuelle Stimmen, für die früher ein Aufnahmebudget nötig gewesen wäre, das ihnen fehlte. Der gemeinsame Nenner: Audioproduktion, die früher ein Studio erforderte, kommt heute direkt aus einem Textfeld.

Das Deepfake-Problem und die Sicherheit von KI-Stimmen

So überzeugende Stimmen sind auch eine Waffe. ElevenLabs musste das schmerzlich erfahren. Im Januar 2024 forderte ein gefälschter Anruf in der Stimme von Präsident Biden Wähler in New Hampshire auf, die Vorwahlen zu boykottieren. Natürlich war er nicht der echte Biden. Das Sicherheitsunternehmen Pindrop analysierte den Clip, konnte ihn zu ElevenLabs zurückverfolgen und meldete eine Übereinstimmung von 84 % . Das Unternehmen sperrte daraufhin das Konto.

Dieser Vorfall rückte die Sicherheitsfrage ins Rampenlicht. ElevenLabs setzt nun einen KI-Sprachklassifikator ein, der prüft, ob ein Clip mit den eigenen Tools erstellt wurde, das Klonen bestimmter, risikobehafteter Persönlichkeiten des öffentlichen Lebens blockiert und vor der Erstellung professioneller Stimmenkopien eine Identitätsprüfung verlangt. Funktioniert das alles einwandfrei? Nein. Die Erkennung hinkt der Erstellung von Fälschungen stets hinterher, und ein entschlossener Angreifer kann einfach zu einem weniger sorgfältigen Anbieter wechseln. Daher die ehrliche Einschätzung: Das Unternehmen hat wirksame Sicherheitsvorkehrungen um ein Tool getroffen, das im Kern für zwei Zwecke genutzt werden kann, und der Wettlauf zwischen der Erstellung von Fälschungen und deren Aufdeckung ist noch lange nicht vorbei.

Die Regulierungsbehörden sind aufmerksam geworden. Mehrere US-Bundesstaaten haben nach dem Biden-Vorfall Maßnahmen zur Einschränkung KI-generierter Werbeanrufe ergriffen, und das Unternehmen hat sich der Brancheninitiative zur Audio-Wasserzeichentechnik angeschlossen. Dabei werden Signale eingebettet, die auch nach der Komprimierung erhalten bleiben und die Rückverfolgung eines Clips zu seiner Quelle ermöglichen. Kritiker entgegnen, dass Wasserzeichen entfernt werden können und freiwillige Maßnahmen kein Ersatz für Gesetze sind. ElevenLabs befindet sich in einer schwierigen, aber ehrlichen Lage: Das leistungsfähigste Tool in dieser Kategorie trägt auch die größte Verantwortung für dessen Regulierung.

elevenlabs-ai

ElevenLabs im Vergleich zu anderen KI-Sprachgeneratoren

ElevenLabs gilt weithin als führender Anbieter von KI-Sprachgeneratoren in puncto Qualität, ist aber nicht die einzige und nicht immer die beste Wahl. Letztendlich hängt die Entscheidung meist davon ab, wie viel Realismus man benötigt und wie viel man ausgeben möchte.

Werkzeug	Hauptstärke	Am besten geeignet für
ElevenLabs	Äußerst realistische Stimmen, über 70 Sprachen, leistungsstarke API	Audioproduktion, Synchronisation
Murf	Einfache Benutzeroberfläche, geringere Kosten	Kurze geschäftliche Sprachaufnahmen
Play.ht	Große Sprachbibliothek	Podcasts und längere Formate
OpenAI / Azure	Im Paket mit anderen KI-Diensten	Entwickler, die bereits in diesem Stack arbeiten

Wenn Ihnen eine besonders verständliche Sprachausgabe und umfassende Sprachunterstützung wichtig sind, ist ElevenLabs kaum zu übertreffen – mir ist noch kein Konkurrenzprodukt bekannt, das bei wirklich kniffligen Texten mit der Version 3 mithalten kann. Wenn Sie hingegen ein günstiges, einfaches Tool für gelegentliche Firmenvideos suchen, bietet Ihnen ein Konkurrenzprodukt möglicherweise eine bessere und günstigere Alternative.

So starten Sie mit den KI-Stimmen von ElevenLabs

Ihr erster Clip, erstellt mit dem KI-Sprachgenerator von ElevenLabs, dauert etwa drei Minuten. Erstellen Sie ein kostenloses Konto. Öffnen Sie das Sprachtool und wählen Sie eine Stimme aus der Bibliothek oder erstellen Sie eine eigene. Fügen Sie Ihren Text ein, wählen Sie das Modell und die Sprache und klicken Sie auf „Generieren“. Hören Sie sich die Aufnahme an. Falls sie nicht optimal klingt, passen Sie die Regler für Stabilität und Stil an und versuchen Sie es erneut. Laden Sie anschließend die MP3-Datei herunter. Das ist der gesamte Vorgang.

Entwickler umgehen das Dashboard und rufen die API direkt mit einem Schlüssel auf, übergeben Text und eine Sprach-ID und erhalten Audio zurück. So integrieren Apps mit Milliarden von Nutzern ElevenLabs in ihre eigenen Produkte.

Warum ElevenLabs führend in der KI-Sprachgenerierung ist

ElevenLabs entwickelte sich von einem Transkriptionsprojekt zu einer 11-Milliarden-Dollar-Plattform – schneller als fast jedes andere Softwareunternehmen zuvor. Die Stimmen sind so überzeugend, dass der Hype größtenteils gerechtfertigt ist. Mit der kostenlosen Version kann jeder dies innerhalb weniger Minuten selbst testen. Doch genau dieser Realismus, der Kunden überzeugt, bereitet Regulierungsbehörden und Sicherheitsforschern Sorgen, und der automatisierte Anruf von Biden wird nicht der letzte Vorfall dieser Art sein. Die Technologie ist vorhanden und verbessert sich monatlich. Die offene Frage ist, ob die Regeln und die Erkennungswerkzeuge mit Stimmen mithalten können, die die meisten Zuhörer bereits täuschen. Wo würden Sie die Grenze ziehen?

Mathis Curcio

Mathis Curcio is a senior content strategist and NFT specialist at Plisio. With over 5 years of experience in the Web3 space, Mathis focuses on the evolution of NFT ecosystems, digital collectibles, and decentralized ownership models. He creates accessible, insight-driven content that bridges the gap between blockchain innovation and mainstream adoption. His expertise spans NFT market trends, use cases across art and gaming, and the infrastructure powering next-generation tokenized assets.