ElevenLabs: Un vistazo al generador de voz con IA de 11 mil millones de dólares.

Publicado el Jun 22, 2026 Escrito por Mathis Curcio

Has oído hablar de ElevenLabs, solo que no lo sabías. El narrador de un video explicativo de YouTube, el doblaje de una película extranjera, la voz al otro lado de una línea de soporte: gran parte de ese audio se genera ahora, y mucho de él funciona gracias a una empresa que la mayoría de la gente ajena al sector tecnológico desconoce. ElevenLabs crea voces con IA. En febrero de 2026, recaudó fondos con una valoración de 11 mil millones de dólares precisamente por hacer eso. Dos amigos de Polonia la fundaron en 2022, y hoy su generador de voz con IA está integrado en aplicaciones utilizadas por más de mil millones de personas. Entonces, ¿qué hace exactamente, cuánto cuesta y por qué preocupa tanto a los expertos en seguridad?

Lo que hace ElevenLabs: Voces de IA y más.

Lo que empezó como una sencilla herramienta de conversión de texto a voz, ahora es una plataforma de audio completa, y las voces son solo lo primero que llama la atención. La amplitud de sus demás funciones es lo que justifica su precio. Los dos fundadores abordaron el problema desde perspectivas inusuales: Piotr Dabkowski había sido ingeniero de aprendizaje automático en Google, y Mati Staniszewski, estratega en Palantir. Su frustración compartida era simple: en aquel entonces, el habla sintética podía pronunciar palabras, pero no representarlas con gestos. Pensaron que solucionar eso traería consigo todo lo demás. La mayor parte de lo que la empresa ofrece sigue basándose en esa premisa.

Conversión de texto a voz y voces de IA realistas

Comencemos con lo esencial: convierte texto escrito en audio hablado. El modelo más reciente, Eleven v3 , se lanzó en junio de 2025. Lee más de 70 idiomas y admite etiquetas en línea como [susurra] o [ríe], lo que permite dirigir la lectura línea por línea. ¿Necesitas mayor velocidad? Un modelo más ligero, llamado Flash, sacrifica un poco de refinamiento a cambio de una salida casi instantánea, algo fundamental para las aplicaciones en vivo. El resultado es realmente realista. Por eso, los creadores recurren a ElevenLabs para locuciones, podcasts y narraciones en videos con IA, donde una lectura robótica rompería la magia.

Lo que distingue a v3 es su control. Los motores más antiguos leen todo con el mismo tono monótono. Este no. Marca una frase para que se susurre, se pronuncie rápidamente o se interrumpa con un suspiro, y un solo bloque de texto comienza a transmitir una interpretación real. La primera vez que escuchas una frase sarcástica, resulta un poco desconcertante. La versión anterior, Multilingual v2, sigue siendo compatible con 29 idiomas y continúa siendo la opción predeterminada para narraciones largas y estables, donde la coherencia supera la variedad.

Clonación de voz, doblaje y audio multilingüe

Dos funciones lo distinguen de la simple narración. La primera es la clonación de voz. Basta con introducir una muestra corta para que copie una voz específica, ya sea una clonación instantánea a partir de aproximadamente un minuto de audio o una voz profesional más nítida. La segunda es el doblaje con IA. Con un vídeo ya grabado, lo dobla a otro idioma manteniendo el tono del hablante, lo que permite realizar la localización multilingüe, que antes requería reservar un estudio, con tan solo unos clics. Además, cuenta con una biblioteca de voces compartida, donde los usuarios publican y licencian voces entre sí.

El clon profesional es el que les interesa a los estudios. Basta con treinta minutos de audio limpio y una verificación de consentimiento. A cambio, reproduce la cadencia y el acento del original con tanta fidelidad que los actores de doblaje ahora licencian sus propios clones y cobran una parte mientras duermen. El clon instantáneo es más rápido y menos preciso. Sirve para un prototipo rápido, pero es fácil detectar que es sintético.

Escriba, música con IA y agentes conversacionales

El paquete también funciona en sentido inverso, de audio a texto. Scribe es el modelo de voz a texto. Transcribe con etiquetas de orador y marcas de tiempo, y la versión v2 admite 99 idiomas, etiquetando quién dijo qué con una precisión aproximada del 98 %. Luego está Eleven Music, añadido en 2025, que genera pistas de fondo sin ruido bajo demanda. Los agentes de IA conversacional van aún más allá: combinan voz a texto, un modelo de lenguaje y texto a voz, y un bot puede escuchar, responder en tiempo real y transferir la conversación a un humano en un flujo continuo. Completa el sistema con efectos de sonido y un aislador de voz para rescatar grabaciones ruidosas.

Scribe es donde esta plataforma demuestra su verdadera valía. Va más allá de simplemente generar una transcripción. Etiqueta sonidos no verbales, marca el tiempo a nivel de palabra y separa a los hablantes superpuestos, razón por la cual los podcasters e investigadores confían en ella para convertir grabaciones desordenadas en texto editable y con capacidad de búsqueda. Además, la versión 2 es aproximadamente un 40 % más económica que la primera. ¿Un producto de IA que mejora y se abarata al mismo tiempo? Eso es excepcional.

elevenlabs-ai

Cómo ElevenLabs se convirtió en una empresa de IA valorada en 11.000 millones de dólares.

Las páginas de productos omiten lo más sorprendente: el dinero. Si analizamos la financiación, el crecimiento deja de parecer normal. A principios de 2025, ElevenLabs recaudó 180 millones de dólares en una ronda de financiación Serie C que la valoró en 3300 millones de dólares, con Andreessen Horowitz e ICONIQ Growth como co-líderes. Trece meses después, Sequoia lideró una ronda Serie D de 500 millones de dólares , elevando el precio a 11 000 millones de dólares. El triple, en un año, para la misma empresa.

Los ingresos explican el interés. ElevenLabs superó los 330 millones de dólares en ingresos recurrentes anuales a finales de 2025. Lo que desconcierta a los inversores es el ritmo. Veinte meses para alcanzar los 100 millones de dólares. Luego, 10 meses para duplicarlos. Y solo 5 meses para llegar a los 330 millones. Cada etapa más corta que la anterior. Y según los datos de la propia empresa de enero de 2025, empleados de más del 60 % de las empresas Fortune 500 ya habían utilizado la plataforma.

Redondo	Fecha	Aumentó	Valuación
Serie B	Enero de 2024	80 millones de dólares	1.100 millones de dólares
Serie C	Enero de 2025	180 millones de dólares	3.300 millones de dólares
Serie D	Febrero de 2026	500 millones de dólares	11 mil millones de dólares

Tras cinco rondas de financiación, ElevenLabs ha recaudado aproximadamente 781 millones de dólares, y sus fundadores han hablado abiertamente de una posible salida a bolsa. Lo que convence a los inversores no es la aplicación para el consumidor, sino la infraestructura que la sustenta: cualquier empresa que incorpore la voz a un producto es un cliente potencial, y el mercado de la síntesis de voz apenas existía hace tres años. La apuesta es que la voz se convierta en la interfaz predeterminada, al igual que sucedió con la pantalla táctil.

Precios de ElevenLabs: planes gratuitos y de pago

Puedes usar ElevenLabs sin pagar, y el plan gratuito es más que una muestra. Los planes de pago principalmente te dan más créditos mensuales, que se gastan a medida que generas audio, en lugar de desbloquear funciones completamente diferentes. Aquí está la estructura 2026 .

Plan	Precio/mes	créditos mensuales
Gratis	$0	10.000
Motor de arranque	$6	30.000
Creador	$22	121.000
Pro	$99	600.000
Escala	$299	1.800.000
Negocio	$990	6.000.000

Los créditos se corresponden aproximadamente con los caracteres de voz, por lo que un plan gratuito de 10 000 créditos es suficiente para unos minutos de audio al mes. El plan Creator, de 22 $, es el punto de partida ideal para quienes publican con regularidad, y los derechos de uso comercial se activan con los planes de pago. Los desarrolladores pagan por uso a través de la API, en lugar de una tarifa mensual fija.

Por encima de Business se encuentra el nivel Enterprise personalizado con soporte dedicado, límites de tarifas más altos y las condiciones contractuales que exigen la mayoría de los grandes compradores. La API calcula el uso según los caracteres generados, por lo que una aplicación con mucho tráfico paga proporcionalmente a su uso en lugar de tener que adivinar un plan por adelantado. Un detalle importante: los créditos no son acumulables, por lo que un mes no utilizado supone una pérdida de dinero.

¿Quién usa ElevenLabs y para qué?

Los usuarios interesantes no son aficionados que crean vídeos novedosos; son empresas que reemplazan el tiempo de estudio. Las editoriales de audiolibros narran catálogos completos sin contratar actores. Los youtubers y creadores de cursos añaden voces en off en idiomas que no dominan. Los estudios de videojuegos doblan personajes secundarios a gran escala. Las aplicaciones de accesibilidad leen artículos en voz alta a través de la aplicación ElevenReader. Los centros de llamadas utilizan agentes conversacionales que responden preguntas rutinarias antes de que intervenga un humano. Los equipos de localización doblan vídeos de formación para el personal global.

Ese alcance es la razón por la que su valoración se mantiene. La compañía afirma que su API impulsa productos que, en conjunto, dan servicio a más de mil millones de usuarios, entre los que se incluyen Meta, Epic Games y Salesforce. Para la mayoría de estos compradores, ElevenLabs es como una tubería: una infraestructura de audio invisible integrada en un producto con otra marca.

Algunos ejemplos ilustran la magnitud del problema. La aplicación ElevenReader lee artículos, PDF y libros electrónicos en voz alta con la voz elegida, convirtiéndose en una herramienta de accesibilidad muy útil para personas con dislexia o baja visión. Las redacciones generan automáticamente versiones de audio de sus artículos. Los desarrolladores independientes dotan a los personajes no jugables de voces distintivas, algo que antes requería un presupuesto de grabación que no tenían. El denominador común es el audio de producción, que antes requería un estudio y ahora se genera directamente desde un cuadro de texto.

El problema de los deepfakes y la seguridad de la voz en la IA

Voces tan convincentes también pueden ser un arma. ElevenLabs lo aprendió por las malas. En enero de 2024, una llamada automática falsa con la voz del presidente Biden instó a los votantes de New Hampshire a no participar en las primarias. Obviamente, no era él. La empresa de seguridad Pindrop analizó la grabación, rastreó el origen hasta ElevenLabs y reportó una coincidencia del 84% según su clasificador. La compañía bloqueó la cuenta responsable.

Ese episodio sacó a la luz la cuestión de la seguridad. ElevenLabs ahora utiliza un clasificador de voz con IA que comprueba si un clip proviene de sus herramientas, bloquea la clonación de ciertas figuras públicas de alto riesgo y exige la verificación de identidad antes de realizar una clonación de voz profesional. ¿Funciona todo esto a la perfección? No. La detección siempre va a la zaga de la generación, y un atacante decidido puede simplemente recurrir a un proveedor menos riguroso. En resumen: la empresa ha implementado medidas de seguridad efectivas en torno a una herramienta que, en esencia, tiene doble función, y la lucha entre crear falsificaciones y detectarlas está lejos de terminar.

Los reguladores lo han notado. Varios estados de EE. UU. tomaron medidas para restringir las llamadas automáticas generadas por IA tras el incidente de Biden, y la empresa se ha sumado a la iniciativa del sector para la marca de agua de audio, que incorpora señales que resisten la compresión y ayudan a rastrear un clip hasta su origen. Los críticos argumentan que las marcas de agua se pueden eliminar y que las medidas voluntarias no sustituyen a la ley. ElevenLabs se encuentra en una posición incómoda pero honesta: la herramienta más potente de su categoría conlleva la mayor responsabilidad de su regulación.

elevenlabs-ai

ElevenLabs frente a otros generadores de voz con IA

ElevenLabs es ampliamente reconocido como el generador de voz con IA líder en calidad, pero no es la única opción, ni siempre la más adecuada. La elección suele depender del nivel de realismo que se necesite y del presupuesto disponible.

Herramienta	Punto fuerte principal	Lo mejor para
ElevenLabs	Voces de lo más realistas, más de 70 idiomas, API potente	Audio de producción, doblaje
Murf	Interfaz sencilla, menor coste	Locuciones comerciales rápidas
Play.ht	Amplia biblioteca de voces en off	Podcasts y programas de formato largo
OpenAI / Azure	Incluido en un paquete con otros servicios de IA.	Desarrolladores que ya están en ese stack

Si su prioridad es obtener resultados lo más naturales posible y contar con una amplia compatibilidad lingüística, ElevenLabs es difícil de superar; aún no he encontrado un competidor que iguale a la versión 3 en un nivel realmente exigente. Si busca una herramienta sencilla y económica para vídeos corporativos ocasionales, es posible que encuentre una alternativa mejor por menos dinero.

Cómo empezar a usar las voces de IA de ElevenLabs

Tu primer clip generado con el generador de voz de IA de ElevenLabs dura aproximadamente tres minutos. Crea una cuenta gratuita. Abre la herramienta de voz y elige una voz, ya sea de la biblioteca o una que hayas creado tú mismo. Pega tu texto, selecciona el modelo y el idioma, y pulsa generar. Escucha la grabación. Si la voz no te convence, ajusta los controles deslizantes de estabilidad y estilo e inténtalo de nuevo; luego, descarga el archivo MP3. Ese es todo el proceso.

Los desarrolladores se saltan el panel de control y llaman directamente a la API con una clave, enviando texto y un identificador de voz, y recibiendo audio como respuesta. Así es como esas aplicaciones con miles de millones de usuarios integran ElevenLabs en sus propios productos.

Por qué ElevenLabs lidera la generación de voz mediante IA

ElevenLabs pasó de ser un proyecto secundario de transcripción a una plataforma de 11 mil millones de dólares más rápido que casi cualquier otra empresa de software anterior, y las voces son tan buenas que la expectación está más que justificada. La versión gratuita permite a cualquiera comprobarlo en minutos. Pero ese mismo realismo que atrae clientes es precisamente lo que preocupa a los reguladores e investigadores de seguridad, y la llamada automática de Biden no será el último incidente. La tecnología ya existe y mejora mes a mes. La pregunta clave es si las normas y las herramientas de detección podrán seguir el ritmo de voces que ya engañan a la mayoría de los oyentes. ¿Dónde trazarías la línea?

Mathis Curcio

Mathis Curcio is a senior content strategist and NFT specialist at Plisio. With over 5 years of experience in the Web3 space, Mathis focuses on the evolution of NFT ecosystems, digital collectibles, and decentralized ownership models. He creates accessible, insight-driven content that bridges the gap between blockchain innovation and mainstream adoption. His expertise spans NFT market trends, use cases across art and gaming, and the infrastructure powering next-generation tokenized assets.