OnceLabs

OnceLabs

En un movimiento innovador, ElevenLabs, un líder en inteligencia artificial que recientemente recibió un importante impulso con una importante ronda de financiación de 180 millones de dólares, está ampliando su alcance más allá de la generación de audio. La empresa, ya conocida por impulsar varias aplicaciones de voz, ahora se está aventurando en el competitivo mercado de voz a texto con su nueva oferta, Scribe . Este audaz lanzamiento marca la ambición de ElevenLabs de no solo sobresalir en la creación de audio, sino también de dominar la tecnología de transcripción, desafiando a los actores establecidos en el espacio.

¿Qué diferencia a ElevenLabs Scribe en el reconocimiento de voz?

Con una valoración de 3.300 millones de dólares, ElevenLabs no es ajena al campo del reconocimiento de voz por inteligencia artificial. Anteriormente, la empresa admitía numerosas soluciones de conversión de voz a texto a través de su amplia biblioteca de voz. Sin embargo, Scribe marca su primer modelo de conversión de voz a texto independiente, lo que los posiciona frente a gigantes de la industria como Gladia, Speechmatics, AssemblyAI, Deepgram e incluso Whisper de OpenAI. Entonces, ¿qué hace que Scribe se destaque en un campo tan competitivo?

  1. Cobertura de idiomas inigualable : Scribe admite más de 99 idiomas desde el principio, lo que lo posiciona como una solución de transcripción verdaderamente global.
  2. Precisión excepcional en los principales idiomas : ElevenLabs afirma tener una precisión excepcional (con una tasa de error de palabras inferior al 5 %) en más de 25 idiomas, incluidos inglés (97 %), francés, alemán, hindi, japonés y español. Este enfoque en la precisión del lenguaje es un diferenciador clave. Si bien estas afirmaciones son impresionantes, una validación adicional a través de pruebas de terceros podría fortalecer la confianza en estas cifras.
  3. Rendimiento líder en la industria : en pruebas comparativas como FLEURS y Common Voice, Scribe supuestamente supera a modelos superiores como Google Gemini 2.0 Flash y Whisper Large V3, lo que destaca sus capacidades de vanguardia. Este éxito en las pruebas comparativas indica un avance significativo en los modelos de transcripción impulsados por IA, que ofrecen un rendimiento superior que podría ser crucial en sectores que requieren alta precisión, como la transcripción legal o médica.

ElevenLabs desarrolló originalmente esta tecnología de conversión de voz a texto para su plataforma de inteligencia artificial conversacional, pero con Scribe , la tecnología ahora está disponible como un modelo independiente, ampliando su base de usuarios.

Explorando las características únicas de Scribe

Durante una reciente entrevista con Bitcoin World , el CEO de ElevenLabs, Mati Staniszewski, habló sobre la visión de la empresa para mejorar el reconocimiento de voz. Enfatizó que el objetivo de la empresa es comprender mejor las conversaciones y no solo generar contenido. Staniszewski también abordó la idea errónea de que la conversión de voz a texto es un problema totalmente resuelto, en particular para los idiomas en los que la precisión históricamente ha sido deficiente. Una de las principales ventajas de la empresa, según él, radica en sus equipos internos de anotación de datos, que contribuyen al desarrollo de modelos superiores.

Además de la transcripción central, Scribe ofrece varias funciones destacadas:

  • Diario de altavoz inteligente : esta función puede diferenciar entre altavoces, lo que la hace ideal para conversaciones entre varias personas.
  • Marcas de tiempo a nivel de palabra : Scribe proporciona marcas de tiempo precisas para cada palabra, lo que permite una generación de subtítulos fluida y un análisis detallado.
  • Etiquetado automático de eventos de sonido : el modelo puede detectar y etiquetar eventos de sonido como risas y aplausos, agregando un contexto valioso a las transcripciones.

Actualmente, ElevenLabs ha integrado Scribe en su estudio, lo que permite a los usuarios transcribir contenido de vídeo para subtítulos y leyendas. Si bien actualmente admite audio pregrabado, la empresa promete que pronto lanzará una versión en tiempo real de baja latencia, que podría abrir nuevas posibilidades para transcripciones de reuniones en vivo y toma de notas de voz.

Precios y competencia: ¿Vale la pena Scribe?

ElevenLabs ofrece Scribe a una tarifa competitiva de $0,40 por hora de audio transcrito. Si bien algunos competidores ofrecen precios más bajos, es importante comparar esto con las características que ofrece, en particular la precisión y la compatibilidad con distintos idiomas que ofrece Scribe .

A continuación se muestra una rápida comparación de precios con otros proveedores:

Proveedor

Modelo

Fortalezas

Precios (aprox. por hora)

OnceLabs

Escriba

Amplio soporte de idiomas, alta precisión, rendimiento de referencia

$0,40

Deepgram

Nova-2

Transcripción en tiempo real, escalabilidad, centrada en el desarrollador

Varía

Asamblea AI

Conformista-2

Inteligencia de audio rica en funciones y resumen

Varía

Hablamática

Inglés global

Alta precisión, comprensión del acento.

Varía

Gladia

Varios modelos

Modelos especializados, robustez al ruido.

Varía

Pros y contras

Ventajas:

  • Alcance global : admite más de 99 idiomas, lo que lo convierte en una herramienta versátil para aplicaciones internacionales.
  • Alta precisión : afirma tener una baja tasa de error de palabras (menos del 5 %) para más de 25 idiomas principales, incluido el inglés (97 % de precisión).
  • Rendimiento de vanguardia : supera a modelos líderes como Google Gemini y Whisper de OpenAI en pruebas comparativas.
  • Diarización inteligente : diferencia a los oradores, ideal para conversaciones complejas entre varias personas.
  • Próximamente capacidades en tiempo real : la próxima transcripción en tiempo real cambiará las reglas del juego para eventos y reuniones en vivo.
  • Precios asequibles : a $0,40 por hora, Scribe ofrece un precio competitivo para transcripciones de alta calidad.

Contras:

  • Afirmaciones no verificadas : si bien las cifras de precisión parecen impresionantes, una mayor validación de terceros podría ayudar a consolidar la confianza.
  • Soporte limitado en tiempo real : actualmente solo está disponible para audio pregrabado, aunque se promete una versión en tiempo real pronto.
  • Comparación de precios : si bien son asequibles, algunos competidores pueden ofrecer tarifas más bajas, pero con diferentes conjuntos de características o menos precisión.

Conclusión

A medida que el panorama de la conversión de voz a texto se vuelve cada vez más competitivo, Scribe de ElevenLabs está preparado para causar un fuerte impacto con su combinación única de compatibilidad con idiomas globales, precisión excepcional y características innovadoras. Al aprovechar la creciente demanda de soluciones de transcripción más precisas y accesibles, ElevenLabs ha preparado el terreno para convertirse en un actor clave en este mercado. Es probable que sectores como el jurídico, el sanitario y los medios de comunicación, que dependen en gran medida de la transcripción precisa, sean los que más se beneficien de esta tecnología. A medida que la herramienta siga evolucionando, los usuarios pueden esperar capacidades aún más avanzadas, lo que posicionará a Scribe como una herramienta poderosa para liberar todo el potencial de los datos del lenguaje hablado.

Tenga en cuenta que Plisio también le ofrece:

Cree facturas criptográficas en 2 clics and Aceptar donaciones criptográficas

14 integraciones

10 bibliotecas para los lenguajes de programación más populares

19 criptomonedas y 12 blockchain

Ready to Get Started?

Create an account and start accepting payments – no contracts or KYC required. Or, contact us to design a custom package for your business.

Make first step

Always know what you pay

Integrated per-transaction pricing with no hidden fees

Start your integration

Set up Plisio swiftly in just 10 minutes.