UndiciLabs

UndiciLabs

In una mossa rivoluzionaria, ElevenLabs, un leader dell'intelligenza artificiale recentemente rafforzato da un sostanzioso round di finanziamenti da 180 milioni di $, sta espandendo la sua portata oltre la generazione audio. Già nota per aver alimentato varie applicazioni vocali, l'azienda si sta ora avventurando nel competitivo mercato della conversione da parlato a testo con la sua nuova offerta, Scribe . Questo audace lancio segna l'ambizione di ElevenLabs non solo di eccellere nella creazione audio, ma anche di dominare la tecnologia di trascrizione, sfidando i player affermati nel settore.

Cosa distingue ElevenLabs Scribe nel riconoscimento vocale?

Con una valutazione di 3,3 miliardi di $, ElevenLabs non è estranea al campo del riconoscimento vocale AI. In precedenza, l'azienda supportava numerose soluzioni di speech-to-text attraverso la sua vasta libreria vocale. Tuttavia, Scribe segna il suo primo modello autonomo di speech-to-text, posizionandosi contro giganti del settore come Gladia, Speechmatics, AssemblyAI, Deepgram e persino Whisper di OpenAI. Quindi, cosa distingue Scribe in un campo così competitivo?

  1. Copertura linguistica senza pari : Scribe supporta oltre 99 lingue fin dall'inizio, posizionandosi come una soluzione di trascrizione veramente globale.
  2. Precisione eccezionale nelle lingue chiave : ElevenLabs dichiara una precisione eccezionale (con un tasso di errore di parola inferiore al 5%) in più di 25 lingue, tra cui inglese (precisione del 97%), francese, tedesco, hindi, giapponese e spagnolo. Questa attenzione alla precisione della lingua è un fattore di differenziazione chiave. Sebbene queste affermazioni siano impressionanti, un'ulteriore convalida tramite test di terze parti potrebbe rafforzare la fiducia in questi numeri.
  3. Prestazioni leader del settore : nei test di benchmark come FLEURS e Common Voice, Scribe supera i modelli principali come Google Gemini 2.0 Flash e Whisper Large V3, evidenziando le sue capacità all'avanguardia. Questo successo di benchmark indica un significativo balzo in avanti nei modelli di trascrizione basati sull'intelligenza artificiale, offrendo prestazioni superiori che potrebbero essere cruciali in settori che richiedono elevata accuratezza, come la trascrizione legale o medica.

Originariamente ElevenLabs aveva sviluppato questa tecnologia di conversione da parlato a testo per la sua piattaforma di intelligenza artificiale conversazionale, ma con Scribe la tecnologia è ora disponibile come modello autonomo, ampliando la sua base di utenti.

Esplorazione delle caratteristiche uniche di Scribe

Durante una recente intervista con Bitcoin World , il CEO di ElevenLabs Mati Staniszewski ha discusso la visione dell'azienda per migliorare il riconoscimento vocale. Ha sottolineato che l'obiettivo dell'azienda è comprendere meglio le conversazioni e non solo generare contenuti. Staniszewski ha anche affrontato l'idea sbagliata che la conversione del parlato in testo sia un problema completamente risolto, in particolare per le lingue in cui l'accuratezza è storicamente carente. Uno dei principali vantaggi dell'azienda, secondo lui, risiede nei suoi team interni di annotazione dei dati, che contribuiscono allo sviluppo di modelli superiori.

Oltre alla trascrizione di base, Scribe offre diverse funzionalità eccezionali:

  • Diarizzazione degli altoparlanti intelligenti : questa funzione riesce a distinguere gli altoparlanti, rendendola ideale per le conversazioni tra più persone.
  • Timestamp a livello di parola : Scribe fornisce timestamp precisi per ogni parola, consentendo una generazione fluida di sottotitoli e un'analisi dettagliata.
  • Etichettatura automatica di eventi sonori : il modello può rilevare ed etichettare eventi sonori come risate e applausi, aggiungendo un contesto prezioso alle trascrizioni.

Attualmente, ElevenLabs ha integrato Scribe nel suo studio, consentendo agli utenti di trascrivere contenuti video per sottotitoli e didascalie. Sebbene attualmente supporti l'audio preregistrato, l'azienda promette che presto arriverà una versione a bassa latenza e in tempo reale, che potrebbe aprire nuove possibilità per le trascrizioni di riunioni in diretta e la presa di appunti vocali.

Prezzi e concorrenza: Scribe vale la pena?

ElevenLabs offre Scribe a una tariffa competitiva di $ 0,40 all'ora di audio trascritto. Mentre alcuni concorrenti offrono prezzi più bassi, è importante soppesare questo in base alle funzionalità offerte, in particolare l'accuratezza e il supporto linguistico forniti da Scribe .

Ecco un rapido confronto dei prezzi con altri fornitori:

Fornitore

Modello

Punti di forza

Prezzi (circa all'ora)

UndiciLabs

Scriba

Ampio supporto linguistico, elevata precisione, prestazioni di riferimento

$0,40

Profondogramma

Nova-2

Trascrizione in tempo reale, scalabilità, focalizzata sullo sviluppatore

Varia

AssembleaAI

Conforme-2

Ricco di funzionalità, intelligenza audio, riepilogo

Varia

Discorsomatica

Inglese globale

Elevata precisione, comprensione dell'accento

Varia

Gladia

Vari modelli

Modelli specializzati, robustezza al rumore

Varia

Pro e contro

Pro:

  • Portata globale : supporta oltre 99 lingue, il che lo rende uno strumento versatile per applicazioni internazionali.
  • Elevata precisione : dichiara un basso tasso di errore (inferiore al 5%) per oltre 25 lingue principali, tra cui l'inglese (precisione del 97%).
  • Prestazioni all'avanguardia : supera modelli leader come Google Gemini e Whisper di OpenAI nei test di benchmark.
  • Diarizzazione intelligente : differenzia i parlanti, ideale per conversazioni complesse con più persone.
  • Funzionalità in tempo reale in arrivo : la futura trascrizione in tempo reale rappresenterà una svolta per gli eventi e le riunioni in diretta.
  • Prezzi accessibili : a 0,40 $ l'ora, Scribe offre un prezzo competitivo per trascrizioni di alta qualità.

Contro:

  • Affermazioni non verificate : sebbene i dati sull'accuratezza sembrino impressionanti, un'ulteriore convalida da parte di terze parti potrebbe contribuire a consolidare la fiducia.
  • Supporto limitato in tempo reale : al momento disponibile solo per l'audio preregistrato, anche se presto verrà rilasciata una versione in tempo reale.
  • Confronto dei prezzi : sebbene convenienti, alcuni concorrenti potrebbero offrire tariffe più basse, ma con funzionalità diverse o minore precisione.

Conclusione

Mentre il panorama della conversione da parlato a testo diventa sempre più competitivo, Scribe di ElevenLabs è pronto a creare un forte impatto con la sua combinazione unica di supporto linguistico globale, accuratezza eccezionale e funzionalità innovative. Sfruttando la crescente domanda di soluzioni di trascrizione più accurate e accessibili, ElevenLabs ha creato le premesse per diventare un attore chiave in questo mercato. Settori come quello legale, sanitario e dei media, che si basano molto sulla trascrizione precisa, sono quelli che probabilmente trarranno i maggiori benefici da questa tecnologia. Man mano che lo strumento continua a evolversi, gli utenti possono aspettarsi funzionalità ancora più avanzate, posizionando Scribe come uno strumento potente per sbloccare il pieno potenziale dei dati linguistici parlati.

Ti ricordiamo che Plisio ti offre anche:

Crea fatture crittografiche in 2 clic and Accetta donazioni in criptovalute

14 integrazioni

10 librerie per i linguaggi di programmazione più diffusi

19 criptovalute e 12 blockchain

Ready to Get Started?

Create an account and start accepting payments – no contracts or KYC required. Or, contact us to design a custom package for your business.

Make first step

Always know what you pay

Integrated per-transaction pricing with no hidden fees

Start your integration

Set up Plisio swiftly in just 10 minutes.