ElevenLabs: All’interno del generatore vocale basato sull’intelligenza artificiale da 11 miliardi di dollari

Inviato su Jun 22, 2026 Scritto da Mathis Curcio

Avete sentito parlare di ElevenLabs. Semplicemente non lo sapevate. La voce narrante in un video esplicativo su YouTube, il doppiaggio di un film straniero, la voce dall'altra parte di una linea di assistenza: gran parte di questi audio viene generata oggi, e gran parte di essa è gestita da un'azienda che la maggior parte delle persone al di fuori del settore tecnologico non saprebbe nominare. ElevenLabs crea voci basate sull'intelligenza artificiale. Nel febbraio 2026 ha raccolto fondi con una valutazione di 11 miliardi di dollari proprio per questo scopo. Due amici polacchi l'hanno fondata nel 2022 e oggi il suo generatore di voci basato sull'IA è integrato in app utilizzate da oltre un miliardo di persone. Quindi, cosa fa esattamente, quanto costa in dollari e perché gli esperti di sicurezza continuano a preoccuparsene?

Cosa fa ElevenLabs: voci generate dall'IA e altro ancora.

Tutto è iniziato come un semplice strumento di sintesi vocale. Ora è una piattaforma audio completa, e le voci sono solo la prima cosa che si nota. È la ricchezza di funzionalità che giustifica il prezzo. I due fondatori hanno affrontato il problema da prospettive insolite: Piotr Dabkowski era un ingegnere di machine learning presso Google, Mati Staniszewski uno stratega di Palantir. La loro frustrazione comune era semplice: la sintesi vocale di allora era in grado di pronunciare le parole, ma non di recitarle. Risolvendo questo problema, pensavano, tutto il resto sarebbe venuto di conseguenza. Gran parte dei prodotti che l'azienda offre ancora oggi derivano da quella singola scommessa.

Sintesi vocale e voci AI realistiche

Partiamo dal cuore del sistema: trasforma il testo scritto in audio parlato. Il modello più recente, Eleven v3 , è stato rilasciato a giugno 2025. Legge più di 70 lingue e accetta tag in linea come [sussurra] o [ride], permettendoti di guidare la lettura riga per riga. Hai bisogno di velocità? Un modello più leggero, chiamato Flash, sacrifica un po' di rifinitura in favore di un output quasi istantaneo, fondamentale per le applicazioni live. Il risultato è davvero realistico. Ecco perché i creatori scelgono ElevenLabs per voci fuori campo, podcast e narrazioni su video con intelligenza artificiale, dove una lettura robotica rovinerebbe l'effetto.

Ciò che distingue la versione 3 è il controllo. I motori di sintesi vocale più vecchi leggevano tutto con lo stesso tono piatto. Non questo. Selezionando una frase da sussurrare, pronunciare in fretta o con un sospiro, un singolo blocco di testo inizia ad assumere una vera e propria interpretazione. La prima volta che lo si sente pronunciare una battuta sarcastica, è un po' spiazzante. La precedente versione multilingue 2 supporta ancora 29 lingue e rimane l'impostazione predefinita per narrazioni lunghe e stabili, dove la coerenza è più importante della varietà.

Clonazione vocale, doppiaggio e audio multilingue

Due funzionalità lo elevano ben oltre la semplice narrazione. La prima è la clonazione vocale. Basta fornirgli un breve campione audio e il sistema ne riproduce una specifica, creando una clonazione istantanea da circa un minuto di audio oppure una voce più nitida e professionale. La seconda è il doppiaggio tramite intelligenza artificiale. Fornendogli un video finito, il sistema ne ridoppia l'intera voce in un'altra lingua, mantenendo il tono originale dell'oratore. In questo modo, la localizzazione multilingue, che prima richiedeva la prenotazione di uno studio di registrazione, ora si realizza con pochi clic. È presente anche una libreria vocale condivisa, dove gli utenti possono pubblicare e concedere in licenza le proprie voci ad altri utenti.

Il clone professionale è quello che interessa agli studi di registrazione. Basta dargli trenta minuti di audio pulito e una verifica del consenso. In cambio, cattura la cadenza e l'accento dell'originale così fedelmente che i doppiatori ora concedono in licenza i propri cloni e intascano una percentuale mentre dormono. Il clone istantaneo è più veloce e meno preciso. Va bene per un prototipo rapido, ma è facile da riconoscere come sintetico.

Scribe, musica basata sull'intelligenza artificiale e agenti conversazionali

La suite funziona anche nella direzione opposta, dall'audio al testo. Scribe è il modello di riconoscimento vocale. Trascrive con etichette per l'oratore e timestamp, e la versione v2 gestisce 99 lingue, etichettando chi ha detto cosa con una precisione di circa il 98%. C'è poi Eleven Music, aggiunto nel 2025, che genera tracce di sottofondo pulite su richiesta. Gli agenti di intelligenza artificiale conversazionale vanno ancora oltre: combinano riconoscimento vocale, un modello linguistico e sintesi vocale, permettendo a un bot di ascoltare, rispondere in tempo reale e passare la parola a un essere umano in un flusso continuo. Il tutto è completato da effetti sonori e da un isolatore vocale per recuperare registrazioni rumorose.

Scribe è il vero punto di forza di questa piattaforma. Fa molto di più che semplicemente trascrivere una registrazione: etichetta i suoni non verbali, contrassegna i timestamp a livello di parola e separa gli interlocutori che si sovrappongono. Per questo motivo, podcaster e ricercatori la utilizzano per trasformare registrazioni disordinate in testi ricercabili e modificabili. Inoltre, la versione 2 costa circa il 40% in meno rispetto alla prima. Un prodotto basato sull'intelligenza artificiale che migliora e costa allo stesso tempo? È raro.

elevenlabs-ai

Come ElevenLabs è diventata un'azienda di intelligenza artificiale da 11 miliardi di dollari

Le pagine dei prodotti tralasciano la parte più incredibile: i soldi. Basta guardare i finanziamenti e la crescita smette di sembrare normale. All'inizio del 2025, ElevenLabs ha raccolto 180 milioni di dollari in un round di finanziamento di Serie C che ha portato la sua valutazione a 3,3 miliardi di dollari, con Andreessen Horowitz e ICONIQ Growth come co-leader. Tredici mesi dopo, Sequoia ha guidato un round di Serie D da 500 milioni di dollari , raggiungendo una valutazione di 11 miliardi di dollari. Il triplo, in un anno, per la stessa azienda.

Il fatturato spiega l'interesse. Entro la fine del 2025, ElevenLabs aveva superato i 330 milioni di dollari di fatturato annuo ricorrente. Ciò che fa perdere la calma agli investitori è la velocità con cui è cresciuta. Venti mesi per raggiungere i 100 milioni di dollari. Poi 10 mesi per raddoppiarli. Infine, solo 5 mesi per arrivare a 330 milioni di dollari. Ogni traguardo più breve del precedente. E, secondo i dati della stessa azienda relativi a gennaio 2025, oltre il 60% delle aziende Fortune 500 aveva già utilizzato la piattaforma.

Girare	Data	Sollevato	Valutazione
Serie B	Gennaio 2024	80 milioni di dollari	1,1 miliardi di dollari
Serie C	Gennaio 2025	180 milioni di dollari	3,3 miliardi di dollari
Serie D	Febbraio 2026	500 milioni di dollari	11 miliardi di dollari

In cinque round di finanziamento, ElevenLabs ha raccolto circa 781 milioni di dollari e i suoi fondatori hanno apertamente parlato di una futura IPO. Ciò che convince gli investitori non è l'app per i consumatori, ma l'infrastruttura sottostante: ogni azienda che aggiunge una voce a un prodotto è un potenziale cliente e il mercato della sintesi vocale era praticamente inesistente tre anni fa. La scommessa è che la voce diventi un'interfaccia predefinita, proprio come è successo con il touchscreen.

Prezzi di ElevenLabs: piani gratuiti e a pagamento

È possibile utilizzare ElevenLabs senza pagare, e il piano gratuito è più di una semplice anteprima. I piani a pagamento offrono principalmente crediti mensili aggiuntivi, che vengono utilizzati per generare audio, piuttosto che sbloccare funzionalità completamente diverse. Ecco la struttura 2026 .

Piano	Prezzo mensile	Crediti mensili
Gratuito	$0	10.000
Avviamento	6 dollari	30.000
Creatore	$22	121.000
Pro	$99	600.000
Scala	$299	1.800.000
Attività commerciale	$990	6.000.000

I crediti corrispondono approssimativamente ai caratteri del parlato, quindi un piano gratuito da 10.000 crediti è sufficiente per alcuni minuti di audio al mese. Il piano Creator, al costo di 22 dollari, è il punto di partenza ideale per chiunque pubblichi regolarmente, mentre i diritti di utilizzo commerciale si attivano con i piani a pagamento. Gli sviluppatori pagano in base all'utilizzo tramite API, anziché con una tariffa mensile fissa.

Al di sopra del piano Business si colloca un piano Enterprise personalizzato con supporto dedicato, limiti di tariffazione più elevati e le condizioni contrattuali richieste dalla maggior parte dei grandi acquirenti. L'API calcola il traffico in base ai caratteri generati, quindi un'app ad alto traffico paga in proporzione all'utilizzo anziché dover prevedere un piano in anticipo. Un aspetto da tenere presente: i crediti non sono cumulabili, quindi un mese non utilizzato rappresenta un guadagno perso.

Chi utilizza ElevenLabs e per quale scopo?

Gli utenti più interessanti non sono semplici appassionati che realizzano brevi clip, ma aziende che sostituiscono il tempo in studio di registrazione. Le case editrici di audiolibri narrano interi cataloghi senza ingaggiare attori. YouTuber e creatori di corsi aggiungono voci fuori campo in lingue che non conoscono. Gli studi di sviluppo di videogiochi doppiano personaggi secondari su larga scala. Le app per l'accessibilità leggono articoli ad alta voce tramite l'app ElevenReader. I call center utilizzano agenti conversazionali che rispondono a domande di routine prima che intervenga un operatore umano. I team di localizzazione doppiano video di formazione per il personale internazionale.

È proprio questa portata che giustifica la valutazione dell'azienda. Secondo quanto dichiarato, la sua API alimenta prodotti che servono complessivamente oltre un miliardo di utenti, tra cui Meta, Epic Games e Salesforce. Per la maggior parte di questi acquirenti, ElevenLabs rappresenta un'infrastruttura di base: un'infrastruttura audio invisibile integrata in un prodotto con un nome diverso.

Alcuni esempi rendono concreta la portata di questo fenomeno. L'app ElevenReader legge ad alta voce articoli, PDF ed ebook con una voce a scelta, diventando un vero e proprio strumento di accessibilità per le persone con dislessia o ipovisione. Le redazioni generano automaticamente versioni audio degli articoli scritti. Gli sviluppatori indipendenti danno voci distinte ai personaggi non giocanti, cosa che un tempo richiedeva un budget di registrazione che non era disponibile. Il filo conduttore è l'audio di produzione che prima necessitava di uno studio, ora viene generato direttamente da una casella di testo.

Il problema dei deepfake e la sicurezza delle voci generate dall'intelligenza artificiale

Voci così convincenti possono anche essere un'arma. ElevenLabs lo ha imparato a sue spese. Nel gennaio 2024, una finta chiamata automatizzata con la voce del presidente Biden invitava gli elettori del New Hampshire a non partecipare alle primarie. Ovviamente non era lui in persona. L'azienda di sicurezza Pindrop ha analizzato la registrazione, l'ha rintracciata fino a ElevenLabs e ha rilevato una corrispondenza dell'84% con il suo sistema di classificazione. L'azienda ha quindi bloccato l'account responsabile.

Quell'episodio ha portato alla luce la questione della sicurezza. ElevenLabs ora utilizza un classificatore vocale basato sull'intelligenza artificiale che verifica se una clip proviene dai suoi strumenti, blocca la clonazione di determinate figure pubbliche ad alto rischio e richiede la verifica dell'identità prima di un clone vocale professionale. Funziona tutto alla perfezione? No. Il rilevamento è sempre in ritardo rispetto alla generazione, e un malintenzionato determinato può semplicemente rivolgersi a un fornitore meno scrupoloso. Quindi, ecco la verità: l'azienda ha costruito delle vere e proprie barriere di sicurezza attorno a uno strumento che ha una duplice funzione, e la corsa tra la creazione di falsi e la loro cattura è tutt'altro che conclusa.

Le autorità di regolamentazione se ne sono accorte. Diversi stati americani hanno adottato misure per limitare le chiamate automatiche generate dall'intelligenza artificiale dopo l'incidente di Biden, e l'azienda si è unita al lavoro del settore sulla filigrana audio, incorporando segnali che resistono alla compressione e aiutano a risalire alla fonte di una clip. I critici obiettano che le filigrane possono essere rimosse e che le misure volontarie non sostituiscono la legge. ElevenLabs si trova in una posizione scomoda ma onesta: lo strumento più potente della categoria ha la maggiore responsabilità di regolamentarlo.

elevenlabs-ai

ElevenLabs contro altri generatori vocali basati sull'intelligenza artificiale

ElevenLabs è ampiamente considerato il generatore di voci basato sull'intelligenza artificiale leader per qualità, ma non è l'unica opzione e non è sempre quella giusta. La scelta di solito dipende dal livello di realismo desiderato rispetto al budget a disposizione.

Attrezzo	Punto di forza principale	Ideale per
ElevenLabs	Voci estremamente realistiche, oltre 70 lingue, API potente	Produzione audio, doppiaggio
Murf	Interfaccia semplice, costi ridotti	Brevi voci fuori campo per il mondo degli affari
Play.ht	Ampia libreria di voci preregistrate	Podcast e contenuti di lunga durata
OpenAI / Azure	Incluso con altri servizi di intelligenza artificiale	Sviluppatori già in quello stack

Se la vostra priorità è la massima qualità di output e un ampio supporto linguistico, ElevenLabs è difficile da battere: non ho ancora sentito un concorrente eguagliare la versione 3 in una situazione davvero complessa. Se invece cercate uno strumento semplice ed economico per video aziendali occasionali, un concorrente potrebbe offrirvi una soluzione migliore a un prezzo inferiore.

Come iniziare a usare le voci AI di ElevenLabs

Il primo clip generato dal generatore di voci AI di ElevenLabs dura circa tre minuti, dall'inizio alla fine. Crea un account gratuito. Apri lo strumento di sintesi vocale e scegli una voce, dalla libreria o una tua voce personalizzata. Incolla il testo, seleziona il modello e la lingua e clicca su "Genera". Ascolta. Se la pronuncia non ti convince, regola i cursori di stabilità e stile e riprova, quindi scarica il file MP3. Questo è tutto.

Gli sviluppatori saltano la dashboard e chiamano direttamente l'API con una chiave, passando testo e un ID vocale e ricevendo l'audio in risposta. È così che le app utilizzate da miliardi di utenti integrano ElevenLabs nei propri prodotti.

Perché ElevenLabs è leader nella generazione vocale basata sull'intelligenza artificiale

ElevenLabs è passata da un progetto secondario di trascrizione a una piattaforma da 11 miliardi di dollari più velocemente di quasi qualsiasi altra azienda di software prima di lei, e le voci sono così realistiche che l'entusiasmo è in gran parte meritato. La versione gratuita permette a chiunque di testare questa affermazione in pochi minuti. Ma lo stesso realismo che conquista i clienti è esattamente ciò che preoccupa le autorità di regolamentazione e i ricercatori nel campo della sicurezza, e la telefonata automatizzata con la voce di Biden non sarà l'ultimo episodio. La tecnologia è già disponibile e migliora di mese in mese. La domanda aperta è se le normative e gli strumenti di rilevamento riusciranno a tenere il passo con voci che già ingannano la maggior parte degli ascoltatori. Dove traccereste il confine?

Mathis Curcio

Mathis Curcio is a senior content strategist and NFT specialist at Plisio. With over 5 years of experience in the Web3 space, Mathis focuses on the evolution of NFT ecosystems, digital collectibles, and decentralized ownership models. He creates accessible, insight-driven content that bridges the gap between blockchain innovation and mainstream adoption. His expertise spans NFT market trends, use cases across art and gaming, and the infrastructure powering next-generation tokenized assets.