ElevenLabs: Por dentro do gerador de voz com IA de US$ 11 bilhões
Você já ouviu falar da ElevenLabs. Só não sabia. O narrador de um vídeo explicativo no YouTube, o diálogo dublado em um filme estrangeiro, a voz do outro lado da linha de suporte: muito desse áudio é gerado automaticamente hoje em dia, e muito dele roda em uma empresa que a maioria das pessoas fora do setor de tecnologia não saberia nomear. A ElevenLabs cria vozes com inteligência artificial. Em fevereiro de 2026, a empresa recebeu uma rodada de investimentos com uma avaliação de US$ 11 bilhões para fazer exatamente isso. Dois amigos da Polônia a fundaram em 2022, e hoje seu gerador de voz com IA está presente em aplicativos usados por mais de um bilhão de pessoas. Mas o que ela realmente faz, quanto custa em dólares e por que os especialistas em segurança continuam perdendo o sono por causa disso?
O que a ElevenLabs faz: vozes de IA e muito mais
Começou como uma simples ferramenta de conversão de texto em fala. Agora é uma plataforma de áudio completa, e as vozes são apenas a parte que você percebe primeiro. A abrangência do restante é o que justifica o preço. Os dois fundadores abordaram o problema por ângulos inusitados: Piotr Dabkowski havia sido engenheiro de aprendizado de máquina no Google, e Mati Staniszewski, estrategista na Palantir. A frustração compartilhada por eles era simples. A fala sintética, naquela época, conseguia pronunciar palavras, mas não representá-las. Corrigindo isso, concluíram, todo o resto viria naturalmente. A maior parte do que a empresa oferece ainda deriva dessa aposta.
Texto para fala e vozes de IA realistas
Comecemos pelo essencial: ele transforma texto escrito em áudio falado. O modelo mais recente, Eleven v3 , foi lançado em junho de 2025. Ele lê mais de 70 idiomas e aceita marcadores embutidos como [sussurra] ou [ri], permitindo direcionar a fala linha por linha. Precisa de velocidade? Um modelo mais leve, chamado Flash, sacrifica um pouco do refinamento em prol de uma saída quase instantânea, o que é crucial para aplicativos em produção. O resultado é genuinamente realista. É por isso que criadores recorrem ao ElevenLabs para locuções, podcasts e narração em vídeos com IA, onde uma leitura robótica quebraria o encanto.
O que diferencia a versão 3 é o controle. Os mecanismos mais antigos liam tudo no mesmo tom monótono. Não é o caso desta versão. Marque uma frase para ser sussurrada, apressada ou proferida com um suspiro, e um único bloco de texto começa a transmitir uma verdadeira performance. A primeira vez que você ouve uma frase sarcástica, é um pouco desconcertante. A versão Multilíngue 2, mais antiga, ainda abrange 29 idiomas e continua sendo a opção padrão para narração longa e estável, onde a consistência supera a variedade.
Clonagem de voz, dublagem e áudio multilíngue
Duas funcionalidades a diferenciam da simples narração. A primeira é a clonagem de voz. Basta fornecer uma pequena amostra e ela copia uma voz específica, seja uma clonagem rápida e instantânea de cerca de um minuto de áudio ou uma voz profissional mais nítida. A segunda é a dublagem por IA. Basta fornecer um vídeo finalizado e ela redubla todo o conteúdo em outro idioma, mantendo o tom de voz do locutor. Assim, a localização multilíngue, que antes exigia a contratação de um estúdio, agora se resume a alguns cliques. Há também uma biblioteca de vozes compartilhada, onde os usuários publicam e licenciam vozes uns para os outros.
O clone profissional é o que interessa aos estúdios. Basta fornecer trinta minutos de áudio limpo e uma verificação de consentimento. Em troca, ele captura a cadência e o sotaque do original com tanta precisão que os dubladores agora licenciam seus próprios clones e recebem uma porcentagem enquanto dormem. O clone instantâneo é mais rápido e menos preciso. Bom para um protótipo rápido, mas fácil de identificar como artificial.
Scribe, IA para música e agentes conversacionais
O conjunto de ferramentas também funciona na direção oposta, da transcrição de áudio para texto. O Scribe é o modelo de fala para texto. Ele transcreve com identificação do falante e marcações de tempo, e a versão 2 suporta 99 idiomas, marcando quem disse o quê com aproximadamente 98% de precisão. Há também o Eleven Music, adicionado em 2025, que reproduz faixas de fundo sem ruído sob demanda. Os agentes de IA conversacionais vão ainda mais longe: combinam fala para texto, um modelo de linguagem e texto para fala, e um bot pode ouvir, responder em tempo real e transferir a conversa para um humano em um fluxo contínuo. Para completar, efeitos sonoros e um isolador de voz para recuperar gravações ruidosas.
É no Scribe que esta plataforma demonstra sua verdadeira profundidade. Ela faz mais do que simplesmente gerar uma transcrição. Ela identifica sons não verbais, marca os tempos exatos das palavras e separa os falantes que se sobrepõem, razão pela qual podcasters e pesquisadores a utilizam para transformar gravações complexas em texto pesquisável e editável. E a versão 2 custa cerca de 40% menos que a primeira. Um produto de IA que fica melhor e mais barato ao mesmo tempo? Isso é raro.

Como a ElevenLabs se tornou uma empresa de IA de US$ 11 bilhões
As páginas de produtos omitem a parte mais impressionante: o dinheiro. Mas basta olhar para o financiamento para que o crescimento pareça completamente atípico. No início de 2025, a ElevenLabs levantou US$ 180 milhões em uma rodada Série C, que a avaliou em US$ 3,3 bilhões, com a Andreessen Horowitz e a ICONIQ Growth como co-líderes. Treze meses depois, a Sequoia liderou uma rodada Série D de US$ 500 milhões , elevando o valor da empresa para US$ 11 bilhões. Um triplo em um ano para a mesma empresa.
A receita explica o apetite. A ElevenLabs ultrapassou os US$ 330 milhões em receita recorrente anual até o final de 2025. O que deixa os investidores apreensivos é o ritmo. Vinte meses para atingir US$ 100 milhões. Depois, 10 meses para dobrar esse valor. E, em seguida, apenas 5 meses para chegar a US$ 330 milhões. Cada ciclo mais curto que o anterior. E, segundo a própria empresa, em janeiro de 2025, funcionários de mais de 60% das empresas da Fortune 500 já haviam utilizado a plataforma.
| Redondo | Data | Criado | Avaliação |
|---|---|---|---|
| Série B | Janeiro de 2024 | US$ 80 milhões | US$ 1,1 bilhão |
| Série C | Janeiro de 2025 | US$ 180 milhões | US$ 3,3 bilhões |
| Série D | Fevereiro de 2026 | US$ 500 milhões | US$ 11 bilhões |
Ao longo de cinco rodadas de investimento, a ElevenLabs arrecadou aproximadamente US$ 781 milhões, e seus fundadores já falaram abertamente sobre um possível IPO. O que convence os investidores não é o aplicativo para o consumidor, mas a infraestrutura por trás dele: toda empresa que adiciona voz a um produto é um cliente em potencial, e o mercado de fala sintética praticamente não existia há três anos. A aposta é que a voz se torne uma interface padrão, assim como aconteceu com a tela sensível ao toque.
Preços do ElevenLabs: planos gratuitos e pagos
Você pode usar o ElevenLabs sem pagar, e o plano gratuito é mais do que uma amostra. Os planos pagos basicamente oferecem mais créditos mensais, que são gastos conforme você gera áudio, em vez de desbloquear recursos completamente diferentes. Aqui está a estrutura 2026 .
| Plano | Preço por mês | Créditos mensais |
|---|---|---|
| Livre | $0 | 10.000 |
| Iniciante | $6 | 30.000 |
| Criador | $ 22 | 121.000 |
| Pró | $ 99 | 600.000 |
| Escala | $ 299 | 1.800.000 |
| Negócios | $ 990 | 6.000.000 |
Os créditos correspondem aproximadamente a caracteres de fala, então um plano gratuito de 10.000 créditos é suficiente para alguns minutos de áudio por mês. O plano Creator, a US$ 22, é o ponto de partida ideal para quem publica conteúdo regularmente, e os direitos de uso comercial são concedidos nos planos pagos. Os desenvolvedores pagam por uso através da API, em vez de uma taxa mensal fixa.
Acima do plano Business, existe um plano Enterprise personalizado com suporte dedicado, limites de taxa mais altos e os termos contratuais que a maioria dos grandes compradores exige. A API cobra por caracteres gerados, portanto, um aplicativo com alto tráfego paga proporcionalmente ao uso, em vez de ter que estimar um plano antecipadamente. Um ponto importante: os créditos não são cumulativos, então um mês não utilizado representa dinheiro perdido.
Quem usa o ElevenLabs e para quê?
Os usuários interessantes não são amadores criando vídeos de novidade; são empresas que substituem o tempo de estúdio. Editoras de audiolivros narram catálogos inteiros sem contratar atores. YouTubers e criadores de cursos adicionam narrações em um idioma que não falam. Estúdios de jogos dublam personagens secundários em larga escala. Aplicativos de acessibilidade leem artigos em voz alta por meio do aplicativo ElevenReader. Centrais de atendimento telefônico utilizam agentes conversacionais que respondem a perguntas rotineiras antes que um atendente humano intervenha. Equipes de localização dublam vídeos de treinamento para funcionários do mundo todo.
Esse alcance é o que justifica a avaliação da empresa. A ElevenLabs afirma que sua API alimenta produtos que, juntos, atendem a mais de um bilhão de usuários, com clientes como Meta, Epic Games e Salesforce. Para a maioria desses compradores, a ElevenLabs é como uma infraestrutura de áudio invisível, presente em um produto com outro nome.
Alguns exemplos tornam a dimensão concreta. O aplicativo ElevenReader lê artigos, PDFs e ebooks em voz alta, com uma voz escolhida pelo usuário, tornando-se uma ferramenta de acessibilidade essencial para pessoas com dislexia ou baixa visão. Redações geram automaticamente versões em áudio de matérias escritas. Desenvolvedores independentes dão vozes distintas a personagens não jogáveis, algo que antes exigia um orçamento de gravação que eles não tinham. O fio condutor é o áudio de produção, que antes demandava um estúdio, e agora é produzido a partir de uma caixa de texto.
O problema dos deepfakes e a segurança da voz em IA
Vozes tão boas quanto essas também são uma arma. A ElevenLabs aprendeu isso da pior maneira possível. Em janeiro de 2024, uma gravação telefônica falsa com a voz do presidente Biden dizia aos eleitores de New Hampshire para não votarem nas primárias. Claro que não era ele de verdade. A empresa de segurança Pindrop analisou o áudio, rastreou a origem até a ElevenLabs e relatou uma correspondência de 84% em seu sistema de classificação. A empresa baniu a conta responsável.
Esse episódio trouxe à tona a questão da segurança. A ElevenLabs agora utiliza um classificador de fala com IA que verifica se um trecho de áudio foi produzido por suas ferramentas, bloqueia a clonagem de certas figuras públicas de alto risco e exige verificação de identidade antes da clonagem profissional de voz. Será que alguma dessas medidas funciona completamente? Não. A detecção sempre fica atrás da geração, e um criminoso determinado pode simplesmente recorrer a um fornecedor menos rigoroso. Portanto, a análise honesta é a seguinte: a empresa construiu salvaguardas genuínas em torno de uma ferramenta que, em sua essência, tem dupla função, e a corrida entre criar falsificações e detectá-las está longe de terminar.
Os órgãos reguladores perceberam. Vários estados americanos tomaram medidas para restringir as ligações automáticas geradas por IA após o incidente com Biden, e a empresa se juntou ao trabalho da indústria em marcas d'água de áudio, incorporando sinais que sobrevivem à compressão e ajudam a rastrear um clipe até sua origem. Os críticos argumentam que as marcas d'água podem ser removidas e que medidas voluntárias não substituem a lei. A ElevenLabs se encontra em uma posição incômoda, porém honesta: a ferramenta mais poderosa da categoria carrega a maior responsabilidade de fiscalizá-la.

ElevenLabs versus outros geradores de voz com IA
A ElevenLabs é amplamente considerada a principal geradora de voz por IA em termos de qualidade, mas não é a única opção, e nem sempre é a mais adequada. A escolha geralmente se resume a quanta fidelidade você precisa versus quanto você está disposto a gastar.
| Ferramenta | Principal ponto forte | Ideal para |
|---|---|---|
| OnzeLabs | Vozes extremamente realistas, mais de 70 idiomas, API robusta. | Áudio de produção, dublagem |
| Murf | Interface simples, custo mais baixo | Locuções comerciais rápidas |
| Play.ht | Grande biblioteca de vozes de arquivo | Podcasts e formatos longos |
| OpenAI / Azure | Incluído em conjunto com outros serviços de IA | Desenvolvedores que já utilizam essa pilha de tecnologias. |
Se sua prioridade é um resultado o mais natural possível e suporte a uma ampla variedade de idiomas, o ElevenLabs é difícil de superar — ainda não vi nenhum concorrente igualar a versão 3 em uma linha de raciocínio realmente complexa. Se você quer uma ferramenta barata e simples para vídeos corporativos ocasionais, um concorrente pode ser uma opção melhor por um preço menor.
Como começar a usar as vozes de IA da ElevenLabs
Seu primeiro clipe gerado pelo gerador de voz com IA da ElevenLabs leva cerca de três minutos, do início ao fim. Crie uma conta gratuita. Abra a ferramenta de fala e escolha uma voz, seja da biblioteca ou um clone de sua preferência. Cole seu texto, escolha o modelo e o idioma e clique em "Gerar". Ouça a gravação. Se a pronúncia parecer estranha, ajuste os controles deslizantes de estabilidade e estilo e tente novamente. Em seguida, baixe o MP3. Esse é todo o processo.
Os desenvolvedores ignoram o painel de controle e chamam a API diretamente com uma chave, enviando texto e um ID de voz e recebendo o áudio de volta. É assim que esses aplicativos com bilhões de usuários integram o ElevenLabs aos seus próprios produtos.
Por que a ElevenLabs lidera a geração de voz por IA?
A ElevenLabs passou de um projeto paralelo de transcrição a uma plataforma de US$ 11 bilhões mais rápido do que quase qualquer outra empresa de software antes dela, e as vozes são tão boas que toda a fama é merecida. O plano gratuito permite que qualquer pessoa teste essa afirmação em minutos. Mas o mesmo realismo que conquista clientes é exatamente o que preocupa reguladores e pesquisadores de segurança, e a ligação automática de Biden não será o último incidente. A tecnologia existe e está melhorando mensalmente. A questão em aberto é se as regras e as ferramentas de detecção conseguirão acompanhar vozes que já enganam a maioria dos ouvintes. Onde você traçaria a linha?