ElevenLabs: Mengintip di Balik Generator Suara AI Senilai $11 Miliar

Diposting pada Jun 22, 2026 Ditulis oleh Mathis Curcio

Anda mungkin pernah mendengar ElevenLabs. Hanya saja Anda tidak mengetahuinya. Narator dalam video penjelasan di YouTube, dialog yang disulih suara dalam film asing, suara di ujung telepon layanan pelanggan: banyak audio tersebut dihasilkan saat ini, dan banyak di antaranya dijalankan oleh satu perusahaan yang sebagian besar orang di luar dunia teknologi tidak dapat menyebutkan namanya. ElevenLabs membuat suara AI. Pada Februari 2026, perusahaan ini mengumpulkan dana dengan valuasi $11 miliar untuk melakukan hal tersebut. Dua teman dari Polandia memulainya pada tahun 2022, dan saat ini generator suara AI-nya berada di dalam aplikasi yang digunakan oleh lebih dari satu miliar orang. Jadi, apa sebenarnya yang dilakukannya, berapa biayanya dalam mata uang 2026, dan mengapa kalangan keamanan terus mengkhawatirkannya?

Apa yang dilakukan ElevenLabs: Suara AI dan banyak lagi

Awalnya hanya alat sederhana untuk mengubah teks menjadi suara. Sekarang, ini adalah tumpukan audio lengkap, dan suara hanyalah bagian pertama yang Anda perhatikan. Luasnya fitur lainnya itulah yang membenarkan harganya. Kedua pendiri mendekati masalah ini dari sudut pandang yang berbeda: Piotr Dabkowski pernah menjadi insinyur pembelajaran mesin di Google, Mati Staniszewski seorang ahli strategi di Palantir. Frustrasi bersama mereka sederhana. Suara sintetis saat itu dapat mengucapkan kata-kata tetapi tidak dapat memeragakannya. Perbaiki itu, pikir mereka, dan semuanya akan mengikuti. Sebagian besar produk yang diluncurkan perusahaan masih berawal dari taruhan sederhana itu.

Konversi teks ke ucapan dan suara AI yang realistis

Mari kita mulai dari intinya: ia mengubah teks tertulis menjadi audio yang diucapkan. Model terbaru, Eleven v3 , diluncurkan pada Juni 2025. Ia dapat membaca lebih dari 70 bahasa dan menerima tag inline seperti [berbisik] atau [tertawa], sehingga Anda dapat mengarahkan penyampaian baris demi baris. Butuh kecepatan? Model yang lebih ringan bernama Flash mengorbankan sedikit kualitas demi output yang hampir instan, yang penting untuk aplikasi langsung. Hasilnya benar-benar seperti hidup. Itulah mengapa para kreator memilih ElevenLabs untuk sulih suara, podcast, dan narasi pada video AI, di mana pembacaan robot akan merusak suasana.

Yang membuat v3 menonjol adalah kontrolnya. Mesin yang lebih lama membaca semuanya dengan nada datar yang sama. Tidak demikian dengan yang ini. Tandai sebuah kalimat untuk dibisikkan, diucapkan dengan tergesa-gesa, atau disampaikan dengan desahan, dan satu blok teks mulai membawa performa yang sebenarnya. Pertama kali Anda mendengarnya mengucapkan kalimat sarkastik, itu sedikit mengganggu. Multilingual v2 yang lebih lama masih mencakup 29 bahasa dan tetap menjadi default untuk narasi yang panjang dan stabil, di mana konsistensi lebih penting daripada jangkauan.

Pengkloningan suara, sulih suara, dan audio multibahasa

Dua fitur yang membedakannya dari sekadar narasi biasa adalah kloning suara. Pertama, kloning suara. Berikan sampel suara singkat dan ia akan meniru suara tertentu, baik klon instan cepat dari sekitar satu menit audio atau suara profesional yang lebih tajam. Kedua, sulih suara AI. Berikan video yang sudah jadi dan ia akan mengisi suara ulang seluruhnya dalam bahasa lain sambil mempertahankan nada suara pembicara, sehingga lokalisasi multibahasa yang dulunya berarti pemesanan studio kini hanya membutuhkan beberapa klik. Terdapat juga perpustakaan suara bersama, di mana pengguna dapat mempublikasikan dan melisensikan suara satu sama lain.

Klon profesional adalah yang dipedulikan studio. Berikan tiga puluh menit audio bersih dan pengecekan persetujuan. Sebagai imbalannya, klon tersebut menangkap irama dan aksen asli dengan sangat akurat sehingga aktor suara sekarang melisensikan klon mereka sendiri dan mendapatkan bagian keuntungan saat mereka tidur. Klon instan lebih cepat dan lebih longgar. Cocok untuk prototipe cepat, tetapi mudah dikenali sebagai buatan.

Scribe, musik AI, dan agen percakapan.

Rangkaian fitur ini juga berfungsi sebaliknya, dari audio kembali ke teks. Scribe adalah model pengenalan ucapan ke teks. Ia mentranskripsikan dengan label pembicara dan stempel waktu, dan versi v2 menangani 99 bahasa sambil menandai siapa yang mengatakan apa dengan akurasi sekitar 98%. Kemudian ada Eleven Music, yang ditambahkan pada tahun 2025, yang menghasilkan trek latar belakang yang telah disetujui sesuai permintaan. Agen AI percakapan melangkah lebih jauh lagi: menggabungkan pengenalan ucapan ke teks, model bahasa, dan teks ke ucapan, dan bot dapat mendengarkan, menjawab secara real-time, dan menyerahkan kepada manusia dalam satu alur yang mulus. Lengkapi dengan efek suara dan isolator suara untuk memperbaiki rekaman yang bising.

Scribe adalah bagian di mana platform ini menunjukkan kedalaman sebenarnya. Ia melakukan lebih dari sekadar menghasilkan transkrip. Ia memberi tag pada suara non-ucapan, menandai stempel waktu tingkat kata, dan memisahkan pembicara yang tumpang tindih, itulah sebabnya podcaster dan peneliti mengandalkannya untuk mengubah rekaman yang berantakan menjadi teks yang dapat dicari dan diedit. Dan versi 2 harganya sekitar 40% lebih murah daripada rilis pertama. Produk AI yang semakin baik dan semakin murah sekaligus? Itu jarang terjadi.

elevenlabs-ai

Bagaimana ElevenLabs menjadi perusahaan AI senilai $11 miliar

Halaman produk melewatkan bagian terpenting: uang. Lihatlah pendanaannya dan pertumbuhan tersebut tidak lagi terlihat normal. Pada awal tahun 2025, ElevenLabs mengumpulkan pendanaan Seri C sebesar $180 juta yang memberi valuasi perusahaan sebesar $3,3 miliar, dengan Andreessen Horowitz dan ICONIQ Growth sebagai pemimpin bersama. Tiga belas bulan kemudian, Sequoia memimpin pendanaan Seri D sebesar $500 juta dan nilai perusahaan mencapai $11 miliar. Tiga kali lipat, dalam setahun, untuk perusahaan yang sama.

Pendapatan tersebut menjelaskan ketertarikan yang besar. ElevenLabs melampaui pendapatan berulang tahunan sekitar $330 juta pada akhir tahun 2025. Yang membuat investor kehilangan ketenangan adalah kecepatannya. Dua puluh bulan untuk mencapai $100 juta. Kemudian 10 bulan untuk menggandakannya. Kemudian hanya 5 bulan untuk mencapai $330 juta. Setiap putaran lebih pendek dari sebelumnya. Dan menurut perhitungan perusahaan sendiri pada Januari 2025, orang-orang di lebih dari 60% perusahaan Fortune 500 telah menggunakan platform tersebut.

Bulat	Tanggal	Dinaikkan	Penilaian
Seri B	Januari 2024	$80 juta	$1,1 miliar
Seri C	Januari 2025	$180 juta	$3,3 miliar
Seri D	Februari 2026	$500 juta	$11 miliar

Melalui lima putaran pendanaan, ElevenLabs telah mengumpulkan sekitar $781 juta, dan para pendirinya secara terbuka membahas kemungkinan IPO di masa mendatang. Yang meyakinkan investor bukanlah aplikasi konsumennya, melainkan infrastruktur di baliknya: setiap perusahaan yang menambahkan suara ke suatu produk adalah pelanggan potensial, dan pasar untuk suara sintetis hampir tidak ada tiga tahun yang lalu. Taruhannya adalah bahwa suara akan menjadi antarmuka standar seperti halnya layar sentuh.

Harga ElevenLabs: paket gratis dan berbayar

Anda dapat menggunakan ElevenLabs tanpa membayar, dan paket gratisnya lebih dari sekadar pengantar. Paket berbayar sebagian besar memberi Anda lebih banyak kredit bulanan, yang digunakan saat Anda menghasilkan audio, bukan untuk membuka fitur yang sepenuhnya berbeda. Berikut adalah strukturnya .

Rencana	Harga / bulan	Kredit bulanan
Bebas	$0	10.000
Starter	$6	30.000
Pencipta	$22	121.000
Pro	$99	600.000
Skala	$299	1.800.000
Bisnis	$990	6.000.000

Kredit kurang lebih setara dengan karakter ucapan, jadi paket gratis 10.000 kredit sudah cukup untuk beberapa menit audio per bulan. Paket Creator seharga $22 adalah titik awal yang praktis bagi siapa pun yang menerbitkan secara teratur, dan hak penggunaan komersial berlaku pada tingkatan berbayar. Pengembang membayar per penggunaan melalui API, bukan biaya bulanan tetap.

Di atas paket Business terdapat paket Enterprise khusus dengan dukungan khusus, batas tarif yang lebih tinggi, dan ketentuan kontrak yang dibutuhkan oleh sebagian besar pembeli besar. API menghitung berdasarkan jumlah karakter yang dihasilkan, sehingga aplikasi dengan trafik tinggi membayar sesuai dengan penggunaan, bukan menebak paket di muka. Satu hal yang perlu diperhatikan — kredit tidak dapat diakumulasikan, jadi bulan yang tidak digunakan berarti uang yang terbuang sia-sia.

Siapa yang menggunakan ElevenLabs dan untuk apa?

Pengguna yang menarik bukanlah para penghobi yang membuat klip-klip unik; mereka adalah bisnis yang menggantikan waktu studio. Penerbit buku audio menarasikan seluruh katalog tanpa perlu memesan aktor. YouTuber dan pembuat kursus menambahkan sulih suara dalam bahasa yang tidak mereka kuasai. Studio game mengisi suara karakter minor dalam skala besar. Aplikasi aksesibilitas membacakan artikel dengan lantang melalui aplikasi ElevenReader. Pusat panggilan menjalankan agen percakapan yang menjawab pertanyaan rutin sebelum manusia turun tangan. Tim lokalisasi melakukan sulih suara video pelatihan untuk staf global.

Jangkauan itulah yang membuat valuasi perusahaan tetap tinggi. Perusahaan mengatakan API-nya mendukung produk-produk yang secara kolektif melayani lebih dari satu miliar pengguna, dengan pelanggan termasuk Meta, Epic Games, dan Salesforce. Bagi sebagian besar pembeli ini, ElevenLabs hanyalah infrastruktur: infrastruktur audio yang tak terlihat di dalam produk dengan nama lain di baliknya.

Beberapa contoh membuat skala ini menjadi nyata. Aplikasi ElevenReader membacakan artikel, PDF, dan ebook dengan suara pilihan, yang telah menjadi alat aksesibilitas nyata bagi orang dengan disleksia atau penglihatan rendah. Ruang redaksi secara otomatis menghasilkan versi audio dari cerita tertulis. Pengembang indie memberikan karakter non-pemain suara yang berbeda yang dulunya membutuhkan anggaran rekaman yang tidak mereka miliki. Benang merahnya adalah audio produksi yang dulunya membutuhkan studio, sekarang keluar dari kotak teks.

Masalah deepfake dan keamanan suara AI

Suara sebagus ini juga bisa menjadi senjata. ElevenLabs mempelajarinya dengan cara yang sulit. Pada Januari 2024, sebuah panggilan otomatis palsu dengan suara Presiden Biden menyuruh para pemilih di New Hampshire untuk tidak mengikuti pemilihan pendahuluan. Tentu saja, itu bukan suara Biden yang sebenarnya. Perusahaan keamanan Pindrop memutar klip tersebut, melacaknya kembali ke ElevenLabs, dan melaporkan kecocokan 84% dari pengklasifikasinya. Perusahaan tersebut memblokir akun di baliknya.

Episode itu menyeret pertanyaan tentang keamanan ke permukaan. ElevenLabs sekarang menjalankan Pengklasifikasi Ucapan AI yang memeriksa apakah sebuah klip berasal dari alat mereka, memblokir kloning tokoh publik berisiko tinggi tertentu, dan menuntut verifikasi identitas sebelum kloning suara profesional. Apakah semua itu berfungsi sepenuhnya? Tidak. Deteksi selalu tertinggal dari pembuatan, dan pelaku jahat yang gigih dapat dengan mudah beralih ke penyedia yang kurang teliti. Jadi, inilah kesimpulan jujurnya: perusahaan telah membangun pengamanan yang nyata di sekitar alat yang pada intinya memiliki fungsi ganda, dan perlombaan antara membuat pemalsuan dan menangkapnya masih jauh dari selesai.

Pihak berwenang telah memperhatikan hal ini. Beberapa negara bagian AS mulai membatasi panggilan otomatis yang dihasilkan AI setelah insiden Biden, dan perusahaan tersebut telah bergabung dengan upaya industri dalam hal penandaan audio (audio watermarking), yaitu menyematkan sinyal yang tetap berfungsi meskipun dikompresi dan membantu melacak klip ke sumbernya. Para kritikus membantah bahwa tanda air tersebut dapat dihilangkan dan bahwa tindakan sukarela bukanlah pengganti hukum. ElevenLabs berada dalam posisi yang canggung namun jujur: alat yang paling mumpuni dalam kategori ini memikul tanggung jawab terbesar untuk mengawasinya.

elevenlabs-ai

ElevenLabs vs generator suara AI lainnya

ElevenLabs secara luas dianggap sebagai generator suara AI terkemuka dalam hal kualitas, tetapi bukan satu-satunya pilihan, dan tidak selalu merupakan pilihan yang tepat. Pilihan biasanya bergantung pada seberapa banyak realisme yang Anda butuhkan dibandingkan dengan berapa banyak uang yang ingin Anda keluarkan.

Alat	Kekuatan utama	Terbaik untuk
ElevenLabs	Suara paling realistis, 70+ bahasa, API yang andal.	Audio produksi, sulih suara
Murf	Antarmuka sederhana, biaya lebih rendah	Sulih suara bisnis singkat
Play.ht	Perpustakaan suara stok yang besar.	Podcast dan artikel panjang
OpenAI / Azure	Digabung dengan layanan AI lainnya	Pengembang yang sudah ada di tumpukan teknologi tersebut

Jika prioritas Anda adalah hasil kerja manusia yang paling banyak dan dukungan bahasa yang luas, ElevenLabs sulit dikalahkan — saya belum pernah mendengar pesaing yang menandingi versi 3 pada level yang benar-benar rumit. Jika Anda menginginkan alat yang murah dan sederhana untuk video perusahaan sesekali, pesaing mungkin lebih cocok untuk Anda dengan harga yang lebih murah.

Cara memulai menggunakan suara AI ElevenLabs

Klip pertama Anda dari generator suara AI ElevenLabs membutuhkan waktu sekitar tiga menit, dari awal hingga akhir. Buat akun gratis. Buka alat pengucapan dan pilih suara, baik dari perpustakaan atau klon Anda sendiri. Tempelkan teks Anda, pilih model dan bahasa, lalu tekan hasilkan. Dengarkan kembali. Jika penyampaiannya terasa kurang tepat, geser slider stabilitas dan gaya, lalu coba lagi, kemudian unduh MP3-nya. Begitulah keseluruhan prosesnya.

Para pengembang melewati dasbor dan memanggil API secara langsung dengan sebuah kunci, mengirimkan teks dan ID suara, lalu menerima balasan audio. Begitulah cara aplikasi-aplikasi dengan miliaran pengguna tersebut mengintegrasikan ElevenLabs ke dalam produk mereka sendiri.

Mengapa ElevenLabs memimpin dalam generasi suara AI?

ElevenLabs berkembang dari proyek sampingan transkripsi menjadi platform senilai $11 miliar lebih cepat daripada hampir semua perusahaan perangkat lunak sebelumnya, dan suara-suaranya cukup bagus sehingga popularitasnya sebagian besar memang pantas. Tingkat gratisnya memungkinkan siapa pun untuk menguji klaim tersebut dalam hitungan menit. Tetapi realisme yang sama yang memenangkan pelanggan justru yang membuat khawatir regulator dan peneliti keamanan, dan panggilan otomatis Biden bukanlah insiden terakhir. Teknologinya sudah ada dan terus meningkat setiap bulan. Pertanyaan yang masih terbuka adalah apakah aturan, dan alat deteksi, dapat mengimbangi suara-suara yang sudah mampu mengelabui sebagian besar pendengar. Di mana Anda akan menarik garis batasnya?

Mathis Curcio

Mathis Curcio is a senior content strategist and NFT specialist at Plisio. With over 5 years of experience in the Web3 space, Mathis focuses on the evolution of NFT ecosystems, digital collectibles, and decentralized ownership models. He creates accessible, insight-driven content that bridges the gap between blockchain innovation and mainstream adoption. His expertise spans NFT market trends, use cases across art and gaming, and the infrastructure powering next-generation tokenized assets.