ElevenLabs: 110억 달러 규모의 AI 음성 생성기 내부 살펴보기

에 게시됨 Jun 22, 2026 작성자 Mathis Curcio

여러분은 ElevenLabs라는 이름을 들어봤을 겁니다. 다만, 그 회사가 ElevenLabs라는 것을 몰랐을 뿐이죠. 유튜브 설명 영상의 내레이션, 외국 영화의 더빙 대사, 고객 지원 센터 상담원의 목소리까지, 우리가 흔히 접하는 수많은 음성 콘텐츠가 바로 ElevenLabs에서 생성되고 있습니다. 그리고 이 모든 음성 생성 기술은 IT 업계 종사자가 아닌 일반인들은 잘 모르는 한 회사에서 개발되었습니다. ElevenLabs는 인공지능 음성 기술을 개발하는 회사입니다. 2026년 2월, 이 회사는 인공지능 음성 기술로 110억 달러의 기업 가치로 투자를 유치했습니다. 폴란드 출신의 두 친구가 2022년에 설립한 이 회사의 인공지능 음성 생성기는 현재 10억 명이 넘는 사람들이 사용하는 앱에 탑재되어 있습니다. 그렇다면 ElevenLabs는 실제로 어떤 일을 하며, 가격은 얼마나 될까요? 그리고 왜 보안 전문가들은 이 회사 때문에 밤잠을 설치는 걸까요?

ElevenLabs의 사업 분야: AI 음성 및 기타 기술

처음에는 단순한 텍스트 음성 변환 도구로 시작했습니다. 이제는 완벽한 오디오 스택을 갖추게 되었고, 음성은 사용자가 가장 먼저 알아차리는 부분일 뿐입니다. 그 외 다양한 기능들이 높은 가격을 정당화합니다. 두 창업자는 각기 다른 관점에서 이 문제에 접근했습니다. 피오트르 답코프스키는 구글에서 머신러닝 엔지니어로, 마티 스타니셰프스키는 팔란티어에서 전략가로 일했습니다. 그들의 공통된 불만은 간단했습니다. 당시의 합성 음성은 단어를 발음할 수는 있었지만, 몸짓으로 표현할 수는 없었다는 것입니다. 그들은 이 문제를 해결하면 모든 것이 따라올 것이라고 생각했습니다. 회사가 출시하는 대부분의 제품은 여전히 그 하나의 아이디어에서 비롯되었습니다.

텍스트 음성 변환 및 실감나는 AI 음성

핵심부터 살펴보자면, 이 기술은 텍스트를 음성으로 변환합니다. 최신 모델인 Eleven v3 는 2025년 6월에 출시되었으며, 70개 이상의 언어를 인식하고 [속삭임]이나 [웃음]과 같은 인라인 태그를 지원하여 문장 단위로 음성 전달 방식을 지정할 수 있습니다. 속도가 더 중요하다면, Flash라는 경량 모델을 선택할 수 있습니다. 이 모델은 약간의 완성도 차이를 감수하더라도 거의 즉각적인 출력을 제공하며, 이는 라이브 앱에 매우 중요합니다. 결과물은 놀랍도록 자연스럽습니다. 바로 이러한 이유로 크리에이터들은 음성 해설, 팟캐스트, AI 비디오 내레이션 등 로봇 음성이 몰입감을 깨뜨릴 수 있는 콘텐츠 제작에 ElevenLabs를 선택합니다.

v3의 가장 큰 특징은 바로 제어력입니다. 기존 엔진들은 모든 내용을 단조로운 어조로 읽었지만, v3는 다릅니다. 속삭이듯, 빠르게, 또는 한숨 쉬듯 말하는 듯한 어조로 문장을 표현하면, 텍스트 전체가 생동감 넘치는 연기처럼 들립니다. 특히 비꼬는 듯한 대사를 처음 들었을 때는 다소 어색하게 느껴질 수도 있습니다. 기존의 다국어 버전인 v2는 여전히 29개 언어를 지원하며, 일관성이 다양성보다 중요한 길고 안정적인 내레이션에 적합한 기본 버전으로 남아 있습니다.

음성 복제, 더빙 및 다국어 오디오

두 가지 기능 덕분에 단순한 내레이션을 뛰어넘는 차별화를 경험할 수 있습니다. 첫 번째는 음성 복제입니다. 짧은 음성 샘플을 입력하면 특정 목소리를 복제해 줍니다. 약 1분 분량의 오디오로 즉시 복제하거나, 더욱 선명하고 전문적인 목소리를 만들 수도 있습니다. 두 번째는 AI 더빙입니다. 완성된 영상을 입력하면 화자의 어조를 그대로 유지하면서 전체 내용을 다른 언어로 더빙해 줍니다. 덕분에 기존에는 스튜디오를 예약해야만 가능했던 다국어 현지화 작업이 이제 몇 번의 클릭만으로 가능해졌습니다. 또한 사용자들이 음성을 공유하고 서로 라이선스를 부여할 수 있는 음성 라이브러리도 제공합니다.

스튜디오에서 중요하게 여기는 건 전문가용 클론입니다. 깨끗한 오디오 파일 30분 분량과 동의 확인만 있으면 됩니다. 그러면 원본의 억양과 말투를 매우 흡사하게 재현해내기 때문에, 성우들은 이제 자신만의 클론을 라이선스해서 잠자는 동안에도 수익을 챙길 수 있습니다. 즉석 클론은 더 빠르고 정확하지만, 인공적인 느낌이 쉽게 드러납니다. 빠른 프로토타입 제작에는 괜찮지만, 합성음이라는 게 티가 많이 납니다.

Scribe, AI 음악 및 대화형 에이전트

이 제품군은 오디오에서 텍스트로의 역방향 변환도 지원합니다. Scribe는 음성-텍스트 변환 모델로, 화자 레이블과 타임스탬프를 포함하여 음성을 텍스트로 변환합니다. v2 버전은 99개 언어를 지원하며, 누가 어떤 말을 했는지 약 98%의 정확도로 태깅합니다. 2025년에 추가된 Eleven Music은 사용자가 원하는 배경 음악을 바로 재생할 수 있도록 깔끔하게 정리된 음악을 제공합니다. 대화형 AI 에이전트는 여기서 한 단계 더 나아가 음성-텍스트 변환, 언어 모델, 텍스트-음성 변환을 결합하여 봇이 실시간으로 듣고 답변하며, 이 모든 과정을 매끄럽게 처리하여 상담원에게 인계할 수 있도록 합니다. 여기에 음향 효과와 잡음이 섞인 녹음 파일을 보정하는 음성 분리 기능까지 더해집니다.

스크라이브는 이 플랫폼의 진정한 강점이 드러나는 부분입니다. 단순히 녹취록을 출력하는 것을 넘어, 음성 이외의 소리를 태그하고, 단어 단위의 타임스탬프를 표시하며, 화자가 겹치는 부분을 분리합니다. 바로 이러한 기능 덕분에 팟캐스터와 연구자들이 지저분한 녹음 파일을 검색 및 편집 가능한 텍스트로 변환하기 위해 스크라이브를 활용하는 것입니다. 게다가 v2는 첫 번째 버전보다 약 40% 저렴해졌습니다. AI 제품이 성능 향상과 가격 인하를 동시에 달성하다니, 흔치 않은 일입니다.

일레븐랩스-아이

ElevenLabs는 어떻게 110억 달러 규모의 AI 기업이 되었을까?

제품 페이지에서는 가장 놀라운 부분, 바로 자금 조달에 대한 언급이 빠져 있습니다. 하지만 자금 조달 내역을 살펴보면 그 성장세가 평범해 보이지 않습니다. 2025년 초, ElevenLabs는 Andreessen Horowitz와 ICONIQ Growth가 공동으로 주도한 1억 8천만 달러 규모의 시리즈 C 투자를 유치하며 기업 가치를 33억 달러로 평가받았습니다. 13개월 후, Sequoia가 주도한 5억 달러 규모의 시리즈 D 투자에서 기업 가치는 110억 달러로 급등했습니다. 단 1년 만에 같은 회사의 가치가 세 배로 오른 것입니다.

매출 규모가 투자자들의 기대감을 설명해 줍니다. ElevenLabs는 2025년 말까지 연간 반복 매출(ARR)이 약 3억 3천만 달러를 돌파할 것으로 예상됩니다. 하지만 투자자들이 놀라는 이유는 바로 그 성장 속도입니다. 1억 달러 달성까지 20개월, 두 배 달성까지 10개월, 그리고 3억 3천만 달러 달성까지 단 5개월밖에 걸리지 않았습니다. 매번 달성하는 데 걸리는 시간이 이전보다 훨씬 짧아졌습니다. ElevenLabs 자체 집계에 따르면, 2025년 1월 기준 포춘 500대 기업의 60% 이상이 이미 이 플랫폼을 사용하고 있습니다.

둥근	날짜	높은	평가
시리즈 B	2024년 1월	8천만 달러	11억 달러
시리즈 C	2025년 1월	1억 8천만 달러	33억 달러
시리즈 D	2026년 2월	5억 달러	110억 달러

ElevenLabs는 다섯 차례의 투자 유치를 통해 약 7억 8,100만 달러를 모금했으며, 창업자들은 향후 기업공개(IPO)를 공개적으로 논의해 왔습니다. 투자자들을 매료시킨 것은 소비자 앱 자체가 아니라 그 기반이 되는 인프라였습니다. 음성 기능을 제품에 추가하는 모든 회사는 잠재 고객이며, 3년 전만 해도 합성 음성 시장은 거의 존재하지 않았습니다. ElevenLabs는 음성이 터치스크린처럼 기본 인터페이스로 자리 잡을 것이라는 데 기대를 걸고 있습니다.

ElevenLabs 가격 정책: 무료 및 유료 플랜

ElevenLabs는 무료로도 사용할 수 있으며, 무료 플랜은 단순한 맛보기 그 이상입니다. 유료 플랜은 완전히 다른 기능을 잠금 해제하는 것이 아니라, 오디오를 생성할 때마다 소모되는 월간 크레딧을 추가로 제공합니다. 다음은 2026 구조 입니다.

계획	월 가격	월별 크레딧
무료	0달러	10,000
기동기	6달러	30,000
창조자	22달러	12만 1천
찬성	99달러	60만
규모	299달러	1,800,000
사업	990달러	6,000,000

크레딧은 대략 음성 문자 수에 대응하므로, 10,000 크레딧의 무료 플랜으로는 한 달에 몇 분 분량의 오디오를 제작할 수 있습니다. 월 22달러의 크리에이터 플랜은 정기적으로 콘텐츠를 게시하는 사용자에게 적합한 시작점이며, 유료 플랜부터 상업적 사용 권한이 제공됩니다. 개발자는 고정 월 요금이 아닌 API를 통해 사용량에 따라 비용을 지불합니다.

비즈니스 등급 바로 위에는 전용 지원, 더 높은 사용량 한도, 그리고 대부분의 대형 구매자가 요구하는 계약 조건을 제공하는 맞춤형 엔터프라이즈 등급이 있습니다. API 사용량은 생성된 문자 수를 기준으로 계산되므로 트래픽이 많은 앱은 미리 요금제를 예측할 필요 없이 사용량에 비례하여 비용을 지불합니다. 한 가지 주의할 점은 크레딧이 이월되지 않으므로 사용하지 않은 달은 수익으로 이어지지 않는다는 것입니다.

누가 ElevenLabs를 사용하며, 어떤 용도로 사용하나요?

흥미로운 사용자들은 단순히 재미있는 영상을 만드는 아마추어들이 아닙니다. 스튜디오 시간을 대체하는 기업들입니다. 오디오북 출판사들은 배우를 섭외하지 않고 전체 카탈로그를 녹음합니다. 유튜버와 온라인 강좌 제작자들은 자신이 구사하지 못하는 언어로 음성 해설을 추가합니다. 게임 스튜디오들은 대규모로 조연 캐릭터의 음성 더빙을 담당합니다. 접근성 앱은 ElevenReader 앱을 통해 기사를 소리 내어 읽어줍니다. 콜센터는 상담원이 연결되기 전에 일상적인 질문에 답변하는 대화형 에이전트를 운영합니다. 현지화 팀은 전 세계 직원을 위한 교육 영상을 더빙합니다.

바로 그 영향력이 기업 가치를 뒷받침하는 이유입니다. 회사 측은 자사의 API가 Meta, Epic Games, Salesforce 등을 포함한 여러 고객사의 제품에 탑재되어 10억 명이 넘는 사용자를 지원하고 있다고 밝혔습니다. 이러한 투자자들에게 ElevenLabs는 마치 배관과 같습니다. 다른 이름으로 출시된 제품 내부에 숨겨진 오디오 인프라인 셈입니다.

몇 가지 사례를 통해 그 규모를 구체적으로 살펴보겠습니다. ElevenReader 앱은 기사, PDF 파일, 전자책을 사용자가 선택한 목소리로 읽어주는데, 이는 난독증이나 저시력자에게 실질적인 접근성 도구가 되었습니다. 뉴스룸에서는 기사의 오디오 버전을 자동으로 생성하기도 합니다. 인디 개발자들은 예전에는 녹음 예산이 부족했던 NPC들의 개성 있는 목소리를 구현할 수 있게 되었습니다. 공통점은 과거에는 스튜디오 녹음이 필요했던 오디오 콘텐츠가 이제는 텍스트 입력만으로 구현 가능해졌다는 것입니다.

딥페이크 문제와 AI 음성 안전성

이렇게 뛰어난 목소리는 무기가 될 수도 있습니다. ElevenLabs는 이를 뼈아프게 경험했습니다. 2024년 1월, 바이든 대통령의 목소리를 사칭한 가짜 자동 음성 통화가 뉴햄프셔 유권자들에게 예비 선거에 참여하지 말라고 권유했습니다. 물론 실제 바이든 대통령의 목소리는 아니었습니다. 보안 회사 Pindrop은 해당 음성 파일을 분석하여 ElevenLabs 계정임을 밝혀냈고, 자체 분류 시스템에서 84%의 일치율을 보였습니다. 이에 ElevenLabs는 해당 계정을 영구 차단했습니다.

그 사건은 안전 문제를 수면 위로 끌어올렸습니다. ElevenLabs는 이제 AI 음성 분류기를 운영하여 음성 클립이 자사 도구를 통해 생성되었는지 확인하고, 특정 고위험 유명 인사의 음성 복제를 차단하며, 전문 음성 복제 서비스 이용 전에 신원 확인을 요구합니다. 이러한 조치들이 완벽하게 작동할까요? 아닙니다. 탐지는 항상 생성 속도를 따라잡지 못하며, 악의적인 사용자는 허술한 업체를 이용하면 됩니다. 따라서 솔직하게 말하자면, 이 회사는 본질적으로 이중 용도인 도구에 대한 실질적인 안전장치를 구축했지만, 가짜 음성을 만드는 것과 이를 적발하는 것 사이의 경쟁은 아직 끝나지 않았다는 것입니다.

규제 당국도 이를 인지하고 있습니다. 바이든 사건 이후 여러 미국 주에서 AI 기반 자동 음성 통화를 제한하는 조치를 취했으며, ElevenLabs는 압축에도 영향을 받지 않고 음원을 추적하는 데 도움이 되는 신호를 삽입하는 오디오 워터마킹 기술 개발에 참여하고 있습니다. 그러나 비판론자들은 워터마크는 제거될 수 있으며 자발적인 조치는 법률을 대체할 수 없다고 반박합니다. ElevenLabs는 이 분야에서 가장 뛰어난 도구를 제공하는 만큼, 이를 규제해야 할 가장 큰 책임을 지고 있다는 점에서 다소 난감하지만 솔직한 입장에 서 있습니다.

일레븐랩스-아이

ElevenLabs와 다른 AI 음성 생성기 비교

ElevenLabs는 품질 면에서 최고의 AI 음성 생성기로 널리 알려져 있지만, 유일한 선택지는 아니며 항상 정답인 것도 아닙니다. 결국 얼마나 사실적인 음성을 원하는지, 그리고 얼마나 비용을 투자할 의향이 있는지에 따라 선택이 달라집니다.

도구	주요 강점	~에 가장 적합함
일레븐랩스	가장 사실적인 음성, 70개 이상의 언어 지원, 강력한 API	제작 오디오, 더빙
머프	간단한 인터페이스, 저렴한 비용	빠른 비즈니스 음성 해설
플레이.ht	대규모 스톡 음성 라이브러리	팟캐스트와 장편 콘텐츠
오픈아이 / 아주르	다른 AI 서비스와 함께 제공됩니다.	해당 기술 스택에 이미 익숙한 개발자들

인간적인 느낌의 결과물과 폭넓은 언어 지원이 최우선이라면 ElevenLabs는 최고의 선택 중 하나입니다. 특히 까다로운 상황에서 ElevenLabs v3에 필적하는 경쟁 제품을 아직까지 본 적이 없습니다. 하지만 가끔씩 기업 홍보 영상을 제작할 저렴하고 간단한 도구를 찾는다면, 더 저렴한 가격에 더 나은 성능을 제공하는 경쟁 제품이 있을 수 있습니다.

ElevenLabs AI 음성 사용 시작 방법

ElevenLabs AI 음성 생성기로 처음 음성 클립을 생성하는 데는 시작부터 끝까지 약 3분이 소요됩니다. 무료 계정을 만드세요. 음성 도구를 열고 라이브러리에서 음성을 선택하거나 직접 만든 음성을 복제하세요. 텍스트를 붙여넣고 모델과 언어를 선택한 다음 생성 버튼을 누르세요. 들어보세요. 전달 방식이 어색하게 느껴지면 안정성 및 스타일 슬라이더를 조정하고 다시 시도한 다음 MP3 파일을 다운로드하세요. 전체 과정은 이렇습니다.

개발자는 대시보드를 건너뛰고 키를 사용하여 API를 직접 호출합니다. 텍스트와 음성 ID를 전달하면 오디오 응답을 받습니다. 수십억 명의 사용자를 보유한 앱들이 ElevenLabs를 자사 제품에 통합하는 방식이 바로 이렇습니다.

ElevenLabs가 AI 음성 생성 분야를 선도하는 이유는 무엇일까요?

ElevenLabs는 단순한 음성 인식 사이드 프로젝트에서 시작하여 거의 모든 소프트웨어 회사보다 빠르게 110억 달러 규모의 플랫폼으로 성장했으며, 그 결과물인 음성 품질은 과대광고라고 해도 과언이 아닐 정도로 뛰어납니다. 무료 버전을 통해 누구나 몇 분 만에 이 사실을 직접 확인해 볼 수 있습니다. 하지만 고객을 사로잡는 바로 그 사실적인 음성 품질이 규제 당국과 보안 연구원들을 불안하게 만드는 요인이기도 하며, 바이든 자동 음성 통화 사건은 마지막 사례가 아닐 것입니다. 이러한 기술은 이미 현실이 되었고 매달 발전하고 있습니다. 관건은 대부분의 청취자를 속이는 음성 기술의 발전 속도를 관련 규정과 탐지 도구가 따라잡을 수 있을지 여부입니다. 어디까지 허용해야 할까요?

Mathis Curcio

Mathis Curcio is a senior content strategist and NFT specialist at Plisio. With over 5 years of experience in the Web3 space, Mathis focuses on the evolution of NFT ecosystems, digital collectibles, and decentralized ownership models. He creates accessible, insight-driven content that bridges the gap between blockchain innovation and mainstream adoption. His expertise spans NFT market trends, use cases across art and gaming, and the infrastructure powering next-generation tokenized assets.