ElevenLabs: Hé lộ bí mật về hệ thống tạo giọng nói AI trị giá 11 tỷ đô la.
Chắc hẳn bạn đã từng nghe đến ElevenLabs. Chỉ là bạn chưa biết đến nó mà thôi. Giọng người dẫn chuyện trong các video giải thích trên YouTube, lời thoại lồng tiếng trong phim nước ngoài, giọng nói ở đầu dây bên kia của tổng đài hỗ trợ: rất nhiều đoạn âm thanh đó hiện nay được tạo ra bằng trí tuệ nhân tạo, và rất nhiều trong số đó được vận hành bởi một công ty mà hầu hết mọi người ngoài lĩnh vực công nghệ không thể kể tên. ElevenLabs tạo ra giọng nói AI. Vào tháng 2 năm 2026, công ty này đã huy động vốn với mức định giá 11 tỷ đô la chỉ để làm chính xác điều đó. Hai người bạn đến từ Ba Lan đã thành lập công ty vào năm 2022, và ngày nay, bộ tạo giọng nói AI của họ được sử dụng trong các ứng dụng của hơn một tỷ người. Vậy thực chất nó làm gì, giá thành là bao nhiêu, và tại sao những người làm trong lĩnh vực an ninh mạng lại lo lắng về nó đến vậy?
ElevenLabs làm gì: Giọng nói AI và hơn thế nữa
Khởi đầu chỉ là một công cụ chuyển văn bản thành giọng nói đơn giản. Giờ đây, nó đã trở thành một hệ thống âm thanh hoàn chỉnh, và giọng nói chỉ là phần bạn chú ý đầu tiên. Sự đa dạng của các tính năng còn lại mới là điều lý giải cho mức giá cao của nó. Hai nhà sáng lập đã tiếp cận vấn đề từ những góc độ khác thường: Piotr Dabkowski từng là kỹ sư máy học tại Google, Mati Staniszewski là chiến lược gia tại Palantir. Nỗi thất vọng chung của họ rất đơn giản. Giọng nói tổng hợp thời đó có thể phát âm từ nhưng không thể diễn đạt chúng bằng hành động. Khắc phục điều đó, họ nghĩ, và mọi thứ khác sẽ theo sau. Hầu hết các sản phẩm của công ty vẫn bắt nguồn từ giả định đó.
Chuyển văn bản thành giọng nói và giọng nói AI sống động như thật
Hãy bắt đầu với chức năng cốt lõi: nó chuyển văn bản thành âm thanh nói. Phiên bản mới nhất, Eleven v3 , được xuất xưởng vào tháng 6 năm 2025. Nó đọc được hơn 70 ngôn ngữ và nhận các thẻ nội tuyến như [thì thầm] hoặc [cười], vì vậy bạn có thể điều khiển việc truyền đạt từng dòng một. Cần tốc độ hơn? Một phiên bản nhẹ hơn có tên Flash đánh đổi một chút độ trau chuốt để có được đầu ra gần như tức thì, điều này rất quan trọng đối với các ứng dụng trực tiếp. Kết quả thực sự sống động như thật. Đó là lý do tại sao các nhà sáng tạo lựa chọn ElevenLabs cho lồng tiếng, podcast và tường thuật trong video AI, nơi mà giọng đọc robot sẽ phá vỡ sự tự nhiên.
Điều làm cho v3 nổi bật là khả năng điều khiển. Các công cụ cũ hơn đọc mọi thứ với cùng một giọng điệu đều đều. Nhưng công cụ này thì khác. Đánh dấu một câu cần được nói nhỏ, nói nhanh hoặc nói kèm theo tiếng thở dài, và một đoạn văn bản duy nhất bắt đầu thể hiện một màn trình diễn thực sự. Lần đầu tiên bạn nghe nó nói một câu mỉa mai, nó có phần hơi khó chịu. Phiên bản Multilingual v2 cũ hơn vẫn hỗ trợ 29 ngôn ngữ và vẫn là mặc định cho việc tường thuật dài và ổn định, nơi tính nhất quán quan trọng hơn phạm vi.
Nhân bản giọng nói, lồng tiếng và âm thanh đa ngôn ngữ
Hai tính năng giúp nó vượt xa khả năng tường thuật thông thường. Đầu tiên là sao chép giọng nói. Cung cấp cho nó một đoạn mẫu ngắn và nó sẽ sao chép một giọng nói cụ thể, có thể là bản sao tức thì nhanh chóng từ khoảng một phút âm thanh hoặc một bản sao chuyên nghiệp sắc nét hơn. Thứ hai là lồng tiếng bằng AI. Cung cấp cho nó một video hoàn chỉnh và nó sẽ lồng tiếng lại toàn bộ video bằng một ngôn ngữ khác trong khi vẫn giữ nguyên giọng điệu của người nói, do đó việc bản địa hóa đa ngôn ngữ mà trước đây đòi hỏi phải đặt phòng thu giờ chỉ cần vài cú nhấp chuột. Ngoài ra còn có một thư viện giọng nói dùng chung, nơi người dùng có thể xuất bản và cấp phép giọng nói cho nhau.
Bản sao chuyên nghiệp là thứ mà các hãng phim quan tâm. Chỉ cần 30 phút thu âm sạch và kiểm tra sự đồng ý của người dùng là xong. Đổi lại, nó thu được nhịp điệu và giọng điệu của bản gốc rất chính xác đến nỗi các diễn viên lồng tiếng hiện nay cấp phép cho bản sao của chính họ và nhận phần trăm hoa hồng ngay cả khi đang ngủ. Bản sao tức thời thì nhanh hơn và kém chính xác hơn. Phù hợp cho một bản mẫu nhanh, nhưng dễ dàng nhận ra là giọng giả.
Người ghi chép, âm nhạc AI và các tác nhân hội thoại
Bộ phần mềm này cũng hoạt động theo chiều ngược lại, từ âm thanh trở lại thành văn bản. Scribe là mô hình chuyển đổi giọng nói thành văn bản. Nó phiên âm với nhãn người nói và dấu thời gian, và phiên bản v2 hỗ trợ 99 ngôn ngữ đồng thời gắn thẻ người nói với độ chính xác khoảng 98%. Sau đó là Eleven Music, được thêm vào năm 2025, cung cấp các bản nhạc nền đã được làm sạch theo yêu cầu. Các tác nhân AI đàm thoại còn tiến xa hơn nữa: kết hợp chuyển đổi giọng nói thành văn bản, mô hình ngôn ngữ và chuyển đổi văn bản thành giọng nói, và một bot có thể lắng nghe, trả lời trong thời gian thực và chuyển giao cho con người trong một quy trình liền mạch. Hoàn thiện nó với các hiệu ứng âm thanh và bộ lọc giọng nói để cứu các bản ghi âm ồn ào.
Scribe là nơi nền tảng này thể hiện chiều sâu thực sự. Nó không chỉ đơn thuần là tạo ra bản ghi chép. Nó gắn thẻ các âm thanh không phải lời nói, đánh dấu thời gian ở cấp độ từ và tách các đoạn hội thoại chồng chéo, đó là lý do tại sao các nhà sản xuất podcast và các nhà nghiên cứu dựa vào nó để biến các bản ghi âm lộn xộn thành văn bản có thể tìm kiếm và chỉnh sửa. Và phiên bản v2 có giá rẻ hơn khoảng 40% so với phiên bản đầu tiên. Một sản phẩm AI vừa tốt hơn vừa rẻ hơn cùng một lúc? Điều đó rất hiếm.

Làm thế nào ElevenLabs trở thành một công ty trí tuệ nhân tạo trị giá 11 tỷ đô la?
Các trang sản phẩm thường bỏ qua phần gây sốc nhất: tiền bạc. Nhìn vào nguồn vốn đầu tư, sự tăng trưởng của công ty không còn vẻ bình thường nữa. Đầu năm 2025, ElevenLabs huy động được 180 triệu đô la trong vòng gọi vốn Series C, định giá công ty ở mức 3,3 tỷ đô la, với sự dẫn đầu của Andreessen Horowitz và ICONIQ Growth. Mười ba tháng sau, Sequoia dẫn đầu vòng gọi vốn Series D trị giá 500 triệu đô la , nâng giá trị công ty lên 11 tỷ đô la. Gấp ba lần, chỉ trong một năm, đối với cùng một công ty.
Doanh thu phản ánh rõ mức độ quan tâm. ElevenLabs đã vượt mốc 330 triệu đô la doanh thu định kỳ hàng năm vào cuối năm 2025. Điều khiến các nhà đầu tư mất bình tĩnh chính là tốc độ tăng trưởng. Chỉ 20 tháng để đạt 100 triệu đô la. Sau đó 10 tháng để tăng gấp đôi. Và chỉ 5 tháng để đạt 330 triệu đô la. Mỗi chặng đua đều ngắn hơn chặng trước. Và theo thống kê của chính công ty vào tháng 1 năm 2025, người dùng tại hơn 60% các công ty trong danh sách Fortune 500 đã sử dụng nền tảng này.
| Tròn | Ngày | Nâng lên | Định giá |
|---|---|---|---|
| Loạt B | Tháng 1 năm 2024 | 80 triệu đô la | 1,1 tỷ đô la |
| Loạt C | Tháng 1 năm 2025 | 180 triệu đô la | 3,3 tỷ đô la |
| Dòng D | Tháng 2 năm 2026 | 500 triệu đô la | 11 tỷ đô la |
Trải qua năm vòng gọi vốn, ElevenLabs đã huy động được khoảng 781 triệu đô la, và những người sáng lập đã công khai thảo luận về việc IPO trong tương lai. Điều thuyết phục các nhà đầu tư không phải là ứng dụng dành cho người tiêu dùng mà là cơ sở hạ tầng bên dưới: mọi công ty bổ sung giọng nói vào sản phẩm đều là khách hàng tiềm năng, và thị trường giọng nói tổng hợp hầu như không tồn tại cách đây ba năm. Họ đặt cược rằng giọng nói sẽ trở thành giao diện mặc định giống như màn hình cảm ứng đã từng làm.
Giá của ElevenLabs: gói miễn phí và gói trả phí
Bạn có thể sử dụng ElevenLabs mà không cần trả phí, và gói miễn phí chỉ là một phần giới thiệu. Các gói trả phí chủ yếu mua thêm tín dụng hàng tháng, được sử dụng khi bạn tạo âm thanh, chứ không phải để mở khóa các tính năng hoàn toàn khác. Đây là cấu trúc 2026 .
| Kế hoạch | Giá/tháng | Tín dụng hàng tháng |
|---|---|---|
| Miễn phí | $0 | 10.000 |
| Người mới bắt đầu | 6 đô la | 30.000 |
| Người sáng tạo | 22 đô la | 121.000 |
| Chuyên nghiệp | 99 đô la | 600.000 |
| Tỉ lệ | 299 đô la | 1.800.000 |
| Việc kinh doanh | 990 đô la | 6.000.000 |
Số lượng tín dụng tương đương với số ký tự trong lời thoại, vì vậy gói miễn phí 10.000 tín dụng là đủ cho vài phút âm thanh mỗi tháng. Gói Creator với giá 22 đô la là điểm khởi đầu thiết thực cho bất kỳ ai thường xuyên xuất bản nội dung, và quyền sử dụng thương mại sẽ được áp dụng ở các gói trả phí. Các nhà phát triển trả tiền theo từng lần sử dụng thông qua API thay vì một khoản phí cố định hàng tháng.
Trên gói Business là gói Enterprise tùy chỉnh với hỗ trợ chuyên dụng, giới hạn tốc độ cao hơn và các điều khoản hợp đồng mà hầu hết các khách hàng lớn yêu cầu. API tính phí dựa trên số ký tự được tạo ra, vì vậy ứng dụng có lưu lượng truy cập cao sẽ trả phí theo tỷ lệ sử dụng thay vì phải đoán trước gói cước. Một điều cần lưu ý là số dư tín dụng không được chuyển sang tháng sau, vì vậy tháng chưa sử dụng đồng nghĩa với việc bạn bị mất tiền.
Ai sử dụng ElevenLabs và để làm gì?
Những người dùng thú vị không phải là những người nghiệp dư tạo ra các video ngắn độc đáo; họ là các doanh nghiệp đang thay thế thời gian thu âm tại studio. Các nhà xuất bản sách nói tự thu âm toàn bộ danh mục mà không cần thuê diễn viên. Các YouTuber và người tạo khóa học thêm phần lồng tiếng bằng ngôn ngữ mà họ không nói được. Các studio game lồng tiếng cho các nhân vật phụ với số lượng lớn. Các ứng dụng hỗ trợ người khuyết tật đọc to các bài báo thông qua ứng dụng ElevenReader. Các trung tâm cuộc gọi sử dụng các trợ lý hội thoại tự động trả lời các câu hỏi thường ngày trước khi có người can thiệp. Các nhóm bản địa hóa lồng tiếng cho các video đào tạo dành cho nhân viên toàn cầu.
Phạm vi tiếp cận đó là lý do tại sao định giá của công ty vẫn giữ vững. Công ty cho biết API của họ cung cấp năng lượng cho các sản phẩm phục vụ hơn một tỷ người dùng, với các khách hàng bao gồm Meta, Epic Games và Salesforce. Đối với hầu hết các nhà mua tiềm năng này, ElevenLabs giống như cơ sở hạ tầng âm thanh vô hình bên trong một sản phẩm mang tên khác.
Một vài ví dụ sẽ làm rõ quy mô này. Ứng dụng ElevenReader đọc to các bài báo, PDF và ebook bằng giọng nói đã chọn, trở thành một công cụ hỗ trợ thực sự hữu ích cho những người mắc chứng khó đọc hoặc thị lực kém. Các tòa soạn tự động tạo phiên bản âm thanh cho các bài viết. Các nhà phát triển game độc lập cung cấp giọng nói riêng biệt cho các nhân vật không phải người chơi, điều mà trước đây cần ngân sách thu âm mà họ không có. Điểm chung là âm thanh sản xuất trước đây cần đến phòng thu, giờ đây có thể được tạo ra chỉ bằng một hộp văn bản.
Vấn đề deepfake và sự an toàn của giọng nói AI
Những giọng nói hay như vậy cũng là một vũ khí. ElevenLabs đã học được bài học đó một cách cay đắng. Vào tháng 1 năm 2024, một cuộc gọi tự động giả mạo giọng của Tổng thống Biden đã kêu gọi cử tri New Hampshire bỏ qua cuộc bầu cử sơ bộ. Tất nhiên, đó không phải là ông ấy thật. Công ty an ninh mạng Pindrop đã chạy đoạn ghi âm, truy tìm nguồn gốc đến ElevenLabs và báo cáo độ trùng khớp 84% từ hệ thống phân loại của họ. Công ty đã cấm tài khoản đứng sau vụ việc.
Vụ việc đó đã đưa vấn đề an toàn ra ánh sáng. Hiện tại, ElevenLabs đang vận hành một hệ thống phân loại giọng nói bằng AI để kiểm tra xem đoạn ghi âm có đến từ công cụ của họ hay không, chặn việc sao chép giọng nói của một số nhân vật công chúng có rủi ro cao và yêu cầu xác minh danh tính trước khi sử dụng giọng nói sao chép chuyên nghiệp. Liệu tất cả những điều đó có hoạt động hoàn toàn hiệu quả? Không. Việc phát hiện luôn chậm hơn so với việc tạo ra nội dung giả mạo, và một kẻ xấu có chủ đích có thể dễ dàng chuyển sang sử dụng nhà cung cấp kém chất lượng hơn. Vì vậy, đánh giá trung thực là: công ty đã xây dựng những rào cản thực sự xung quanh một công cụ có tính chất lưỡng dụng, và cuộc đua giữa việc tạo ra hàng giả và bắt chúng vẫn còn lâu mới kết thúc.
Các cơ quan quản lý đã nhận thấy điều này. Một số tiểu bang của Mỹ đã bắt đầu hạn chế các cuộc gọi tự động do AI tạo ra sau vụ việc của ông Biden, và công ty này đã tham gia vào công việc của ngành về đánh dấu bản quyền âm thanh, nhúng các tín hiệu vẫn tồn tại sau khi nén và giúp truy tìm nguồn gốc của một đoạn âm thanh. Các nhà phê bình phản bác rằng dấu bản quyền có thể bị xóa bỏ và các biện pháp tự nguyện không thể thay thế luật pháp. ElevenLabs đang ở trong một vị thế khó xử nhưng trung thực: công cụ có khả năng nhất trong lĩnh vực này lại gánh vác trách nhiệm lớn nhất trong việc kiểm soát nó.

So sánh ElevenLabs với các phần mềm tạo giọng nói bằng AI khác
ElevenLabs được đánh giá rộng rãi là nhà cung cấp phần mềm tạo giọng nói AI hàng đầu về chất lượng, nhưng nó không phải là lựa chọn duy nhất, và không phải lúc nào cũng là lựa chọn đúng đắn. Sự lựa chọn thường phụ thuộc vào mức độ chân thực bạn cần so với ngân sách bạn muốn chi trả.
| Dụng cụ | Điểm mạnh chính | Tốt nhất cho |
|---|---|---|
| ElevenLabs | Giọng nói chân thực nhất, hơn 70 ngôn ngữ, API mạnh mẽ. | Âm thanh sản xuất, lồng tiếng |
| Murf | Giao diện đơn giản, chi phí thấp hơn | Lồng tiếng nhanh cho doanh nghiệp |
| Play.ht | Thư viện giọng nói lớn | Podcast và nội dung dài |
| OpenAI / Azure | Được tích hợp cùng các dịch vụ AI khác | Các nhà phát triển đã có sẵn trong hệ sinh thái đó. |
Nếu ưu tiên của bạn là chất lượng sản phẩm tốt nhất và hỗ trợ nhiều ngôn ngữ, ElevenLabs khó có đối thủ nào sánh kịp — tôi chưa từng thấy đối thủ nào có thể xử lý tốt những đoạn thoại khó nhằn như v3. Nếu bạn cần một công cụ đơn giản, giá rẻ để làm video doanh nghiệp không thường xuyên, một đối thủ khác có thể phù hợp hơn với bạn với chi phí thấp hơn.
Cách bắt đầu sử dụng giọng nói AI của ElevenLabs
Đoạn ghi âm đầu tiên được tạo ra từ trình tạo giọng nói AI của ElevenLabs mất khoảng ba phút, từ đầu đến cuối. Hãy tạo một tài khoản miễn phí. Mở công cụ nhận dạng giọng nói và chọn một giọng nói, có thể từ thư viện hoặc giọng nói của chính bạn. Dán văn bản của bạn, chọn kiểu giọng và ngôn ngữ, rồi nhấn tạo. Nghe lại. Nếu cảm thấy giọng nói chưa ổn, hãy điều chỉnh thanh trượt độ ổn định và phong cách rồi thử lại, sau đó tải xuống file MP3. Đó là toàn bộ quy trình.
Các nhà phát triển bỏ qua bảng điều khiển và gọi trực tiếp API bằng khóa, truyền văn bản và ID giọng nói, rồi nhận lại âm thanh. Đó là cách các ứng dụng có hàng tỷ người dùng tích hợp ElevenLabs vào sản phẩm của họ.
Vì sao ElevenLabs dẫn đầu trong lĩnh vực tạo giọng nói bằng AI?
ElevenLabs đã từ một dự án phụ về phiên âm giọng nói trở thành một nền tảng trị giá 11 tỷ đô la nhanh hơn hầu hết các công ty phần mềm trước đó, và chất lượng giọng nói đủ tốt để tạo nên sự nổi tiếng. Gói miễn phí cho phép bất cứ ai cũng có thể kiểm chứng điều đó chỉ trong vài phút. Nhưng chính sự chân thực giúp thu hút khách hàng lại là điều khiến các nhà quản lý và nhà nghiên cứu bảo mật lo ngại, và vụ gọi điện tự động giả mạo Biden sẽ không phải là sự cố cuối cùng. Công nghệ đã có và đang được cải thiện hàng tháng. Câu hỏi đặt ra là liệu các quy định và công cụ phát hiện có thể theo kịp những giọng nói đã đánh lừa hầu hết người nghe hay không. Giới hạn ở đâu?