ElevenLabs: Hé lộ bí mật về hệ thống tạo giọng nói AI trị giá 11 tỷ đô la.

ElevenLabs: Hé lộ bí mật về hệ thống tạo giọng nói AI trị giá 11 tỷ đô la.

Chắc hẳn bạn đã từng nghe đến ElevenLabs. Chỉ là bạn chưa biết đến nó mà thôi. Giọng người dẫn chuyện trong các video giải thích trên YouTube, lời thoại lồng tiếng trong phim nước ngoài, giọng nói ở đầu dây bên kia của tổng đài hỗ trợ: rất nhiều đoạn âm thanh đó hiện nay được tạo ra bằng trí tuệ nhân tạo, và rất nhiều trong số đó được vận hành bởi một công ty mà hầu hết mọi người ngoài lĩnh vực công nghệ không thể kể tên. ElevenLabs tạo ra giọng nói AI. Vào tháng 2 năm 2026, công ty này đã huy động vốn với mức định giá 11 tỷ đô la chỉ để làm chính xác điều đó. Hai người bạn đến từ Ba Lan đã thành lập công ty vào năm 2022, và ngày nay, bộ tạo giọng nói AI của họ được sử dụng trong các ứng dụng của hơn một tỷ người. Vậy thực chất nó làm gì, giá thành là bao nhiêu, và tại sao những người làm trong lĩnh vực an ninh mạng lại lo lắng về nó đến vậy?

ElevenLabs làm gì: Giọng nói AI và hơn thế nữa

Khởi đầu chỉ là một công cụ chuyển văn bản thành giọng nói đơn giản. Giờ đây, nó đã trở thành một hệ thống âm thanh hoàn chỉnh, và giọng nói chỉ là phần bạn chú ý đầu tiên. Sự đa dạng của các tính năng còn lại mới là điều lý giải cho mức giá cao của nó. Hai nhà sáng lập đã tiếp cận vấn đề từ những góc độ khác thường: Piotr Dabkowski từng là kỹ sư máy học tại Google, Mati Staniszewski là chiến lược gia tại Palantir. Nỗi thất vọng chung của họ rất đơn giản. Giọng nói tổng hợp thời đó có thể phát âm từ nhưng không thể diễn đạt chúng bằng hành động. Khắc phục điều đó, họ nghĩ, và mọi thứ khác sẽ theo sau. Hầu hết các sản phẩm của công ty vẫn bắt nguồn từ giả định đó.

Chuyển văn bản thành giọng nói và giọng nói AI sống động như thật

Hãy bắt đầu với chức năng cốt lõi: nó chuyển văn bản thành âm thanh nói. Phiên bản mới nhất, Eleven v3 , được xuất xưởng vào tháng 6 năm 2025. Nó đọc được hơn 70 ngôn ngữ và nhận các thẻ nội tuyến như [thì thầm] hoặc [cười], vì vậy bạn có thể điều khiển việc truyền đạt từng dòng một. Cần tốc độ hơn? Một phiên bản nhẹ hơn có tên Flash đánh đổi một chút độ trau chuốt để có được đầu ra gần như tức thì, điều này rất quan trọng đối với các ứng dụng trực tiếp. Kết quả thực sự sống động như thật. Đó là lý do tại sao các nhà sáng tạo lựa chọn ElevenLabs cho lồng tiếng, podcast và tường thuật trong video AI, nơi mà giọng đọc robot sẽ phá vỡ sự tự nhiên.

Điều làm cho v3 nổi bật là khả năng điều khiển. Các công cụ cũ hơn đọc mọi thứ với cùng một giọng điệu đều đều. Nhưng công cụ này thì khác. Đánh dấu một câu cần được nói nhỏ, nói nhanh hoặc nói kèm theo tiếng thở dài, và một đoạn văn bản duy nhất bắt đầu thể hiện một màn trình diễn thực sự. Lần đầu tiên bạn nghe nó nói một câu mỉa mai, nó có phần hơi khó chịu. Phiên bản Multilingual v2 cũ hơn vẫn hỗ trợ 29 ngôn ngữ và vẫn là mặc định cho việc tường thuật dài và ổn định, nơi tính nhất quán quan trọng hơn phạm vi.

Nhân bản giọng nói, lồng tiếng và âm thanh đa ngôn ngữ

Hai tính năng giúp nó vượt xa khả năng tường thuật thông thường. Đầu tiên là sao chép giọng nói. Cung cấp cho nó một đoạn mẫu ngắn và nó sẽ sao chép một giọng nói cụ thể, có thể là bản sao tức thì nhanh chóng từ khoảng một phút âm thanh hoặc một bản sao chuyên nghiệp sắc nét hơn. Thứ hai là lồng tiếng bằng AI. Cung cấp cho nó một video hoàn chỉnh và nó sẽ lồng tiếng lại toàn bộ video bằng một ngôn ngữ khác trong khi vẫn giữ nguyên giọng điệu của người nói, do đó việc bản địa hóa đa ngôn ngữ mà trước đây đòi hỏi phải đặt phòng thu giờ chỉ cần vài cú nhấp chuột. Ngoài ra còn có một thư viện giọng nói dùng chung, nơi người dùng có thể xuất bản và cấp phép giọng nói cho nhau.

Bản sao chuyên nghiệp là thứ mà các hãng phim quan tâm. Chỉ cần 30 phút thu âm sạch và kiểm tra sự đồng ý của người dùng là xong. Đổi lại, nó thu được nhịp điệu và giọng điệu của bản gốc rất chính xác đến nỗi các diễn viên lồng tiếng hiện nay cấp phép cho bản sao của chính họ và nhận phần trăm hoa hồng ngay cả khi đang ngủ. Bản sao tức thời thì nhanh hơn và kém chính xác hơn. Phù hợp cho một bản mẫu nhanh, nhưng dễ dàng nhận ra là giọng giả.

Người ghi chép, âm nhạc AI và các tác nhân hội thoại

Bộ phần mềm này cũng hoạt động theo chiều ngược lại, từ âm thanh trở lại thành văn bản. Scribe là mô hình chuyển đổi giọng nói thành văn bản. Nó phiên âm với nhãn người nói và dấu thời gian, và phiên bản v2 hỗ trợ 99 ngôn ngữ đồng thời gắn thẻ người nói với độ chính xác khoảng 98%. Sau đó là Eleven Music, được thêm vào năm 2025, cung cấp các bản nhạc nền đã được làm sạch theo yêu cầu. Các tác nhân AI đàm thoại còn tiến xa hơn nữa: kết hợp chuyển đổi giọng nói thành văn bản, mô hình ngôn ngữ và chuyển đổi văn bản thành giọng nói, và một bot có thể lắng nghe, trả lời trong thời gian thực và chuyển giao cho con người trong một quy trình liền mạch. Hoàn thiện nó với các hiệu ứng âm thanh và bộ lọc giọng nói để cứu các bản ghi âm ồn ào.

Scribe là nơi nền tảng này thể hiện chiều sâu thực sự. Nó không chỉ đơn thuần là tạo ra bản ghi chép. Nó gắn thẻ các âm thanh không phải lời nói, đánh dấu thời gian ở cấp độ từ và tách các đoạn hội thoại chồng chéo, đó là lý do tại sao các nhà sản xuất podcast và các nhà nghiên cứu dựa vào nó để biến các bản ghi âm lộn xộn thành văn bản có thể tìm kiếm và chỉnh sửa. Và phiên bản v2 có giá rẻ hơn khoảng 40% so với phiên bản đầu tiên. Một sản phẩm AI vừa tốt hơn vừa rẻ hơn cùng một lúc? Điều đó rất hiếm.

elevenlabs-ai

Làm thế nào ElevenLabs trở thành một công ty trí tuệ nhân tạo trị giá 11 tỷ đô la?

Các trang sản phẩm thường bỏ qua phần gây sốc nhất: tiền bạc. Nhìn vào nguồn vốn đầu tư, sự tăng trưởng của công ty không còn vẻ bình thường nữa. Đầu năm 2025, ElevenLabs huy động được 180 triệu đô la trong vòng gọi vốn Series C, định giá công ty ở mức 3,3 tỷ đô la, với sự dẫn đầu của Andreessen Horowitz và ICONIQ Growth. Mười ba tháng sau, Sequoia dẫn đầu vòng gọi vốn Series D trị giá 500 triệu đô la , nâng giá trị công ty lên 11 tỷ đô la. Gấp ba lần, chỉ trong một năm, đối với cùng một công ty.

Doanh thu phản ánh rõ mức độ quan tâm. ElevenLabs đã vượt mốc 330 triệu đô la doanh thu định kỳ hàng năm vào cuối năm 2025. Điều khiến các nhà đầu tư mất bình tĩnh chính là tốc độ tăng trưởng. Chỉ 20 tháng để đạt 100 triệu đô la. Sau đó 10 tháng để tăng gấp đôi. Và chỉ 5 tháng để đạt 330 triệu đô la. Mỗi chặng đua đều ngắn hơn chặng trước. Và theo thống kê của chính công ty vào tháng 1 năm 2025, người dùng tại hơn 60% các công ty trong danh sách Fortune 500 đã sử dụng nền tảng này.

Tròn Ngày Nâng lên Định giá
Loạt B Tháng 1 năm 2024 80 triệu đô la 1,1 tỷ đô la
Loạt C Tháng 1 năm 2025 180 triệu đô la 3,3 tỷ đô la
Dòng D Tháng 2 năm 2026 500 triệu đô la 11 tỷ đô la

Trải qua năm vòng gọi vốn, ElevenLabs đã huy động được khoảng 781 triệu đô la, và những người sáng lập đã công khai thảo luận về việc IPO trong tương lai. Điều thuyết phục các nhà đầu tư không phải là ứng dụng dành cho người tiêu dùng mà là cơ sở hạ tầng bên dưới: mọi công ty bổ sung giọng nói vào sản phẩm đều là khách hàng tiềm năng, và thị trường giọng nói tổng hợp hầu như không tồn tại cách đây ba năm. Họ đặt cược rằng giọng nói sẽ trở thành giao diện mặc định giống như màn hình cảm ứng đã từng làm.

Giá của ElevenLabs: gói miễn phí và gói trả phí

Bạn có thể sử dụng ElevenLabs mà không cần trả phí, và gói miễn phí chỉ là một phần giới thiệu. Các gói trả phí chủ yếu mua thêm tín dụng hàng tháng, được sử dụng khi bạn tạo âm thanh, chứ không phải để mở khóa các tính năng hoàn toàn khác. Đây là cấu trúc 2026 .

Kế hoạch Giá/tháng Tín dụng hàng tháng
Miễn phí $0 10.000
Người mới bắt đầu 6 đô la 30.000
Người sáng tạo 22 đô la 121.000
Chuyên nghiệp 99 đô la 600.000
Tỉ lệ 299 đô la 1.800.000
Việc kinh doanh 990 đô la 6.000.000

Số lượng tín dụng tương đương với số ký tự trong lời thoại, vì vậy gói miễn phí 10.000 tín dụng là đủ cho vài phút âm thanh mỗi tháng. Gói Creator với giá 22 đô la là điểm khởi đầu thiết thực cho bất kỳ ai thường xuyên xuất bản nội dung, và quyền sử dụng thương mại sẽ được áp dụng ở các gói trả phí. Các nhà phát triển trả tiền theo từng lần sử dụng thông qua API thay vì một khoản phí cố định hàng tháng.

Trên gói Business là gói Enterprise tùy chỉnh với hỗ trợ chuyên dụng, giới hạn tốc độ cao hơn và các điều khoản hợp đồng mà hầu hết các khách hàng lớn yêu cầu. API tính phí dựa trên số ký tự được tạo ra, vì vậy ứng dụng có lưu lượng truy cập cao sẽ trả phí theo tỷ lệ sử dụng thay vì phải đoán trước gói cước. Một điều cần lưu ý là số dư tín dụng không được chuyển sang tháng sau, vì vậy tháng chưa sử dụng đồng nghĩa với việc bạn bị mất tiền.

Ai sử dụng ElevenLabs và để làm gì?

Những người dùng thú vị không phải là những người nghiệp dư tạo ra các video ngắn độc đáo; họ là các doanh nghiệp đang thay thế thời gian thu âm tại studio. Các nhà xuất bản sách nói tự thu âm toàn bộ danh mục mà không cần thuê diễn viên. Các YouTuber và người tạo khóa học thêm phần lồng tiếng bằng ngôn ngữ mà họ không nói được. Các studio game lồng tiếng cho các nhân vật phụ với số lượng lớn. Các ứng dụng hỗ trợ người khuyết tật đọc to các bài báo thông qua ứng dụng ElevenReader. Các trung tâm cuộc gọi sử dụng các trợ lý hội thoại tự động trả lời các câu hỏi thường ngày trước khi có người can thiệp. Các nhóm bản địa hóa lồng tiếng cho các video đào tạo dành cho nhân viên toàn cầu.

Phạm vi tiếp cận đó là lý do tại sao định giá của công ty vẫn giữ vững. Công ty cho biết API của họ cung cấp năng lượng cho các sản phẩm phục vụ hơn một tỷ người dùng, với các khách hàng bao gồm Meta, Epic Games và Salesforce. Đối với hầu hết các nhà mua tiềm năng này, ElevenLabs giống như cơ sở hạ tầng âm thanh vô hình bên trong một sản phẩm mang tên khác.

Một vài ví dụ sẽ làm rõ quy mô này. Ứng dụng ElevenReader đọc to các bài báo, PDF và ebook bằng giọng nói đã chọn, trở thành một công cụ hỗ trợ thực sự hữu ích cho những người mắc chứng khó đọc hoặc thị lực kém. Các tòa soạn tự động tạo phiên bản âm thanh cho các bài viết. Các nhà phát triển game độc lập cung cấp giọng nói riêng biệt cho các nhân vật không phải người chơi, điều mà trước đây cần ngân sách thu âm mà họ không có. Điểm chung là âm thanh sản xuất trước đây cần đến phòng thu, giờ đây có thể được tạo ra chỉ bằng một hộp văn bản.

Vấn đề deepfake và sự an toàn của giọng nói AI

Những giọng nói hay như vậy cũng là một vũ khí. ElevenLabs đã học được bài học đó một cách cay đắng. Vào tháng 1 năm 2024, một cuộc gọi tự động giả mạo giọng của Tổng thống Biden đã kêu gọi cử tri New Hampshire bỏ qua cuộc bầu cử sơ bộ. Tất nhiên, đó không phải là ông ấy thật. Công ty an ninh mạng Pindrop đã chạy đoạn ghi âm, truy tìm nguồn gốc đến ElevenLabs và báo cáo độ trùng khớp 84% từ hệ thống phân loại của họ. Công ty đã cấm tài khoản đứng sau vụ việc.

Vụ việc đó đã đưa vấn đề an toàn ra ánh sáng. Hiện tại, ElevenLabs đang vận hành một hệ thống phân loại giọng nói bằng AI để kiểm tra xem đoạn ghi âm có đến từ công cụ của họ hay không, chặn việc sao chép giọng nói của một số nhân vật công chúng có rủi ro cao và yêu cầu xác minh danh tính trước khi sử dụng giọng nói sao chép chuyên nghiệp. Liệu tất cả những điều đó có hoạt động hoàn toàn hiệu quả? Không. Việc phát hiện luôn chậm hơn so với việc tạo ra nội dung giả mạo, và một kẻ xấu có chủ đích có thể dễ dàng chuyển sang sử dụng nhà cung cấp kém chất lượng hơn. Vì vậy, đánh giá trung thực là: công ty đã xây dựng những rào cản thực sự xung quanh một công cụ có tính chất lưỡng dụng, và cuộc đua giữa việc tạo ra hàng giả và bắt chúng vẫn còn lâu mới kết thúc.

Các cơ quan quản lý đã nhận thấy điều này. Một số tiểu bang của Mỹ đã bắt đầu hạn chế các cuộc gọi tự động do AI tạo ra sau vụ việc của ông Biden, và công ty này đã tham gia vào công việc của ngành về đánh dấu bản quyền âm thanh, nhúng các tín hiệu vẫn tồn tại sau khi nén và giúp truy tìm nguồn gốc của một đoạn âm thanh. Các nhà phê bình phản bác rằng dấu bản quyền có thể bị xóa bỏ và các biện pháp tự nguyện không thể thay thế luật pháp. ElevenLabs đang ở trong một vị thế khó xử nhưng trung thực: công cụ có khả năng nhất trong lĩnh vực này lại gánh vác trách nhiệm lớn nhất trong việc kiểm soát nó.

elevenlabs-ai

So sánh ElevenLabs với các phần mềm tạo giọng nói bằng AI khác

ElevenLabs được đánh giá rộng rãi là nhà cung cấp phần mềm tạo giọng nói AI hàng đầu về chất lượng, nhưng nó không phải là lựa chọn duy nhất, và không phải lúc nào cũng là lựa chọn đúng đắn. Sự lựa chọn thường phụ thuộc vào mức độ chân thực bạn cần so với ngân sách bạn muốn chi trả.

Dụng cụ Điểm mạnh chính Tốt nhất cho
ElevenLabs Giọng nói chân thực nhất, hơn 70 ngôn ngữ, API mạnh mẽ. Âm thanh sản xuất, lồng tiếng
Murf Giao diện đơn giản, chi phí thấp hơn Lồng tiếng nhanh cho doanh nghiệp
Play.ht Thư viện giọng nói lớn Podcast và nội dung dài
OpenAI / Azure Được tích hợp cùng các dịch vụ AI khác Các nhà phát triển đã có sẵn trong hệ sinh thái đó.

Nếu ưu tiên của bạn là chất lượng sản phẩm tốt nhất và hỗ trợ nhiều ngôn ngữ, ElevenLabs khó có đối thủ nào sánh kịp — tôi chưa từng thấy đối thủ nào có thể xử lý tốt những đoạn thoại khó nhằn như v3. Nếu bạn cần một công cụ đơn giản, giá rẻ để làm video doanh nghiệp không thường xuyên, một đối thủ khác có thể phù hợp hơn với bạn với chi phí thấp hơn.

Cách bắt đầu sử dụng giọng nói AI của ElevenLabs

Đoạn ghi âm đầu tiên được tạo ra từ trình tạo giọng nói AI của ElevenLabs mất khoảng ba phút, từ đầu đến cuối. Hãy tạo một tài khoản miễn phí. Mở công cụ nhận dạng giọng nói và chọn một giọng nói, có thể từ thư viện hoặc giọng nói của chính bạn. Dán văn bản của bạn, chọn kiểu giọng và ngôn ngữ, rồi nhấn tạo. Nghe lại. Nếu cảm thấy giọng nói chưa ổn, hãy điều chỉnh thanh trượt độ ổn định và phong cách rồi thử lại, sau đó tải xuống file MP3. Đó là toàn bộ quy trình.

Các nhà phát triển bỏ qua bảng điều khiển và gọi trực tiếp API bằng khóa, truyền văn bản và ID giọng nói, rồi nhận lại âm thanh. Đó là cách các ứng dụng có hàng tỷ người dùng tích hợp ElevenLabs vào sản phẩm của họ.

Vì sao ElevenLabs dẫn đầu trong lĩnh vực tạo giọng nói bằng AI?

ElevenLabs đã từ một dự án phụ về phiên âm giọng nói trở thành một nền tảng trị giá 11 tỷ đô la nhanh hơn hầu hết các công ty phần mềm trước đó, và chất lượng giọng nói đủ tốt để tạo nên sự nổi tiếng. Gói miễn phí cho phép bất cứ ai cũng có thể kiểm chứng điều đó chỉ trong vài phút. Nhưng chính sự chân thực giúp thu hút khách hàng lại là điều khiến các nhà quản lý và nhà nghiên cứu bảo mật lo ngại, và vụ gọi điện tự động giả mạo Biden sẽ không phải là sự cố cuối cùng. Công nghệ đã có và đang được cải thiện hàng tháng. Câu hỏi đặt ra là liệu các quy định và công cụ phát hiện có thể theo kịp những giọng nói đã đánh lừa hầu hết người nghe hay không. Giới hạn ở đâu?

Bất kỳ câu hỏi?

ElevenLabs là một công ty trí tuệ nhân tạo (AI) được thành lập năm 2022, chuyên chuyển đổi văn bản thành giọng nói chân thực. Các công cụ của họ bao gồm chuyển văn bản thành giọng nói, sao chép giọng nói, lồng tiếng AI, chuyển giọng nói thành văn bản và trợ lý giọng nói đàm thoại. Hầu hết mọi người đánh giá đây là một trong những công cụ tạo giọng nói AI tự nhiên nhất, và công nghệ của họ âm thầm hỗ trợ âm thanh bên trong các ứng dụng mà bạn đang sử dụng.

Đúng vậy, nhưng chỉ đến một mức độ nhất định. Gói miễn phí cung cấp cho bạn 10.000 tín dụng mỗi tháng, đủ cho vài phút ghi âm và bao gồm các tính năng cơ bản để thử nghiệm. Quyền sử dụng thương mại và giới hạn cao hơn yêu cầu gói trả phí, bắt đầu từ khoảng 6 đô la một tháng ở gói Khởi đầu.

Khoảng 11 tỷ đô la. Mức định giá đó đạt được nhờ vòng gọi vốn Series D trị giá 500 triệu đô la do Sequoia dẫn đầu vào tháng 2 năm 2026, gấp khoảng ba lần so với 3,3 tỷ đô la mà công ty đạt được ở vòng Series C mười ba tháng trước đó. Sự tăng trưởng này phản ánh sự leo thang hướng tới doanh thu định kỳ hàng năm khoảng 330 triệu đô la vào cuối năm 2025.

Hầu hết là đúng. ElevenLabs tạo ra một số giọng nói AI sống động như thật nhất hiện nay, đặc biệt là thông qua mô hình Eleven v3 của họ, có khả năng xử lý các thẻ cảm xúc nội tuyến và hơn 70 ngôn ngữ. Chất lượng có thể thay đổi tùy thuộc vào giọng nói và ngôn ngữ, và các đoạn văn rất dài có thể bị lệch tông, nhưng đối với việc sử dụng hàng ngày, chất lượng âm thanh đầu ra rất thuyết phục, giống giọng người thật.

Có, nếu bạn đang sử dụng gói trả phí. ElevenLabs cấp quyền thương mại trên các gói trả phí, vì vậy các bản lồng tiếng có thể được sử dụng trong video, podcast, sách nói và quảng cáo có kiếm tiền. Gói miễn phí dành cho mục đích thử nghiệm và sử dụng cá nhân; công việc thương mại thường yêu cầu ít nhất gói Starter hoặc Creator, kèm theo ghi nguồn khi được chỉ định.

Chắc chắn rồi. Phiên bản Eleven v3 hỗ trợ hơn 70 ngôn ngữ, và tính năng lồng tiếng có thể chuyển ngữ âm thanh hoặc video hiện có sang ngôn ngữ khác mà vẫn giữ nguyên giọng điệu của người nói. Khả năng hỗ trợ đa ngôn ngữ đó là lý do chính khiến các nhà sáng tạo và doanh nghiệp sử dụng ElevenLabs để bản địa hóa toàn cầu.

Ready to Get Started?

Create an account and start accepting payments – no contracts or KYC required. Or, contact us to design a custom package for your business.

Make first step

Always know what you pay

Integrated per-transaction pricing with no hidden fees

Start your integration

Set up Plisio swiftly in just 10 minutes.