ElevenLabs：揭秘价值 110 亿美元的 AI 语音生成器

发表于 Jun 22, 2026 作者 Mathis Curcio

你肯定听过ElevenLabs，只是你可能不知道而已。YouTube讲解视频的旁白、外国电影的配音、客服热线的语音提示：如今，大量的音频都是由人工智能生成的，而其中很多都出自一家科技圈外人士鲜为人知的公司之手。ElevenLabs就是一家人工智能语音生成公司。2026年2月，该公司凭借这项技术获得了110亿美元的估值。这家公司由两位波兰朋友于2022年创立，如今，其人工智能语音生成器已被超过10亿用户使用的应用程序中所采用。那么，它究竟有什么功能？它的价格是多少？为什么安全专家们会为此彻夜难眠？

ElevenLabs 的业务：人工智能语音及其他

它最初只是一个简单的文本转语音工具。如今，它已发展成为一套完整的音频系统，而语音只是你首先注意到的部分。真正让其价格物有所值的是其功能的丰富性。两位创始人从不同的角度切入这个问题：Piotr Dabkowski 曾是谷歌的机器学习工程师，Mati Staniszewski 曾是 Palantir 的战略家。他们共同的痛点很简单：当时的合成语音可以发音，但无法表现动作。他们认为，解决了这个问题，其他一切自然迎刃而解。如今，公司的大部分产品仍然源于这一大胆的设想。

文本转语音和逼真的AI语音

先从核心功能说起：它能将文本转换成语音。最新款Eleven v3于 2025 年 6 月发布。它支持 70 多种语言，并可添加 [耳语] 或 [笑] 等内联标签，方便您逐行控制语音输出。如果您更注重速度，可以选择更轻量级的 Flash 版本，它牺牲了一些细节，换取了近乎即时的输出，这对于实时应用至关重要。最终效果栩栩如生。正因如此，创作者们才会选择 ElevenLabs 来制作配音、播客和 AI 视频旁白，因为机械式的朗读会破坏整体效果。

v3 的亮点在于其控制力。旧版引擎朗读所有内容都采用千篇一律的平淡语调，而 v3 则不然。您可以标记句子以低语、急促语速或叹息的方式朗读，这样一段文本就能呈现出真实的演绎效果。第一次听到它朗读出讽刺意味十足的句子时，可能会有点不适应。旧版的多语言 v2 仍然支持 29 种语言，并且仍然是长篇稳定叙述的默认选择，因为在这种叙述中，一致性比语言多样性更为重要。

语音克隆、配音和多语言音频

两项功能使其超越了简单的旁白。第一项是语音克隆。只需提供一小段音频样本，它就能复制特定的声音，既可以快速复制大约一分钟的音频，也可以生成更清晰、更专业的语音。第二项是AI配音。只需提供一段完整的视频，它就能在保留说话者语调的同时，用另一种语言重新配音，以往需要预订录音棚才能完成的多语言本地化，现在只需点击几下鼠标即可完成。此外，它还提供了一个共享语音库，用户可以在其中发布语音并相互授权使用。

专业克隆机才是录音棚真正重视的。它只需要三十分钟的干净音频和用户授权即可。作为回报，它能极其精准地捕捉原声的语调和口音，以至于配音演员现在都会授权自己的克隆机，然后安心地坐享其成。而即时克隆机则速度更快，但效果也更粗糙。它适合快速制作原型，但很容易被识别为合成音。

抄写员、人工智能音乐和对话代理

这套软件也支持反向转换，即从音频到文本。Scribe 是语音转文本模型，它能转录带有说话人标签和时间戳的文本。v2 版本支持 99 种语言，并能以约 98% 的准确率标注说话人。此外，还有将于 2025 年推出的 Eleven Music，它可以按需提供已清理的背景音乐。对话式 AI 代理的功能更加强大：它将语音转文本、语言模型和文本转语音功能整合在一起，使机器人能够聆听、实时回答，并在一个流畅的流程中将对话转交给人类。最后，它还配备了音效和语音隔离器，用于修复嘈杂的录音。

Scribe 功能充分展现了该平台的深度。它不仅能生成转录文本，还能标记非语音声音、标注单词级别的时间戳，并区分重叠的说话人。正因如此，播客制作人和研究人员都依赖它来将杂乱的录音转换成可搜索、可编辑的文本。而且，v2 版本比第一版便宜了约 40%。一款人工智能产品能同时提升性能并降低成本？这实属罕见。

elevenlabs-ai

ElevenLabs是如何成为一家价值110亿美元的人工智能公司的

产品页面避而不谈最令人震惊的部分：资金。看看融资情况，你会发现其增长速度远超预期。2025年初，ElevenLabs完成了1.8亿美元的C轮融资，估值达到33亿美元，由Andreessen Horowitz和ICONIQ Growth共同领投。13个月后，Sequoia领投了5亿美元的D轮融资，公司估值飙升至110亿美元。短短一年内，同一家公司的估值就翻了三倍。

营收增长解释了市场对其的追捧。ElevenLabs 预计到 2025 年底，其年度经常性收入将超过 3.3 亿美元。真正令投资者感到震惊的是其增长速度。20 个月达到 1 亿美元，10 个月翻番，仅 5 个月就达到 3.3 亿美元。每一步都比前一步更快。根据该公司 2025 年 1 月的统计，财富 500 强企业中超过 60% 的员工已经体验过其平台。

圆形的	日期	养育	估值
B系列	2024年1月	8000万美元	11亿美元
C系列	2025年1月	1.8亿美元	33亿美元
D系列	2026年2月	5亿美元	110亿美元

ElevenLabs 历经五轮融资，已筹集约 7.81 亿美元，其创始人也公开讨论过最终上市的计划。真正打动投资者的并非消费者应用本身，而是其背后的基础设施：每一家在其产品中添加语音功能的公司都是潜在客户，而合成语音市场在三年前几乎还不存在。他们押注语音交互会像触摸屏一样，最终成为默认的交互界面。

ElevenLabs定价：免费和付费方案

您可以免费使用 ElevenLabs，而且免费套餐的功能远不止是试用版。付费套餐主要提供的是更多月度积分，这些积分会在您生成音频时消耗，而不是解锁完全不同的功能。以下是2026 结构。

计划	每月价格	每月积分
自由的	0美元	10,000
起动机	6美元	30,000
创作者	22美元	121,000
专业版	99美元	60万
规模	299美元	1,800,000
商业	990美元	6,000,000

积分大致对应语音字符数，因此10,000积分的免费套餐每月足够录制几分钟的音频。22美元的创作者套餐是定期发布音频的用户的理想入门选择，而付费套餐则包含商业使用权。开发者通过API按使用量付费，而非支付固定的月费。

在商务版之上，还有定制的企业版套餐，提供专属支持、更高的速率限制以及大多数大型买家所需的合同条款。API 按生成的字符数计费，因此高流量应用只需按使用量付费，无需预先猜测套餐。需要注意的是，积分不会累积到下个月，所以未使用的月份就相当于白白浪费了积分。

谁在使用ElevenLabs？他们用ElevenLabs做什么？

这些有趣的用户并非制作新奇短片的业余爱好者；他们是企业，用自己的方式替代录音棚的时间。有声书出版商无需聘请演员即可为整套书籍配音。YouTube 用户和课程创建者用他们并不熟悉的语言添加旁白。游戏工作室大规模地为次要角色配音。辅助功能应用程序通过 ElevenReader 应用朗读文章。呼叫中心运行对话式代理，在人工客服介入之前回答常规问题。本地化团队为全球员工的培训视频配音。

正是这种广泛的用户覆盖面支撑了其估值。该公司表示，其API为众多产品提供支持，这些产品总共服务超过10亿用户，客户包括Meta、Epic Games和Salesforce。对于大多数买家而言，ElevenLabs提供的是底层架构：一种隐藏在产品内部、只是换了个名字的音频基础设施。

几个例子就能具体说明这种趋势。ElevenReader 应用可以用用户选择的声音朗读文章、PDF 和电子书，这已成为有阅读障碍或视力障碍人士的真正辅助工具。新闻编辑室会自动生成文字报道的音频版本。独立开发者为非玩家角色赋予了独特的声音，而这在过去需要他们无力承担的录音预算。这些应用的共同点在于，过去需要录音棚才能制作的音频，现在只需一个文本框就能实现。

深度伪造问题和人工智能语音安全

如此逼真的声音也是一种武器。ElevenLabs 就为此付出了惨痛的代价。2024 年 1 月，一通伪造的自动语音电话冒充拜登总统，劝说新罕布什尔州的选民放弃参加初选。当然，这并非拜登本人的声音。安全公司 Pindrop 分析了这段录音，追踪到 ElevenLabs，并报告称其与录音的匹配度高达 84% 。该公司随即封禁了幕后运营的账户。

那件事让安全问题真正摆到了台面上。ElevenLabs 现在运行着一个 AI 语音分类器，用于检查音频片段是否来自其工具，阻止克隆某些高风险公众人物，并要求在进行专业语音克隆之前进行身份验证。这些措施真的完全有效吗？并没有。检测总是滞后于生成，一个执意作案的恶意分子可以轻易地找到一家更不专业的服务提供商。所以，客观来说：该公司围绕着一个本质上具有双重用途的工具构建了真正的安全保障，而伪造和识别伪造之间的竞赛远未结束。

监管机构已经注意到这一点。在拜登事件之后，美国多个州采取行动限制人工智能生成的自动语音电话，而该公司也加入了音频水印技术的行业合作，在音频中嵌入能够经受住压缩的信号，帮助追踪音频片段的来源。批评者则反驳说，水印可以被移除，而且自愿措施无法替代法律。ElevenLabs 的处境尴尬却又真实：作为该领域功能最强大的工具，它也肩负着最大的监管责任。

elevenlabs-ai

ElevenLabs 与其他 AI 语音生成器的比较

ElevenLabs 被广泛认为是质量领先的 AI 语音生成器，但它并非唯一选择，也并非总是最佳选择。最终的选择通常取决于您对逼真度的需求以及您的预算。

工具	主要优势	最适合
ElevenLabs	最逼真的语音，支持 70 多种语言，强大的 API	音频制作，配音
默夫	界面简洁，成本更低	快速商务配音
播放.ht	大型语音库	播客和长篇内容
OpenAI / Azure	与其他人工智能服务捆绑在一起	该技术栈中已有的开发人员

如果您最看重的是人工翻译效果和广泛的语言支持，ElevenLabs 几乎无可匹敌——我还没听说过哪个竞争对手能在真正棘手的台词上与 v3 相媲美。如果您只是想要一个价格低廉、操作简单的工具，用于偶尔制作企业视频，那么其他竞争对手或许能以更低的价格更好地满足您的需求。

如何开始使用 ElevenLabs AI 语音

使用 ElevenLabs AI 语音生成器生成的第一个音频片段大约需要三分钟。注册一个免费账户。打开语音工具，选择一个语音，可以从库中选择，也可以自己创建一个。粘贴文本，选择模型和语言，点击生成。回听一下。如果感觉发音不自然，可以调整稳定性和风格滑块，然后重试，最后下载 MP3 文件。整个流程就是这样。

开发者无需使用控制面板，只需通过密钥直接调用 API，传递文本和语音 ID，即可接收返回的音频。这就是那些拥有数十亿用户的应用程序将 ElevenLabs 集成到自身产品中的方式。

为什么 ElevenLabs 在人工智能语音生成领域处于领先地位

ElevenLabs 从一个转录项目发展成为一个价值 110 亿美元的平台，其速度之快几乎超过了以往任何一家软件公司，而且其语音效果逼真，因此备受追捧也并非浪得虚名。免费版可以让任何人几分钟内验证这一说法。然而，正是这种逼真的效果赢得了客户的青睐，但也正是监管机构和安全研究人员担忧的地方，拜登的自动语音电话事件绝不会是最后一起。这项技术已经成熟，并且每月都在进步。现在的问题是，现有的规则和检测工具能否跟上这些已经足以欺骗大多数听众的语音技术的步伐。你会如何划定界限？

Mathis Curcio

Mathis Curcio is a senior content strategist and NFT specialist at Plisio. With over 5 years of experience in the Web3 space, Mathis focuses on the evolution of NFT ecosystems, digital collectibles, and decentralized ownership models. He creates accessible, insight-driven content that bridges the gap between blockchain innovation and mainstream adoption. His expertise spans NFT market trends, use cases across art and gaming, and the infrastructure powering next-generation tokenized assets.