ElevenLabs：110億ドル規模のAI音声生成器の内幕

投稿日時 Jun 22, 2026 執筆者 Mathis Curcio

ElevenLabs という名前は、ご存知ないかもしれませんが、きっと耳にしたことがあるはずです。YouTube の解説動画のナレーター、外国映画の吹き替え音声、サポートラインの相手の声など、こうした音声の多くは現在生成されており、その多くは、テクノロジー業界以外のほとんどの人が名前を知らないような会社によって稼働しています。ElevenLabs は AI 音声を制作しています。2026 年 2 月、まさにその事業のために 110 億ドルの評価額で資金調達を行いました。ポーランド出身の 2 人の友人が 2022 年に創業し、現在ではその AI 音声生成器は 10 億人以上が利用するアプリに搭載されています。では、ElevenLabs は実際には何をしているのか、2026 の費用はいくらなのか、そしてなぜ安全を重視する人々がこの会社を心配し続けているのか、といった疑問が残ります。

ElevenLabsの事業内容：AI音声など

当初はシンプルなテキスト読み上げツールとして始まった。今ではフル機能のオーディオスタックとなり、音声は最初に目につく部分でしかない。価格に見合うだけのその他の機能の充実度こそが、その価値を証明している。2人の創業者は、それぞれ異なるアプローチでこの問題に取り組んだ。ピョートル・ダブコフスキはGoogleの機械学習エンジニア、マティ・スタニシェフスキはPalantirのストラテジストだった。彼らが抱えていた共通の不満は単純だった。当時の合成音声は単語を発音することはできても、それを演じることができなかった。彼らは、それを解決すれば、他のすべては自然とついてくると考えた。同社が現在提供している製品のほとんどは、この一つの賭けから生まれたものだ。

テキスト読み上げとリアルなAI音声

まずはコア機能から見ていきましょう。これは、書かれたテキストを音声に変換するものです。最新モデルのEleven v3は2025年6月に出荷されました。70以上の言語に対応し、[ささやき声]や[笑い声]といったインラインタグも使用できるため、一行ずつ音声の読み上げ方を指示できます。スピードがもっと必要なら、Flashと呼ばれる軽量モデルがおすすめです。Flashは若干の洗練度を犠牲にしてほぼ瞬時に出力できるため、ライブアプリなどに最適です。その結果はまさに生の声のようです。だからこそ、クリエイターはナレーション、ポッドキャスト、AIビデオのナレーションにElevenLabsを選ぶのです。ロボットのような読み上げでは、せっかくの雰囲気が台無しになってしまうからです。

v3の際立った特徴は、その制御性です。旧バージョンのエンジンはすべて同じ単調なトーンで読み上げますが、このバージョンは違います。文章をささやくように、早口で、あるいはため息をつきながら読むように指定すると、テキストのブロックごとに実際のパフォーマンスが始まります。皮肉なセリフを初めて聞いたときは、少し戸惑うかもしれません。旧バージョンのMultilingual v2は29言語に対応しており、一貫性が言語範囲よりも重要な、長くて安定したナレーションのデフォルトとして引き続き使用されています。

音声クローン、吹き替え、多言語オーディオ

2つの機能が、このサービスを単なるナレーションの域を超えさせています。1つ目は音声クローン機能です。短いサンプル音声を入力すると、特定の音声をコピーします。約1分間の音声から瞬時にクローンを作成することも、より鮮明でプロフェッショナルな音声を作成することもできます。2つ目はAI吹き替え機能です。完成した動画を渡すと、話者のトーンを維持したまま、動画全体を別の言語で吹き替えます。そのため、かつてはスタジオ予約が必要だった多言語ローカライズが、数クリックで完了します。さらに、ユーザー同士が音声を公開・ライセンス供与できる共有音声ライブラリも用意されています。

スタジオが重視するのは、プロ仕様のクローンです。30分間のクリアな音声と同意確認を与えれば、オリジナルの抑揚やアクセントを忠実に再現します。そのため、声優は自分のクローンをライセンス供与し、寝ている間にも報酬を受け取ることができるほどです。一方、インスタントクローンはより速く、より粗雑です。手軽なプロトタイプには適していますが、合成音声であることがすぐに分かります。

筆記者、AI音楽、対話型エージェント

このスイートは、音声からテキストへの逆方向の処理にも対応しています。Scribeは音声認識モデルです。話者ラベルとタイムスタンプ付きで文字起こしを行い、バージョン2では99言語に対応し、誰が何を言ったかを約98%の精度でタグ付けします。さらに、2025年に追加されたEleven Musicは、リクエストに応じてクリアされたバックグラウンドトラックを出力します。会話型AIエージェントはさらに進化し、音声認識、言語モデル、テキスト音声合成を組み合わせることで、ボットがリアルタイムで聞き取り、応答し、人間に引き継ぐというシームレスな流れを実現します。効果音や、ノイズの多い録音を修復するための音声分離機能も備えています。

Scribeこそ、このプラットフォームの真価が発揮される部分です。単に文字起こしを出力するだけでなく、非音声をタグ付けし、単語レベルのタイムスタンプをマークし、重なり合う話者を分離します。そのため、ポッドキャスターや研究者は、乱雑な録音を検索・編集可能なテキストに変換するためにScribeを頼りにしています。しかも、v2は初代リリースよりも約40%も安価です。AI製品が性能向上と価格低下を同時に実現するなんて、滅多にないことです。

elevenlabs-ai

ElevenLabsはいかにして110億ドル規模のAI企業になったのか

製品ページでは最も驚くべき部分、つまり資金については触れられていない。資金調達の状況を見てみると、その成長ぶりはもはや常識では言い表せない。2025年初頭、ElevenLabsはAndreessen HorowitzとICONIQ Growthが共同で主導するシリーズCラウンドで1億8000万ドルを調達し、企業価値は33億ドルに達した。それから13か月後、Sequoiaが主導するシリーズDラウンドで5億ドルを調達し、企業価値は110億ドルに達した。同じ会社がわずか1年で3倍に成長したのだ。

収益を見れば、その需要の高さがわかる。ElevenLabsは2025年末までに年間経常収益が約3億3000万ドルに達した。投資家が冷静さを失うのは、その成長スピードだ。1億ドルに達するまで20ヶ月、その倍増まで10ヶ月、そして3億3000万ドルに達するまでわずか5ヶ月。毎回、前回よりも短い期間で達成している。さらに、同社が2025年1月に発表したデータによると、Fortune 500企業の60%以上が既にこのプラットフォームを利用しているという。

ラウンド	日付	育てた	評価
シリーズB	2024年1月	8000万ドル	11億ドル
シリーズC	2025年1月	1億8000万ドル	33億ドル
シリーズD	2026年2月	5億ドル	110億ドル

ElevenLabsは5回の資金調達ラウンドを通じて約7億8100万ドルを調達しており、創業者たちは将来的なIPOについても公然と語っている。投資家を納得させているのは、消費者向けアプリそのものではなく、その基盤となるインフラだ。製品に音声機能を追加する企業はすべて潜在的な顧客であり、合成音声市場はわずか3年前にはほとんど存在しなかった。彼らの狙いは、タッチスクリーンがそうであったように、音声がデフォルトのインターフェースとなることだ。

ElevenLabsの料金プラン：無料プランと有料プラン

ElevenLabsは無料で利用でき、無料プランは単なるお試し版ではありません。有料プランでは、主に月間クレジットが増え、オーディオを生成する際に消費されます。全く異なる機能がアンロックされるわけではありません。以下は2026の構造です。

プラン	月額料金	月間クレジット
無料	0ドル	10,000
スターター	6ドル	30,000
クリエイター	22ドル	121,000
プロ	99ドル	60万
規模	299ドル	1,800,000
仕事	990ドル	6,000,000

クレジットはおおよそ音声の文字数に相当するため、10,000クレジットの無料プランは、月に数分の音声コンテンツには十分です。定期的にコンテンツを公開するユーザーにとって、22ドルのクリエイタープランは実用的な出発点となります。有料プランでは商用利用権が付与されます。開発者は、月額固定料金ではなく、APIを通じて利用ごとに料金を支払います。

ビジネスプランの上には、専用サポート、より高い利用限度額、そして大口顧客が求める契約条件を備えた、カスタマイズされたエンタープライズプランが用意されています。APIは生成された文字数に基づいて課金されるため、トラフィック量の多いアプリは、事前にプランを推測するのではなく、使用量に応じて料金を支払うことになります。ただし、注意すべき点として、クレジットは繰り越されないため、未使用の月は料金を無駄にすることになります。

ElevenLabsは誰が、どのような目的で利用しているのか

興味深いユーザーは、趣味で面白い動画を作っている人たちではなく、スタジオの時間を代替する企業です。オーディオブック出版社は、俳優を雇わずにカタログ全体を朗読します。YouTuberやコース制作者は、話せない言語でナレーションを追加します。ゲームスタジオは、多数の脇役の声を録音します。アクセシビリティアプリは、ElevenReaderアプリを通じて記事を読み上げます。コールセンターは、人間が対応する前に定型的な質問に答える対話型エージェントを運用します。ローカライズチームは、世界中のスタッフ向けにトレーニングビデオを吹き替えます。

その影響力の大きさが、同社の評価額が維持されている理由だ。同社によれば、同社のAPIは、Meta、Epic Games、Salesforceといった顧客を含む、合計で10億人以上のユーザーにサービスを提供する製品を支えているという。これらの顧客のほとんどにとって、ElevenLabsはいわば配管のようなものだ。つまり、別の名前で販売されている製品の中に、目に見えないオーディオインフラが組み込まれているということだ。

いくつかの例を挙げると、その規模がより明確になる。ElevenReaderアプリは、選択した音声で記事、PDF、電子書籍を読み上げてくれる。これは、失読症や視覚障害のある人にとって、真に役立つアクセシビリティツールとなっている。報道機関は、記事の音声版を自動生成している。インディーズ開発者は、かつては録音予算が必要だったノンプレイヤーキャラクターに、それぞれ個性的な声を与えることができるようになった。共通しているのは、かつてはスタジオが必要だった制作音声が、今ではテキストボックスから簡単に得られるようになったということだ。

ディープフェイク問題とAI音声の安全性

これほどリアルな声は、武器にもなり得る。ElevenLabsはそれを痛いほど思い知らされた。2024年1月、バイデン大統領の声を模した偽の自動音声電話が、ニューハンプシャー州の有権者に予備選挙を棄権するよう呼びかけた。もちろん、本物のバイデン大統領の声ではなかった。セキュリティ企業のPindropがこの音声クリップを解析し、ElevenLabsにたどり着き、同社の分類器で84%の一致率を報告した。ElevenLabsはこの音声の発信元アカウントを停止した。

この一件で、安全性の問題が白日の下に晒された。ElevenLabsは現在、音声クリップが自社ツールから生成されたものかどうかをチェックし、特定のリスクの高い著名人のクローン作成をブロックし、プロの声のクローン作成前に本人確認を要求するAI音声分類器を運用している。しかし、これらの対策は完全に機能しているのだろうか？答えはノーだ。検出は常に生成に遅れをとるし、悪意のある人物はもっとずさんなプロバイダーに乗り換えるだけだ。つまり、正直に言えば、同社は本質的にデュアルユースであるツールに真の安全対策を講じたが、偽造と偽造の摘発をめぐる戦いは、まだまだ終わっていないということだ。

規制当局もこの動きに注目している。バイデン氏の件を受けて、米国のいくつかの州はAIによる自動音声電話の規制に乗り出し、同社は圧縮後も残る信号を埋め込む音声透かし技術に関する業界の取り組みに参加し、音声クリップの発信元を特定できるようにした。しかし、批評家たちは透かしは除去可能であり、自主的な対策は法律の代わりにはならないと反論している。ElevenLabsは、この分野で最も優れたツールを持つ企業として、その規制に対する最大の責任を負っているという、厄介ながらも正直な立場に置かれている。

elevenlabs-ai

ElevenLabsと他のAI音声生成器との比較

ElevenLabsは、品質面でトップクラスのAI音声生成ツールとして広く認知されていますが、唯一の選択肢ではなく、常に最適な選択肢とは限りません。最終的な選択は、必要なリアリティのレベルと、予算の上限によって決まることが多いでしょう。

道具	主な強み	最適
イレブンラボ	最もリアルな音声、70以上の言語、強力なAPI	制作音声、吹き替え
マーフ	シンプルなインターフェース、低コスト	手軽なビジネスナレーション
Play.ht	大規模なストック音声ライブラリ	ポッドキャストと長編
OpenAI / Azure	他のAIサービスとセットで提供される	既にそのスタックを使用している開発者

最も人間らしい出力と幅広い言語サポートを最優先事項とするなら、ElevenLabsに勝るものはないでしょう。本当に難しい回線でv3に匹敵する競合製品はまだ聞いたことがありません。時折企業ビデオを作成するための安価でシンプルなツールをお探しなら、競合製品の方がより低価格で優れた選択肢となるかもしれません。

ElevenLabsのAI音声の使い方

ElevenLabs AI音声ジェネレーターで最初の音声クリップを作成するのにかかる時間は、最初から最後まで約3分です。無料アカウントを作成してください。音声ツールを開き、ライブラリから、または自分で作成した音声を選択します。テキストを貼り付け、モデルと言語を選択し、「生成」をクリックします。再生してみてください。音声が不自然に感じられる場合は、安定性とスタイルのスライダーを微調整して再度試してから、MP3ファイルをダウンロードしてください。これが一連の手順です。

開発者はダッシュボードを経由せず、キーを使ってAPIを直接呼び出し、テキストと音声IDを渡すことで音声データを受け取ります。このようにして、数十億人のユーザーを抱えるアプリはElevenLabsを自社製品に組み込んでいるのです。

ElevenLabsがAI音声生成をリードする理由

ElevenLabsは、サイドプロジェクトだった音声認識から、それまでのどのソフトウェア企業よりも速いスピードで110億ドル規模のプラットフォームへと成長しました。その音声のクオリティは高く、その評判はほぼ正当なものです。無料プランでは、誰でも数分でその性能を試すことができます。しかし、顧客を惹きつけるそのリアルさこそが、規制当局やセキュリティ研究者の懸念材料であり、バイデン氏の自動音声電話は最後の事例にはならないでしょう。技術は既に存在し、毎月のように進化しています。問題は、規制や検出ツールが、既にほとんどのリスナーを欺いている音声に追いつけるかどうかです。あなたならどこで線引きをしますか？

Mathis Curcio

Mathis Curcio is a senior content strategist and NFT specialist at Plisio. With over 5 years of experience in the Web3 space, Mathis focuses on the evolution of NFT ecosystems, digital collectibles, and decentralized ownership models. He creates accessible, insight-driven content that bridges the gap between blockchain innovation and mainstream adoption. His expertise spans NFT market trends, use cases across art and gaming, and the infrastructure powering next-generation tokenized assets.