ElevenLabs: نگاهی به درون مولد صدای هوش مصنوعی ۱۱ میلیارد دلاری
شما ElevenLabs را شنیدهاید. فقط نمیدانستید. راوی یک ویدیوی توضیحی یوتیوب، دیالوگ دوبله شده در یک فیلم خارجی، صدای آن سوی خط پشتیبانی: بخش زیادی از این صدا اکنون تولید میشود و بخش زیادی از آن توسط شرکتی اجرا میشود که اکثر افراد خارج از حوزه فناوری نمیتوانند نام آن را بگویند. ElevenLabs صداهای هوش مصنوعی تولید میکند. در فوریه ۲۰۲۶، این شرکت با ارزش ۱۱ میلیارد دلار برای انجام دقیقاً همین کار، سرمایه جذب کرد. دو دوست لهستانی آن را در سال ۲۰۲۲ راهاندازی کردند و امروز مولد صدای هوش مصنوعی آن در داخل برنامههایی قرار دارد که بیش از یک میلیارد نفر از آن استفاده میکنند. پس واقعاً چه کاری انجام میدهد، هزینه آن به 2026 چقدر است، و چرا جمعیت ایمنی مدام خوابشان را از دست میدهند؟
کاری که ElevenLabs انجام میدهد: صداهای هوش مصنوعی و موارد دیگر
این شرکت کار خود را به عنوان یک ابزار تبدیل متن به گفتار ساده آغاز کرد. اکنون یک مجموعه کامل صوتی است و صداها تنها بخشی هستند که در ابتدا متوجه آنها میشوید. وسعت بقیه موارد، قیمت بالای آن را توجیه میکند. دو بنیانگذار از زوایای عجیبی به این مشکل پرداختند: پیوتر دابکوفسکی مهندس یادگیری ماشین در گوگل و ماتی استانیشوسکی استراتژیست در پالانتیر بود. ناامیدی مشترک آنها ساده بود. گفتار مصنوعی در آن زمان میتوانست کلمات را تلفظ کند اما نمیتوانست آنها را اجرا کند. آنها فکر کردند که اگر این مشکل را برطرف کنند، همه چیز به دنبال آن میآید. بیشتر آنچه شرکت ارائه میدهد هنوز از همان یک شرطبندی سرچشمه میگیرد.
تبدیل متن به گفتار و صداهای واقعی هوش مصنوعی
با هسته شروع کنید: متن نوشتاری را به صدای گفتاری تبدیل میکند. جدیدترین مدل، Eleven v3 ، در ژوئن 2025 عرضه شد. این دستگاه بیش از 70 زبان را میخواند و برچسبهای درونخطی مانند [زمزمه میکند] یا [میخندد] را دریافت میکند، بنابراین میتوانید خط به خط تحویل را هدایت کنید. در عوض به سرعت نیاز دارید؟ یک مدل سبکتر به نام Flash کمی ظرافت را برای خروجی تقریباً فوری جایگزین میکند، که برای برنامههای زنده مهم است. نتیجه واقعاً واقعی است. به همین دلیل است که سازندگان برای صداگذاری، پادکستها و روایت در ویدیوهای هوش مصنوعی به ElevenLabs مراجعه میکنند، جایی که یک خواندن رباتیک طلسم را میشکند.
چیزی که نسخه ۳ را متمایز میکند، کنترل است. موتورهای قدیمیتر همه چیز را با لحنی یکنواخت میخوانند. اما این یکی نه. اگر جملهای را برای زمزمه کردن، عجله کردن یا با آه گفتن علامتگذاری کنید، آن جمله شروع به اجرای واقعی میکند. اولین باری که آن را میشنوید و به یک جمله طعنهآمیز تبدیل میشود، کمی نگرانکننده است. نسخه قدیمیتر چندزبانه v2 هنوز ۲۹ زبان را پوشش میدهد و به طور پیشفرض برای روایت طولانی و پایدار باقی میماند، جایی که ثبات در محدوده اهمیت دارد.
شبیهسازی صدا، دوبله و صدای چندزبانه
دو ویژگی، آن را از روایت ساده فراتر میبرد. اولین ویژگی، شبیهسازی صدا است. یک نمونه کوتاه به آن بدهید و آن یک صدای خاص را کپی میکند، یا یک کپی سریع و فوری از حدود یک دقیقه صدا یا یک صدای حرفهایتر. ویژگی دوم، دوبله هوش مصنوعی است. یک ویدیوی تمامشده را به آن بدهید و آن کل آن را به زبان دیگری صداگذاری میکند، در حالی که لحن گوینده را حفظ میکند، بنابراین بومیسازی چندزبانه که قبلاً به معنای رزرو استودیو بود، به چند کلیک تبدیل میشود. همچنین یک کتابخانه صوتی مشترک وجود دارد که در آن کاربران صداها را منتشر میکنند و به یکدیگر مجوز میدهند.
کلون حرفهای همان چیزی است که استودیوها به آن اهمیت میدهند. به آن سی دقیقه صدای تمیز و بررسی رضایت بدهید. در عوض، ریتم و لهجهی اصلی را آنقدر دقیق ضبط میکند که صداپیشگان اکنون کلونهای خودشان را مجوز میدهند و هنگام خواب نسخهای از آن را دریافت میکنند. کلون فوری سریعتر و آزادتر است. برای یک نمونهی اولیهی سریع خوب است و به راحتی میتوان مصنوعی بودن آن را تشخیص داد.
کاتب، موسیقی هوش مصنوعی و عوامل مکالمه
این مجموعه در جهت مخالف نیز عمل میکند، از صدا به متن. Scribe مدل تبدیل گفتار به متن است. این مدل با برچسبهای گوینده و مهرهای زمانی رونویسی میکند و نسخه v2 آن ۹۹ زبان را مدیریت میکند و در عین حال با دقت تقریباً ۹۸٪ مشخص میکند چه کسی چه چیزی را گفته است. سپس Eleven Music وجود دارد که در سال ۲۰۲۵ اضافه شده است و آهنگهای پسزمینه پاکشده را در صورت تقاضا جدا میکند. عوامل هوش مصنوعی مکالمهای حتی فراتر میروند: تبدیل گفتار به متن، یک مدل زبانی و تبدیل متن به گفتار را به هم میچسبانند و یک ربات میتواند در یک جریان یکپارچه گوش دهد، در زمان واقعی پاسخ دهد و به یک انسان تحویل دهد. آن را با جلوههای صوتی و یک جداکننده صدا برای نجات ضبطهای پر سر و صدا تکمیل کنید.
اسکرایب جایی است که این پلتفرم عمق واقعی را نشان میدهد. این پلتفرم کاری بیش از نوشتن متن انجام میدهد. صداهای غیرگفتاری را برچسبگذاری میکند، مهرهای زمانی در سطح کلمه را علامتگذاری میکند و گویندگان همپوشانی را از هم جدا میکند، به همین دلیل است که پادکسترها و محققان برای تبدیل ضبطهای نامرتب به متن قابل جستجو و ویرایش به آن متکی هستند. و نسخه ۲ حدود ۴۰٪ ارزانتر از نسخه اول است. یک محصول هوش مصنوعی به طور همزمان بهتر و ارزانتر میشود؟ این اتفاق نادری است.

چگونه ElevenLabs به یک شرکت هوش مصنوعی ۱۱ میلیارد دلاری تبدیل شد
صفحات محصول، عجیبترین بخش ماجرا را نادیده میگیرند: پول. به بودجه نگاه کنید و رشد دیگر عادی به نظر نمیرسد. در اوایل سال ۲۰۲۵، ElevenLabs یک سرمایهگذاری سری C به ارزش ۱۸۰ میلیون دلار جذب کرد که ارزش آن را به ۳.۳ میلیارد دلار رساند، که Andreessen Horowitz و ICONIQ Growth به طور مشترک در صدر آن بودند. سیزده ماه بعد، Sequoia یک سرمایهگذاری سری D به ارزش ۵۰۰ میلیون دلار را رهبری کرد و قیمت به ۱۱ میلیارد دلار رسید. سه برابر، در عرض یک سال، برای یک شرکت.
درآمد، این اشتیاق را توضیح میدهد. ElevenLabs تا پایان سال ۲۰۲۵ از حدود ۳۳۰ میلیون دلار درآمد سالانهی مستمر عبور کرد. چیزی که باعث میشود سرمایهگذاران آرامش خود را از دست بدهند، سرعت است. بیست ماه برای رسیدن به ۱۰۰ میلیون دلار. سپس ۱۰ ماه برای دو برابر کردن آن. سپس فقط ۵ ماه برای رسیدن به ۳۳۰ میلیون دلار. هر دور کوتاهتر از دور قبل است. و طبق شمارش خود شرکت در ژانویه ۲۰۲۵، افراد در بیش از ۶۰٪ از شرکتهای Fortune 500 قبلاً این پلتفرم را لمس کرده بودند.
| گرد | تاریخ | مطرح شده | ارزشگذاری |
|---|---|---|---|
| سری ب | ژانویه ۲۰۲۴ | ۸۰ میلیون دلار | ۱.۱ میلیارد دلار |
| سری C | ژانویه ۲۰۲۵ | ۱۸۰ میلیون دلار | ۳.۳ میلیارد دلار |
| سری D | فوریه ۲۰۲۶ | ۵۰۰ میلیون دلار | ۱۱ میلیارد دلار |
در طول پنج دور، ElevenLabs تقریباً ۷۸۱ میلیون دلار جمعآوری کرده است و بنیانگذاران آن آشکارا در مورد عرضه اولیه سهام نهایی صحبت کردهاند. چیزی که سرمایهگذاران را متقاعد میکند، برنامه مصرفکننده نیست، بلکه زیرساخت زیرین آن است: هر شرکتی که به یک محصول صدا اضافه میکند، یک مشتری بالقوه است و بازار گفتار مصنوعی سه سال پیش به سختی وجود داشت. شرط این است که صدا به یک رابط پیشفرض تبدیل شود، همانطور که صفحه لمسی شد.
قیمتگذاری ElevenLabs: طرحهای رایگان و پولی
شما میتوانید بدون پرداخت هزینه از ElevenLabs استفاده کنید و طرح رایگان چیزی بیش از یک تبلیغ است. نسخههای پولی بیشتر اعتبار ماهانه بیشتری برای شما میخرند که هنگام تولید صدا خرج میشوند، نه اینکه ویژگیهای کاملاً متفاوتی را باز کنند. ساختار 2026 به این صورت است.
| طرح | قیمت / ماه | اعتبار ماهانه |
|---|---|---|
| رایگان | ۰ دلار | ۱۰۰۰۰ |
| استارتر | ۶ دلار | ۳۰۰۰۰ |
| خالق | ۲۲ دلار | ۱۲۱۰۰۰ |
| حرفهای | ۹۹ دلار | ۶۰۰۰۰۰ |
| مقیاس | ۲۹۹ دلار | ۱,۸۰۰,۰۰۰ |
| کسب و کار | ۹۹۰ دلار | ۶،۰۰۰،۰۰۰ |
اعتبارها تقریباً با حروف گفتار مطابقت دارند، بنابراین یک طرح رایگان ۱۰۰۰۰ اعتباری برای چند دقیقه صدا در ماه کافی است. طرح Creator با ۲۲ دلار نقطه شروع عملی برای هر کسی است که مرتباً منتشر میکند و حق استفاده تجاری در سطوح پولی اعمال میشود. توسعهدهندگان به جای هزینه ثابت ماهانه، از طریق API به ازای هر استفاده هزینه پرداخت میکنند.
بالاتر از سطح تجاری، یک سطح سفارشی سازمانی با پشتیبانی اختصاصی، محدودیتهای نرخ بالاتر و شرایط قراردادی مورد نیاز اکثر خریداران بزرگ قرار دارد. API بر اساس کاراکترهای تولید شده محاسبه میشود، بنابراین یک برنامه پربازدید به جای حدس زدن یک طرح از قبل، به نسبت استفاده پرداخت میکند. نکتهای که باید مراقب باشید - اعتبارها به ماه بعد منتقل نمیشوند، بنابراین یک ماه استفاده نشده، پولی است که روی میز باقی میماند.
چه کسی و برای چه چیزی از ElevenLabs استفاده میکند؟
کاربران جالب، افرادی نیستند که برای سرگرمی کلیپهای جدید میسازند؛ آنها کسبوکارهایی هستند که جایگزین زمان استودیو میشوند. ناشران کتاب صوتی، کل کاتالوگها را بدون رزرو بازیگر روایت میکنند. یوتیوبرها و سازندگان دورههای آموزشی، صداگذاری را به زبانی که خودشان صحبت نمیکنند، اضافه میکنند. استودیوهای بازی، شخصیتهای فرعی را در مقیاس بزرگ صداگذاری میکنند. برنامههای دسترسیپذیری، مقالات را از طریق برنامه ElevenReader با صدای بلند میخوانند. مراکز تماس، نمایندگان مکالمهای را راهاندازی میکنند که قبل از ورود انسان، به سؤالات معمول پاسخ میدهند. تیمهای محلیسازی، ویدیوهای آموزشی را برای کارکنان جهانی دوبله میکنند.
همین دسترسی دلیل ارزشگذاری پایدار است. این شرکت میگوید API آن، محصولاتی را پشتیبانی میکند که در مجموع به بیش از یک میلیارد کاربر، از جمله Meta، Epic Games و Salesforce، خدمات ارائه میدهند. برای اکثر این خریداران، ElevenLabs مانند یک لولهکشی است: زیرساخت صوتی نامرئی درون محصولی با نامی دیگر.
چند مثال، مقیاس را ملموستر میکند. اپلیکیشن ElevenReader مقالات، فایلهای PDF و کتابهای الکترونیکی را با صدای بلند و با صدای انتخابی شما میخواند، که به ابزاری برای دسترسی آسان افراد مبتلا به نارساخوانی یا کمبینایی تبدیل شده است. اتاقهای خبر، نسخههای صوتی داستانهای نوشته شده را به صورت خودکار تولید میکنند. توسعهدهندگان مستقل، به شخصیتهای غیربازیکن صداهای متمایزی میدهند که زمانی برای ضبط به بودجهای نیاز داشتند که در اختیار نداشتند. وجه مشترک همه این موارد، تولید صدا است که قبلاً به استودیو نیاز داشت، اما اکنون از یک جعبه متن بیرون میآید.
مشکل دیپفیک و امنیت صدای هوش مصنوعی
صداهایی به این خوبی، سلاح هم هستند. ElevenLabs این را به سختی آموخت. در ژانویه ۲۰۲۴، یک تماس رباتیک جعلی با صدای رئیس جمهور بایدن به رأیدهندگان نیوهمپشایر گفت که از شرکت در انتخابات مقدماتی صرف نظر کنند. البته این تماس واقعاً صدای خود او نبود. شرکت امنیتی Pindrop این کلیپ را پخش کرد، آن را تا ElevenLabs ردیابی کرد و از طبقهبندیکننده خود، تطابق ۸۴ درصدی را گزارش داد. این شرکت، حساب کاربری پشت آن را مسدود کرد.
آن ماجرا، سوال ایمنی را به روز روشن کشاند. ElevenLabs اکنون یک طبقهبندیکننده گفتار هوش مصنوعی را اجرا میکند که بررسی میکند آیا یک کلیپ از ابزارهای آن گرفته شده است یا خیر، شبیهسازی برخی از چهرههای عمومی پرخطر را مسدود میکند و قبل از شبیهسازی صدای حرفهای، تأیید هویت را درخواست میکند. آیا هیچکدام از اینها بهطور کامل کار میکنند؟ خیر. تشخیص همیشه با تأخیر در تولید انجام میشود و یک بازیگر بد مصمم میتواند به سراغ یک ارائهدهنده بینظمتر برود. بنابراین، برداشت صادقانه این است: این شرکت محافظهای واقعی را در اطراف ابزاری ساخته است که در اصل کاربرد دوگانه دارد و رقابت بین ساخت جعلیات و دستگیری آنها به هیچ وجه تمام نشده است.
نهادهای نظارتی متوجه این موضوع شدهاند. چندین ایالت آمریکا پس از حادثه بایدن، اقدام به محدود کردن تماسهای رباتیک تولید شده توسط هوش مصنوعی کردند و این شرکت به کار صنعتی در زمینه واترمارک صوتی پیوسته است، سیگنالهایی را جاسازی میکند که فشردهسازی را حفظ میکنند و به ردیابی یک کلیپ تا منبع آن کمک میکنند. منتقدان در پاسخ میگویند که میتوان واترمارکها را حذف کرد و اقدامات داوطلبانه جایگزین قانون نیستند. ElevenLabs در موقعیتی ناخوشایند اما صادقانه قرار دارد: توانمندترین ابزار در این دسته، بیشترین مسئولیت را برای نظارت بر آن بر عهده دارد.

ElevenLabs در مقایسه با سایر تولیدکنندههای صدای هوش مصنوعی
ElevenLabs به طور گسترده به عنوان تولیدکننده صدای هوش مصنوعی پیشرو در کیفیت شناخته میشود، اما این تنها گزینه نیست و همیشه هم گزینه درست نیست. انتخاب معمولاً به این بستگی دارد که چقدر واقعگرایی نیاز دارید در مقابل چقدر میخواهید هزینه کنید.
| ابزار | قدرت اصلی | بهترین برای |
|---|---|---|
| یازده آزمایشگاه | صداهای بسیار واقعی، بیش از ۷۰ زبان، رابط برنامهنویسی کاربردی (API) قوی | تولید صدا، دوبله |
| مورف | رابط کاربری ساده، هزینه کمتر | صداگذاری سریع برای کسب و کارها |
| بازی.ht | کتابخانه صوتی بزرگ | پادکستها و مطالب طولانی |
| اوپنایآی / آزور | همراه با سایر سرویسهای هوش مصنوعی | توسعهدهندگانی که از قبل در آن مجموعه هستند |
اگر اولویت شما بیشترین خروجی انسانی و پشتیبانی از زبانهای گسترده است، ElevenLabs رقیبی سرسخت است - من هنوز رقیبی ندیدهام که در یک زمینه واقعاً دشوار بتواند با نسخه ۳ رقابت کند. اگر ابزاری ارزان و ساده برای یک ویدیوی شرکتی گاه به گاه میخواهید، یک رقیب ممکن است با هزینه کمتر، خدمات بهتری به شما ارائه دهد.
چگونه با صداهای هوش مصنوعی ElevenLabs شروع کنیم؟
اولین کلیپ شما از مولد صدای هوش مصنوعی ElevenLabs حدود سه دقیقه طول میکشد، از ابتدا تا انتها. یک حساب کاربری رایگان ایجاد کنید. ابزار گفتار را باز کنید و یک صدا، یا از کتابخانه یا کلون خودتان، انتخاب کنید. متن خود را جایگذاری کنید، مدل و زبان را انتخاب کنید، روی تولید کلیک کنید. دوباره گوش دهید. اگر صدا خوب پخش نشد، اسلایدرهای پایداری و سبک را تغییر دهید و دوباره امتحان کنید، سپس MP3 را دانلود کنید. این کل حلقه است.
توسعهدهندگان از داشبورد صرفنظر میکنند و مستقیماً با یک کلید، API را فراخوانی میکنند، متن و شناسه صوتی را ارسال میکنند و صدا را دریافت میکنند. اینگونه است که آن برنامههای میلیارد کاربره، ElevenLabs را به محصولات خود متصل میکنند.
چرا ElevenLabs پیشرو در تولید صدای هوش مصنوعی است؟
ElevenLabs از یک پروژه جانبی رونویسی به یک پلتفرم ۱۱ میلیارد دلاری تبدیل شد که سریعتر از تقریباً هر شرکت نرمافزاری قبل از خود عمل میکند و صداها به اندازه کافی خوب هستند که بیشتر تبلیغات آن به دست آمده است. نسخه رایگان به هر کسی اجازه میدهد این ادعا را در عرض چند دقیقه آزمایش کند. اما همان واقعگرایی که مشتریان را جذب میکند، دقیقاً همان چیزی است که تنظیمکنندهها و محققان امنیتی را نگران میکند و تماس رباتیک بایدن آخرین حادثه نخواهد بود. این فناوری اینجاست و ماهانه در حال بهبود است. سوال بیپاسخ این است که آیا قوانین و ابزارهای تشخیص میتوانند با صداهایی که در حال حاضر اکثر شنوندگان را فریب میدهند، همگام شوند. مرز را کجا تعیین میکنید؟