ElevenLabs: نگاهی به درون مولد صدای هوش مصنوعی ۱۱ میلیارد دلاری

نوشته شده در Jun 22, 2026 نوشته شده توسط Mathis Curcio

شما ElevenLabs را شنیده‌اید. فقط نمی‌دانستید. راوی یک ویدیوی توضیحی یوتیوب، دیالوگ دوبله شده در یک فیلم خارجی، صدای آن سوی خط پشتیبانی: بخش زیادی از این صدا اکنون تولید می‌شود و بخش زیادی از آن توسط شرکتی اجرا می‌شود که اکثر افراد خارج از حوزه فناوری نمی‌توانند نام آن را بگویند. ElevenLabs صداهای هوش مصنوعی تولید می‌کند. در فوریه ۲۰۲۶، این شرکت با ارزش ۱۱ میلیارد دلار برای انجام دقیقاً همین کار، سرمایه جذب کرد. دو دوست لهستانی آن را در سال ۲۰۲۲ راه‌اندازی کردند و امروز مولد صدای هوش مصنوعی آن در داخل برنامه‌هایی قرار دارد که بیش از یک میلیارد نفر از آن استفاده می‌کنند. پس واقعاً چه کاری انجام می‌دهد، هزینه آن به 2026 چقدر است، و چرا جمعیت ایمنی مدام خوابشان را از دست می‌دهند؟

کاری که ElevenLabs انجام می‌دهد: صداهای هوش مصنوعی و موارد دیگر

این شرکت کار خود را به عنوان یک ابزار تبدیل متن به گفتار ساده آغاز کرد. اکنون یک مجموعه کامل صوتی است و صداها تنها بخشی هستند که در ابتدا متوجه آنها می‌شوید. وسعت بقیه موارد، قیمت بالای آن را توجیه می‌کند. دو بنیانگذار از زوایای عجیبی به این مشکل پرداختند: پیوتر دابکوفسکی مهندس یادگیری ماشین در گوگل و ماتی استانیشوسکی استراتژیست در پالانتیر بود. ناامیدی مشترک آنها ساده بود. گفتار مصنوعی در آن زمان می‌توانست کلمات را تلفظ کند اما نمی‌توانست آنها را اجرا کند. آنها فکر کردند که اگر این مشکل را برطرف کنند، همه چیز به دنبال آن می‌آید. بیشتر آنچه شرکت ارائه می‌دهد هنوز از همان یک شرط‌بندی سرچشمه می‌گیرد.

تبدیل متن به گفتار و صداهای واقعی هوش مصنوعی

با هسته شروع کنید: متن نوشتاری را به صدای گفتاری تبدیل می‌کند. جدیدترین مدل، Eleven v3 ، در ژوئن 2025 عرضه شد. این دستگاه بیش از 70 زبان را می‌خواند و برچسب‌های درون‌خطی مانند [زمزمه می‌کند] یا [می‌خندد] را دریافت می‌کند، بنابراین می‌توانید خط به خط تحویل را هدایت کنید. در عوض به سرعت نیاز دارید؟ یک مدل سبک‌تر به نام Flash کمی ظرافت را برای خروجی تقریباً فوری جایگزین می‌کند، که برای برنامه‌های زنده مهم است. نتیجه واقعاً واقعی است. به همین دلیل است که سازندگان برای صداگذاری، پادکست‌ها و روایت در ویدیوهای هوش مصنوعی به ElevenLabs مراجعه می‌کنند، جایی که یک خواندن رباتیک طلسم را می‌شکند.

چیزی که نسخه ۳ را متمایز می‌کند، کنترل است. موتورهای قدیمی‌تر همه چیز را با لحنی یکنواخت می‌خوانند. اما این یکی نه. اگر جمله‌ای را برای زمزمه کردن، عجله کردن یا با آه گفتن علامت‌گذاری کنید، آن جمله شروع به اجرای واقعی می‌کند. اولین باری که آن را می‌شنوید و به یک جمله طعنه‌آمیز تبدیل می‌شود، کمی نگران‌کننده است. نسخه قدیمی‌تر چندزبانه v2 هنوز ۲۹ زبان را پوشش می‌دهد و به طور پیش‌فرض برای روایت طولانی و پایدار باقی می‌ماند، جایی که ثبات در محدوده اهمیت دارد.

شبیه‌سازی صدا، دوبله و صدای چندزبانه

دو ویژگی، آن را از روایت ساده فراتر می‌برد. اولین ویژگی، شبیه‌سازی صدا است. یک نمونه کوتاه به آن بدهید و آن یک صدای خاص را کپی می‌کند، یا یک کپی سریع و فوری از حدود یک دقیقه صدا یا یک صدای حرفه‌ای‌تر. ویژگی دوم، دوبله هوش مصنوعی است. یک ویدیوی تمام‌شده را به آن بدهید و آن کل آن را به زبان دیگری صداگذاری می‌کند، در حالی که لحن گوینده را حفظ می‌کند، بنابراین بومی‌سازی چندزبانه که قبلاً به معنای رزرو استودیو بود، به چند کلیک تبدیل می‌شود. همچنین یک کتابخانه صوتی مشترک وجود دارد که در آن کاربران صداها را منتشر می‌کنند و به یکدیگر مجوز می‌دهند.

کلون حرفه‌ای همان چیزی است که استودیوها به آن اهمیت می‌دهند. به آن سی دقیقه صدای تمیز و بررسی رضایت بدهید. در عوض، ریتم و لهجه‌ی اصلی را آنقدر دقیق ضبط می‌کند که صداپیشگان اکنون کلون‌های خودشان را مجوز می‌دهند و هنگام خواب نسخه‌ای از آن را دریافت می‌کنند. کلون فوری سریع‌تر و آزادتر است. برای یک نمونه‌ی اولیه‌ی سریع خوب است و به راحتی می‌توان مصنوعی بودن آن را تشخیص داد.

کاتب، موسیقی هوش مصنوعی و عوامل مکالمه

این مجموعه در جهت مخالف نیز عمل می‌کند، از صدا به متن. Scribe مدل تبدیل گفتار به متن است. این مدل با برچسب‌های گوینده و مهرهای زمانی رونویسی می‌کند و نسخه v2 آن ۹۹ زبان را مدیریت می‌کند و در عین حال با دقت تقریباً ۹۸٪ مشخص می‌کند چه کسی چه چیزی را گفته است. سپس Eleven Music وجود دارد که در سال ۲۰۲۵ اضافه شده است و آهنگ‌های پس‌زمینه پاک‌شده را در صورت تقاضا جدا می‌کند. عوامل هوش مصنوعی مکالمه‌ای حتی فراتر می‌روند: تبدیل گفتار به متن، یک مدل زبانی و تبدیل متن به گفتار را به هم می‌چسبانند و یک ربات می‌تواند در یک جریان یکپارچه گوش دهد، در زمان واقعی پاسخ دهد و به یک انسان تحویل دهد. آن را با جلوه‌های صوتی و یک جداکننده صدا برای نجات ضبط‌های پر سر و صدا تکمیل کنید.

اسکرایب جایی است که این پلتفرم عمق واقعی را نشان می‌دهد. این پلتفرم کاری بیش از نوشتن متن انجام می‌دهد. صداهای غیرگفتاری را برچسب‌گذاری می‌کند، مهرهای زمانی در سطح کلمه را علامت‌گذاری می‌کند و گویندگان همپوشانی را از هم جدا می‌کند، به همین دلیل است که پادکسترها و محققان برای تبدیل ضبط‌های نامرتب به متن قابل جستجو و ویرایش به آن متکی هستند. و نسخه ۲ حدود ۴۰٪ ارزان‌تر از نسخه اول است. یک محصول هوش مصنوعی به طور همزمان بهتر و ارزان‌تر می‌شود؟ این اتفاق نادری است.

elevenlabs-ai

چگونه ElevenLabs به یک شرکت هوش مصنوعی ۱۱ میلیارد دلاری تبدیل شد

صفحات محصول، عجیب‌ترین بخش ماجرا را نادیده می‌گیرند: پول. به بودجه نگاه کنید و رشد دیگر عادی به نظر نمی‌رسد. در اوایل سال ۲۰۲۵، ElevenLabs یک سرمایه‌گذاری سری C به ارزش ۱۸۰ میلیون دلار جذب کرد که ارزش آن را به ۳.۳ میلیارد دلار رساند، که Andreessen Horowitz و ICONIQ Growth به طور مشترک در صدر آن بودند. سیزده ماه بعد، Sequoia یک سرمایه‌گذاری سری D به ارزش ۵۰۰ میلیون دلار را رهبری کرد و قیمت به ۱۱ میلیارد دلار رسید. سه برابر، در عرض یک سال، برای یک شرکت.

درآمد، این اشتیاق را توضیح می‌دهد. ElevenLabs تا پایان سال ۲۰۲۵ از حدود ۳۳۰ میلیون دلار درآمد سالانه‌ی مستمر عبور کرد. چیزی که باعث می‌شود سرمایه‌گذاران آرامش خود را از دست بدهند، سرعت است. بیست ماه برای رسیدن به ۱۰۰ میلیون دلار. سپس ۱۰ ماه برای دو برابر کردن آن. سپس فقط ۵ ماه برای رسیدن به ۳۳۰ میلیون دلار. هر دور کوتاه‌تر از دور قبل است. و طبق شمارش خود شرکت در ژانویه ۲۰۲۵، افراد در بیش از ۶۰٪ از شرکت‌های Fortune 500 قبلاً این پلتفرم را لمس کرده بودند.

گرد	تاریخ	مطرح شده	ارزش‌گذاری
سری ب	ژانویه ۲۰۲۴	۸۰ میلیون دلار	۱.۱ میلیارد دلار
سری C	ژانویه ۲۰۲۵	۱۸۰ میلیون دلار	۳.۳ میلیارد دلار
سری D	فوریه ۲۰۲۶	۵۰۰ میلیون دلار	۱۱ میلیارد دلار

در طول پنج دور، ElevenLabs تقریباً ۷۸۱ میلیون دلار جمع‌آوری کرده است و بنیانگذاران آن آشکارا در مورد عرضه اولیه سهام نهایی صحبت کرده‌اند. چیزی که سرمایه‌گذاران را متقاعد می‌کند، برنامه مصرف‌کننده نیست، بلکه زیرساخت زیرین آن است: هر شرکتی که به یک محصول صدا اضافه می‌کند، یک مشتری بالقوه است و بازار گفتار مصنوعی سه سال پیش به سختی وجود داشت. شرط این است که صدا به یک رابط پیش‌فرض تبدیل شود، همانطور که صفحه لمسی شد.

قیمت‌گذاری ElevenLabs: طرح‌های رایگان و پولی

شما می‌توانید بدون پرداخت هزینه از ElevenLabs استفاده کنید و طرح رایگان چیزی بیش از یک تبلیغ است. نسخه‌های پولی بیشتر اعتبار ماهانه بیشتری برای شما می‌خرند که هنگام تولید صدا خرج می‌شوند، نه اینکه ویژگی‌های کاملاً متفاوتی را باز کنند. ساختار 2026 به این صورت است.

طرح	قیمت / ماه	اعتبار ماهانه
رایگان	۰ دلار	۱۰۰۰۰
استارتر	۶ دلار	۳۰۰۰۰
خالق	۲۲ دلار	۱۲۱۰۰۰
حرفه‌ای	۹۹ دلار	۶۰۰۰۰۰
مقیاس	۲۹۹ دلار	۱,۸۰۰,۰۰۰
کسب و کار	۹۹۰ دلار	۶،۰۰۰،۰۰۰

اعتبارها تقریباً با حروف گفتار مطابقت دارند، بنابراین یک طرح رایگان ۱۰۰۰۰ اعتباری برای چند دقیقه صدا در ماه کافی است. طرح Creator با ۲۲ دلار نقطه شروع عملی برای هر کسی است که مرتباً منتشر می‌کند و حق استفاده تجاری در سطوح پولی اعمال می‌شود. توسعه‌دهندگان به جای هزینه ثابت ماهانه، از طریق API به ازای هر استفاده هزینه پرداخت می‌کنند.

بالاتر از سطح تجاری، یک سطح سفارشی سازمانی با پشتیبانی اختصاصی، محدودیت‌های نرخ بالاتر و شرایط قراردادی مورد نیاز اکثر خریداران بزرگ قرار دارد. API بر اساس کاراکترهای تولید شده محاسبه می‌شود، بنابراین یک برنامه پربازدید به جای حدس زدن یک طرح از قبل، به نسبت استفاده پرداخت می‌کند. نکته‌ای که باید مراقب باشید - اعتبارها به ماه بعد منتقل نمی‌شوند، بنابراین یک ماه استفاده نشده، پولی است که روی میز باقی می‌ماند.

چه کسی و برای چه چیزی از ElevenLabs استفاده می‌کند؟

کاربران جالب، افرادی نیستند که برای سرگرمی کلیپ‌های جدید می‌سازند؛ آنها کسب‌وکارهایی هستند که جایگزین زمان استودیو می‌شوند. ناشران کتاب صوتی، کل کاتالوگ‌ها را بدون رزرو بازیگر روایت می‌کنند. یوتیوبرها و سازندگان دوره‌های آموزشی، صداگذاری را به زبانی که خودشان صحبت نمی‌کنند، اضافه می‌کنند. استودیوهای بازی، شخصیت‌های فرعی را در مقیاس بزرگ صداگذاری می‌کنند. برنامه‌های دسترسی‌پذیری، مقالات را از طریق برنامه ElevenReader با صدای بلند می‌خوانند. مراکز تماس، نمایندگان مکالمه‌ای را راه‌اندازی می‌کنند که قبل از ورود انسان، به سؤالات معمول پاسخ می‌دهند. تیم‌های محلی‌سازی، ویدیوهای آموزشی را برای کارکنان جهانی دوبله می‌کنند.

همین دسترسی دلیل ارزش‌گذاری پایدار است. این شرکت می‌گوید API آن، محصولاتی را پشتیبانی می‌کند که در مجموع به بیش از یک میلیارد کاربر، از جمله Meta، Epic Games و Salesforce، خدمات ارائه می‌دهند. برای اکثر این خریداران، ElevenLabs مانند یک لوله‌کشی است: زیرساخت صوتی نامرئی درون محصولی با نامی دیگر.

چند مثال، مقیاس را ملموس‌تر می‌کند. اپلیکیشن ElevenReader مقالات، فایل‌های PDF و کتاب‌های الکترونیکی را با صدای بلند و با صدای انتخابی شما می‌خواند، که به ابزاری برای دسترسی آسان افراد مبتلا به نارساخوانی یا کم‌بینایی تبدیل شده است. اتاق‌های خبر، نسخه‌های صوتی داستان‌های نوشته شده را به صورت خودکار تولید می‌کنند. توسعه‌دهندگان مستقل، به شخصیت‌های غیربازیکن صداهای متمایزی می‌دهند که زمانی برای ضبط به بودجه‌ای نیاز داشتند که در اختیار نداشتند. وجه مشترک همه این موارد، تولید صدا است که قبلاً به استودیو نیاز داشت، اما اکنون از یک جعبه متن بیرون می‌آید.

مشکل دیپ‌فیک و امنیت صدای هوش مصنوعی

صداهایی به این خوبی، سلاح هم هستند. ElevenLabs این را به سختی آموخت. در ژانویه ۲۰۲۴، یک تماس رباتیک جعلی با صدای رئیس جمهور بایدن به رأی‌دهندگان نیوهمپشایر گفت که از شرکت در انتخابات مقدماتی صرف نظر کنند. البته این تماس واقعاً صدای خود او نبود. شرکت امنیتی Pindrop این کلیپ را پخش کرد، آن را تا ElevenLabs ردیابی کرد و از طبقه‌بندی‌کننده خود، تطابق ۸۴ درصدی را گزارش داد. این شرکت، حساب کاربری پشت آن را مسدود کرد.

آن ماجرا، سوال ایمنی را به روز روشن کشاند. ElevenLabs اکنون یک طبقه‌بندی‌کننده گفتار هوش مصنوعی را اجرا می‌کند که بررسی می‌کند آیا یک کلیپ از ابزارهای آن گرفته شده است یا خیر، شبیه‌سازی برخی از چهره‌های عمومی پرخطر را مسدود می‌کند و قبل از شبیه‌سازی صدای حرفه‌ای، تأیید هویت را درخواست می‌کند. آیا هیچ‌کدام از این‌ها به‌طور کامل کار می‌کنند؟ خیر. تشخیص همیشه با تأخیر در تولید انجام می‌شود و یک بازیگر بد مصمم می‌تواند به سراغ یک ارائه‌دهنده بی‌نظم‌تر برود. بنابراین، برداشت صادقانه این است: این شرکت محافظ‌های واقعی را در اطراف ابزاری ساخته است که در اصل کاربرد دوگانه دارد و رقابت بین ساخت جعلیات و دستگیری آن‌ها به هیچ وجه تمام نشده است.

نهادهای نظارتی متوجه این موضوع شده‌اند. چندین ایالت آمریکا پس از حادثه بایدن، اقدام به محدود کردن تماس‌های رباتیک تولید شده توسط هوش مصنوعی کردند و این شرکت به کار صنعتی در زمینه واترمارک صوتی پیوسته است، سیگنال‌هایی را جاسازی می‌کند که فشرده‌سازی را حفظ می‌کنند و به ردیابی یک کلیپ تا منبع آن کمک می‌کنند. منتقدان در پاسخ می‌گویند که می‌توان واترمارک‌ها را حذف کرد و اقدامات داوطلبانه جایگزین قانون نیستند. ElevenLabs در موقعیتی ناخوشایند اما صادقانه قرار دارد: توانمندترین ابزار در این دسته، بیشترین مسئولیت را برای نظارت بر آن بر عهده دارد.

elevenlabs-ai

ElevenLabs در مقایسه با سایر تولیدکننده‌های صدای هوش مصنوعی

ElevenLabs به طور گسترده به عنوان تولیدکننده صدای هوش مصنوعی پیشرو در کیفیت شناخته می‌شود، اما این تنها گزینه نیست و همیشه هم گزینه درست نیست. انتخاب معمولاً به این بستگی دارد که چقدر واقع‌گرایی نیاز دارید در مقابل چقدر می‌خواهید هزینه کنید.

ابزار	قدرت اصلی	بهترین برای
یازده آزمایشگاه	صداهای بسیار واقعی، بیش از ۷۰ زبان، رابط برنامه‌نویسی کاربردی (API) قوی	تولید صدا، دوبله
مورف	رابط کاربری ساده، هزینه کمتر	صداگذاری سریع برای کسب و کارها
بازی.ht	کتابخانه صوتی بزرگ	پادکست‌ها و مطالب طولانی
اوپن‌ای‌آی / آزور	همراه با سایر سرویس‌های هوش مصنوعی	توسعه‌دهندگانی که از قبل در آن مجموعه هستند

اگر اولویت شما بیشترین خروجی انسانی و پشتیبانی از زبان‌های گسترده است، ElevenLabs رقیبی سرسخت است - من هنوز رقیبی ندیده‌ام که در یک زمینه واقعاً دشوار بتواند با نسخه ۳ رقابت کند. اگر ابزاری ارزان و ساده برای یک ویدیوی شرکتی گاه به گاه می‌خواهید، یک رقیب ممکن است با هزینه کمتر، خدمات بهتری به شما ارائه دهد.

چگونه با صداهای هوش مصنوعی ElevenLabs شروع کنیم؟

اولین کلیپ شما از مولد صدای هوش مصنوعی ElevenLabs حدود سه دقیقه طول می‌کشد، از ابتدا تا انتها. یک حساب کاربری رایگان ایجاد کنید. ابزار گفتار را باز کنید و یک صدا، یا از کتابخانه یا کلون خودتان، انتخاب کنید. متن خود را جای‌گذاری کنید، مدل و زبان را انتخاب کنید، روی تولید کلیک کنید. دوباره گوش دهید. اگر صدا خوب پخش نشد، اسلایدرهای پایداری و سبک را تغییر دهید و دوباره امتحان کنید، سپس MP3 را دانلود کنید. این کل حلقه است.

توسعه‌دهندگان از داشبورد صرف‌نظر می‌کنند و مستقیماً با یک کلید، API را فراخوانی می‌کنند، متن و شناسه صوتی را ارسال می‌کنند و صدا را دریافت می‌کنند. اینگونه است که آن برنامه‌های میلیارد کاربره، ElevenLabs را به محصولات خود متصل می‌کنند.

چرا ElevenLabs پیشرو در تولید صدای هوش مصنوعی است؟

ElevenLabs از یک پروژه جانبی رونویسی به یک پلتفرم ۱۱ میلیارد دلاری تبدیل شد که سریع‌تر از تقریباً هر شرکت نرم‌افزاری قبل از خود عمل می‌کند و صداها به اندازه کافی خوب هستند که بیشتر تبلیغات آن به دست آمده است. نسخه رایگان به هر کسی اجازه می‌دهد این ادعا را در عرض چند دقیقه آزمایش کند. اما همان واقع‌گرایی که مشتریان را جذب می‌کند، دقیقاً همان چیزی است که تنظیم‌کننده‌ها و محققان امنیتی را نگران می‌کند و تماس رباتیک بایدن آخرین حادثه نخواهد بود. این فناوری اینجاست و ماهانه در حال بهبود است. سوال بی‌پاسخ این است که آیا قوانین و ابزارهای تشخیص می‌توانند با صداهایی که در حال حاضر اکثر شنوندگان را فریب می‌دهند، همگام شوند. مرز را کجا تعیین می‌کنید؟

Mathis Curcio

Mathis Curcio is a senior content strategist and NFT specialist at Plisio. With over 5 years of experience in the Web3 space, Mathis focuses on the evolution of NFT ecosystems, digital collectibles, and decentralized ownership models. He creates accessible, insight-driven content that bridges the gap between blockchain innovation and mainstream adoption. His expertise spans NFT market trends, use cases across art and gaming, and the infrastructure powering next-generation tokenized assets.