هوش مصنوعی Sora: توضیح مدل تبدیل متن به ویدیو OpenAI

هوش مصنوعی Sora: توضیح مدل تبدیل متن به ویدیو OpenAI

حدود یک ماه، Sora AI پردانلودترین اپلیکیشن در ایالات متحده بود. سپس OpenAI آن را غیرفعال کرد. اپلیکیشنی که به هر کسی اجازه می‌داد یک جمله تایپ کند و یک دقیقه ویدیوی سینمایی همگام‌سازی‌شده دریافت کند، در رتبه اول قرار گرفت، سیلی از دیپ‌فیک‌های سلبریتی‌ها و کپی‌های استودیو جیبلی را به خود جلب کرد و سپس بی‌سروصدا در آوریل ۲۰۲۶ تعطیل شد. مردم مدام این سوال واضح را می‌پرسیدند: چطور چیزی که اینقدر محبوب است، ناگهان ناپدید می‌شود؟

پاسخ کوتاه، پول است. پاسخ طولانی‌تر مفیدتر است، به‌خصوص اگر برای ابزارهای هوش مصنوعی هزینه کنید یا آنها را بفروشید. ارزش Sora AI هرگز در فید اجتماعی رایگان خلاصه نمی‌شود. در محاسباتی که هر ثانیه برای تولید ویدیو اجاره می‌کنید، خلاصه می‌شود. این تمایز کل داستان است و به جایی می‌رسد که اکثر نوشته‌ها از آن صرف‌نظر می‌کنند: اینکه مردم واقعاً چگونه برای این چیزها هزینه می‌کنند و چرا سیستم پرداخت به اندازه مدل اهمیت پیدا کرده است.

هوش مصنوعی Sora چیست و مدل ویدیویی چگونه کار می‌کند؟

Sora AI یک مدل تبدیل متن به ویدیو است که توسط OpenAI ساخته شده است. شما یک متن به آن می‌دهید و مدل تولید ویدیو یک کلیپ کوتاه برمی‌گرداند. این کل ایده پشت تولید ویدیوی هوش مصنوعی است. در زیر کاپوت آن یک مبدل انتشار وجود دارد، همان خانواده گسترده‌ای که ابزارهای مدرن تصویر هوش مصنوعی را پشتیبانی می‌کند، اما به جای آن بر اساس ویدیو و زمان آموزش دیده است.

OpenAI در فوریه ۲۰۲۴ با تعداد انگشت‌شماری کلیپ نمایشی، پیش‌نمایشی از Sora ارائه داد و سپس در دسامبر ۲۰۲۴ اولین نسخه را در ChatGPT منتشر کرد. Sora در ابتدا کلیپ‌هایی با طول تقریباً یک دقیقه تولید می‌کرد و به طرز عجیبی، بدون اینکه به طور صریح به او آموزش داده شود، حس تقریبی از فضای سه‌بعدی و حرکت دوربین را درک می‌کرد. هیچ‌کس پارالکس را در آن برنامه‌نویسی نکرده بود. این سیستم با تماشای نمونه‌های کافی یاد گرفت که حرکت دوربین، آنچه را که می‌بینید - روشی که یک کودک آن را یاد می‌گیرد - تغییر می‌دهد.

به همین دلیل است که خروجی ناهموار بود. مدل می‌توانست یک صحنه خیابانی باورپذیر را رندر کند و سپس شخصی را نشان دهد که از دیوار عبور می‌کند، زیرا هرگز فیزیک را به عنوان قوانین یاد نگرفته بود، بلکه فقط به عنوان الگوها. یادآوری این نکته مفید است که چه زمانی یک کلیپ بی‌عیب و نقص به نظر می‌رسد: این چیز هیچ ایده‌ای از جاذبه ندارد.

سورا-آی

نحوه ساخت ویدیوهای هوش مصنوعی با Sora 2

نسخه‌ای که به سرعت همه‌گیر شد، Sora 2 بود که در 30 سپتامبر 2025، همراه با اپلیکیشن iOS منتشر شد. این جهش واقعی بود و ارزش دیدن دارد که خلق کردن با آن واقعاً چه شکلی بود.

صدا، فیزیک و نماهای سینمایی همگام‌سازی شده

در Sora 2 صدا اضافه شد. دیالوگ‌ها، قدم‌ها و نویز پس‌زمینه حالا به جای یک کلیپ صامت که باید خودتان موسیقی متن آن را می‌ساختید، با تصویر هماهنگ می‌شدند. حرکت واقع‌گرایانه، ارتقای قابل مشاهده بود، بنابراین اشیاء به شکلی برخورد می‌کردند و می‌افتادند که تقریباً ثابت می‌ماندند. این مدل همچنین می‌توانست چندین زاویه دوربین را در یک نسل به هم متصل کند و به کلیپ‌های کوتاه، حس سینمایی بدهد که نسخه اول فاقد آن بود. این تفاوت بین یک کارت پستال متحرک و چیزی بود که مانند یک فیلم کوتاه خوانده می‌شود.

حضور افتخاری، ریمیکس و تدوین

ویژگی اجتماعی اصلی، قابلیت «کمئو» بود: یک بار از خودتان فیلم بگیرید، سپس تصویر خودتان را در هر صحنه‌ی تولید شده قرار دهید. این، بیش از کیفیت خام، چیزی بود که باعث گسترش این برنامه شد. علاوه بر آن، یک کیت ویرایش کوچک نیز وجود داشت. Remix به شما امکان می‌داد یک کلیپ موجود را با یک دستور جدید تنظیم کنید. Recut یک بخش واحد را بازسازی می‌کرد. Loop یک کلیپ را به یک تکرار تمیز تبدیل می‌کرد و Blend دو ویدیو را با هم ادغام می‌کرد. هیچ‌کدام از این‌ها نیازی به مهارت‌های ویرایش نداشت، که نکته‌ی اصلی همین بود.

نوشتن یک سوال: تبدیل متن و تصویر به ویدیو

رسیدن به نتیجه خوب به متن کوتاه بستگی داشت. این مدل به جزئیات پاداش می‌دهد. عبارت «یک سگ» به شما نویز می‌دهد. عبارت «یک سگ گلدن رتریور خیس که با حرکت آهسته آب را از خود می‌تکاند، با نور خورشید اواخر بعد از ظهر، با لنز ۵۰ میلی‌متری» چیزی قابل استفاده به شما می‌دهد. سوژه، حرکت، نور و دوربین را توصیف کنید. همچنین می‌توانید یک تصویر آپلود کنید و از سورا بخواهید آن را متحرک کند، یک تصویر به حالت ویدیو که یک تصویر ثابت را به چند ثانیه حرکت تبدیل می‌کرد، که آن را به نوعی مولد تصویر متحرک تبدیل می‌کرد. بیشتر مهارت، یادگیری نوشتن متن‌های کوتاه به روشی بود که یک کارگردان یادداشت‌های صحنه را می‌نویسد.

به طور پیش‌فرض، هر کلیپ دارای یک واترمارک قابل مشاهده و فراداده C2PA بود که آن را به عنوان تولید شده توسط هوش مصنوعی مشخص می‌کرد. هر دو بعداً اهمیت پیدا کردند.

چرا برنامه Sora AI تعطیل شد؟

OpenAI در ۲۴ مارس ۲۰۲۶ از تعطیلی فعالیت خود خبر داد و در ۲۶ آوریل برنامه را غیرفعال کرد. فناوری کار کرد، اما کسب‌وکار نه.

طبق گزارش‌ها، اجرای Sora در مقیاس مصرف‌کننده روزانه حدود یک میلیون دلار هزینه محاسباتی داشته است. در مقابل، TechCrunch گزارش داد که این برنامه در کل طول عمر خود تقریباً ۱.۴ میلیون دلار از خریدهای درون برنامه‌ای درآمد داشته است. تعداد کاربران به نزدیک یک میلیون نفر رسید و سپس ظرف چند هفته پس از راه‌اندازی به زیر نیم میلیون نفر کاهش یافت، که یک منحنی کلاسیک نوآوری است. یک قرارداد صدور مجوز جداگانه دیزنی، به ارزش حدود یک میلیارد دلار برای حق استفاده از بیش از ۲۰۰ شخصیت، با پایان یافتن برنامه به پایان رسید.

تاریخ چه اتفاقی افتاد؟
فوریه ۲۰۲۴ پیش‌نمایش عمومی سورا
دسامبر ۲۰۲۴ اولین نسخه در ChatGPT منتشر شد
۳۰ سپتامبر ۲۰۲۵ سورا ۲ و اپلیکیشن iOS منتشر شد
۲۴ مارس ۲۰۲۶ اعلام توقف
۲۶ آوریل ۲۰۲۶ برنامه تعطیل شد

با این حال، OpenAI این فناوری را رها نکرد و این بخش تمایل به از دست رفتن دارد. این قابلیت در ChatGPT و محصولات سازمانی وجود دارد و خود مدل Sora از طریق API برای توسعه‌دهندگان قابل دسترسی باقی ماند. چیزی که OpenAI از بین برد، برنامه اجتماعی رایگان برای مرور بود که حول Sora AI ساخته شده بود - گران‌ترین و کم‌درآمدترین راه برای ارائه آن. برای هر کسی که خدمات هوش مصنوعی می‌فروشد، درس این ماجرا صریح است: ارزش جایی حاصل می‌شود که مردم برای خروجی هزینه می‌کنند، نه جایی که به صورت رایگان اسکرول می‌کنند.

هزینه‌های Sora AI: اشتراک، اعتبار، API

پول از سه طریق به سورا سرازیر شد و این تفاوت‌ها چیزهای زیادی را در مورد نحوه‌ی کلی عملکرد هوش مصنوعیِ پولی توضیح می‌دهند.

مسیر دسترسی آنچه به دست می‌آورید قیمت
چت جی پی تی پلاس سورا در چت، نسل‌های استاندارد 20 دلار در ماه
چت جی پی تی پرو محدودیت‌های بالاتر، کلیپ‌های طولانی‌تر و HD ۲۰۰ دلار در ماه
بسته‌های اعتباری (ردیف رایگان) پرداخت به ازای هر ویدیوی جداگانه بسته به بسته متفاوت است
API، سورا-۲ (۷۲۰p) هزینه به ازای هر ثانیه ویدیو تقریباً ۰.۱۰ دلار در ثانیه
API، سورا-۲-پرو (۱۰۸۰p) هزینه به ازای هر ثانیه ویدیو حدود ۰.۳۰ تا ۰.۵۰ دلار در ثانیه

بیشتر کاربران عادی هرگز مستقیماً پولی پرداخت نمی‌کردند. Sora با اشتراک ChatGPT ارائه می‌شد، بنابراین از همان 20 یا 200 دلار در ماه که مردم قبلاً برای این چت‌بات خرج می‌کردند، استفاده می‌کرد. این بسته‌بندی مهم است، زیرا موتور واقعی OpenAI اشتراک‌ها هستند: حدود 50 میلیون مشترک پولی، حدود 25 میلیارد دلار درآمد سالانه و تقریباً 900 میلیون کاربر فعال هفتگی. در کنار آن، 1.4 میلیون دلار برنامه Sora یک خطای گرد کردن بود.

نکته جالب، API است. در آنجا، شما هیچ پلنی نخریده‌اید. شما بر اساس ثانیه ویدیوی تولید شده، حدود ده سنت در ثانیه برای کیفیت 720p و سه تا پنج برابر آن برای خروجی 1080p pro، طبق مستندات API OpenAI (از تاریخ 2026) پرداخت کرده‌اید. یک کلیپ ده ثانیه‌ای در پایین‌ترین سطح، یک دلار هزینه دارد. این محاسبه بر اساس متر است - همانطور که برای سرورهای ابری یا برق هزینه می‌کنید. شما استفاده را می‌خرید، نه صندلی یا پلن. برای یک توسعه‌دهنده یا سازنده که Sora را با حجم بالا اجرا می‌کند، متر بر ثانیه محصول واقعی است و هرگز از بین نمی‌رود.

به این فکر کنید که این متر به چه معناست. استودیویی که روزانه صد کلیپ رندر می‌کند، صورتحسابی دارد که با خروجی متناسب است، مانند یک ابزار. یک سرگرمی که ماهی یک ویدیو می‌سازد، سنت پرداخت می‌کند. همین مدل برای هر دو کاربرد دارد، زیرا قیمت به محاسبه بستگی دارد، نه به یک صندلی. این شکلی است که تقریباً تمام صورتحساب‌های جدی هوش مصنوعی، از مدل‌های زبانی گرفته تا مولدهای تصویر، به آن نزدیک می‌شوند: شما برای آنچه مصرف می‌کنید، هزینه دریافت می‌کنید، که با توکن، ثانیه یا مگاپیکسل اندازه‌گیری می‌شود. برنامه‌های ماهانه ثابت، پوشش دوستانه‌ای هستند. استفاده متریک، موتور محرکه است و شرط می‌بندم که دهه آینده درآمد هوش مصنوعی در واقع در آن زندگی می‌کند.

سورا ۲ در مقایسه با دیگر تولیدکننده‌های ویدیوی هوش مصنوعی

هوش مصنوعی Sora تیتر خبرها را به خود اختصاص داد، اما هرگز تنها نبود و بازار اطراف آن پول واقعی است. طبق گزارش Fortune Business Insights ، ارزش حوزه تولید ویدئو با هوش مصنوعی در سال ۲۰۲۵ حدود ۷۱۶ میلیون دلار بود و با رشد سالانه نزدیک به ۱۹ درصد، در سال ۲۰۲۵ به حدود ۸۴۷ میلیون دلار خواهد رسید. Runway ، یکی از رقبای این حوزه، در اوایل سال ۲۰۲۵، ۳۱۵ میلیون دلار سرمایه جذب کرد و ارزش آن به ۵.۳ میلیارد دلار رسید. این یک صنعت جدی است، نه یک نمونه آزمایشی.

ابزار ساز صدای همگام‌سازی شده دسترسی مدل قیمت‌گذاری
سورا ۲ اوپن‌ای‌آی بله چت‌جی‌پی‌تی، رابط برنامه‌نویسی کاربردی اشتراک + در هر ثانیه
وئو ۳ گوگل بله جمینی، هوش مصنوعی ورتکس اشتراک + در هر ثانیه
باند فرودگاه باند فرودگاه محدود وب، اپلیکیشن اعتبار، اشتراک
کلینگ کوایشو بله وب، اپلیکیشن اعتبار، اشتراک

تصویر رقابتی با تصویر Sora هم‌قافیه است. سرویس Veo گوگل از طریق اشتراک‌های Gemini و قیمت‌گذاری هوش مصنوعی Vertex در هر ثانیه که تقریباً مشابه Sora است، صورتحساب می‌دهد. Kling و Runway به بسته‌های اعتباری متکی هستند، جایی که شما یک بلوک از نسل‌ها را از قبل خریداری می‌کنید و آن را می‌سوزانید. اگر برندسازی را کنار بگذارید، بیشتر دو سبک صورتحساب، یعنی اعتبارهای پیش‌پرداخت یا اندازه‌گیری پرداخت در حین استفاده، را با هم مقایسه می‌کنید که حول مدل‌هایی پیچیده شده‌اند که تقریباً کار یکسانی انجام می‌دهند. وقتی Sora را به Veo یا Kling ترجیح می‌دهید، در واقع یک اکوسیستم و یک مدل پرداخت را انتخاب می‌کنید، نه یک قابلیت کاملاً متفاوت. کیفیت هر چند ماه یکبار جهش می‌کند. ساختار قیمت‌گذاری اینطور نیست.

سورا-آی

پرداخت هزینه ابزارهای ویدیویی هوش مصنوعی با استیبل کوین‌ها

اینجاست که زاویه دید کریپتو دیگر اغراق‌آمیز نیست و کم‌کم آشکار می‌شود. دوباره به نحوه دریافت کارمزد توسط این ابزارهای هوش مصنوعی نگاه کنید: مبالغ کم، که اغلب از کاربران در سراسر جهان دریافت می‌شود. این یک مشکل پرداخت است و اتفاقاً دقیقاً همان مشکلی است که استیبل کوین‌ها به خوبی حل می‌کنند.

چرا استیبل کوین‌ها برای صورتحساب مبتنی بر هوش مصنوعی مناسب هستند؟

یک تماس API با نرخ ده سنت در ثانیه، یک ریزپرداخت است. شبکه‌های کارت از ریزپرداخت‌ها متنفرند، زیرا کارمزدهای ثابت، هزینه‌ای کمتر از یک دلار را به طور زنده می‌بلعند. اشتراک‌های مکرر در مرزها، تبدیل ارز و ریزش پرداخت‌های ناموفق را به موارد دیگر اضافه می‌کنند. استیبل کوین‌ها ، توکن‌های وابسته به دلار که به صورت درون زنجیره‌ای تسویه می‌شوند، از هر دو مورد اجتناب می‌کنند. تسویه حساب ارزان، تقریباً فوری و یکسان است، چه کاربر در اوهایو باشد و چه در لاگوس. این دیگر یک فرضیه نیست. استرایپ پرداخت‌های استیبل کوین را برای اشتراک‌ها در اکتبر 2025 راه‌اندازی کرد و به کسب‌وکارها اجازه داد تا برای USDC مکرر، مانند کارت‌های اعتباری، صورتحساب صادر کنند. لوله‌کشی در حال حاضر در حال انجام است.

پرداخت‌های خالق اثر و دسترسی جهانی

نیمه دیگر، دریافت پول است، نه فقط دریافت آن. ویدیوی هوش مصنوعی یک اقتصاد خالق است و خالقان در همه جا حضور دارند، از جمله مکان‌هایی که ریل‌های کارت ضعیف هستند یا پرداخت‌ها یک هفته طول می‌کشد. پرداخت به یک خالق با استیبل کوین‌ها در عرض چند دقیقه، به دلار، صرف نظر از بانکداری محلی، انجام می‌شود. برای پلتفرمی که هر ماه به هزاران خالق کوچک پرداخت می‌کند، صرفه‌جویی در هزینه‌های پردازش و تبدیل ارز به تنهایی می‌تواند تعیین کند که آیا کل مدل قابل اجرا است یا خیر. مقیاس پشت این موضوع دیگر کوچک نیست: ارزش بازار استیبل کوین در سال 2025 به 323 میلیارد دلار رسید و استیبل کوین‌ها طبق تخمین ویزا در سال 2025 به حدود 33 تریلیون دلار حجم ناخالص رسیدند. وقتی صورتحساب هوش مصنوعی و پرداخت‌های خالق جهانی هر دو به یک ریل اشاره می‌کنند، آن ریل کمتر شبیه یک آزمایش رمزنگاری و بیشتر شبیه زیرساخت به نظر می‌رسد. تاجری که امروز می‌خواهد پرداخت‌های رمزنگاری را برای یک ابزار هوش مصنوعی بپذیرد ، می‌تواند این کار را بدون دست زدن به پردازنده کارت انجام دهد.

خطرات هوش مصنوعی Sora: جعل عمیق، حق چاپ، علامت‌های سفید

هیچ‌کدام از این‌ها پاک نیستند. واترمارک و برچسب‌های C2PA در Sora AI قرار بود کلیپ‌های تولید شده توسط هوش مصنوعی را علامت‌گذاری کنند، اما ابزارهای حذف واترمارک ظرف یک هفته پس از راه‌اندازی ظاهر شدند. پیش‌فرض حق چاپ، عدم تمایل به عدم استفاده بود، نه تمایل به استفاده، بنابراین Sora شخصیت‌ها و سبک‌های محافظت‌شده را تا زمانی که صاحبان حق چاپ اعتراض نکردند، بازتولید کرد. استودیو گیبلی و اسکوئر انیکس هر دو خواستار حذف شدند. یک تصویر یا ویدیوی هوش مصنوعی که واقعی به نظر می‌رسد و واترمارک خود را از بین می‌برد، مشکلی است که صنعت آن را حل نکرده و فقط برچسب‌گذاری کرده است.

داستان سورا در واقع چه چیزی به شما می‌گوید؟

اپلیکیشن Sora به یک دلیل کسل‌کننده از بین رفت: هزینه اجرای آن بیشتر از درآمدش بود. مشکل هرگز فناوری نبود. در زیر فید رایگان، مدلی قرار داشت که به محض اینکه هزینه آن را ثانیه‌ای دریافت کنید، پول واقعی به دست می‌آورد. ارزش پایدار در ویدیوی هوش مصنوعی، محاسبه اندازه‌گیری شده است و محاسبه اندازه‌گیری شده قبل از اینکه یک سوال خلاقانه باشد، یک سوال هزینه‌بر است. بنابراین اگر قرار است برای هوش مصنوعی ثانیه‌ای هزینه کنید یا برای ساخت آن پول دریافت کنید، بپرسید کدام ریل دلارها را به این کوچکی، به این سرعت و به این صورت جهانی جابجا می‌کند. در حال حاضر پاسخ صادقانه کارت نیست. چه مدت طول می‌کشد تا پاسخ پیش‌فرض، یک استیبل کوین باشد؟

هر سوالی دارید؟

برنامه مستقل Sora در آوریل ۲۰۲۶ متوقف شد زیرا هزینه اجرای آن تقریباً ۱ میلیون دلار در روز بود، در حالی که در کل طول عمر خود تنها حدود ۱.۴ میلیون دلار درآمد داشت. OpenAI مدل زیربنایی را در ChatGPT و API آن نگه داشت و فقط برنامه اجتماعی رایگان و بدون سود را حذف کرد.

نه واقعاً. دسترسی معمولی با طرح‌های پولی ChatGPT که از 20 دلار در ماه شروع می‌شد، همراه بود و کاربران رایگان باید برای تولید ویدیوهای جداگانه اعتبار می‌خریدند. سایت‌های شخص ثالث نسل‌های «رایگان» Sora را تبلیغ می‌کنند، اما آنها بر اساس سیستم‌های اعتباری و سقف استفاده خودشان کار می‌کنند.

اپلیکیشن مصرف‌کننده از بین رفته است، اما مدل آن نه. قابلیت‌های Sora برای مشترکین پولی در ChatGPT باقی می‌ماند و توسعه‌دهندگان می‌توانند از طریق API OpenAI به این مدل دسترسی پیدا کنند. بنابراین عموم مردم هنوز می‌توانند ویدیوی Sora تولید کنند، فقط دیگر نیازی به استفاده از اپلیکیشن مستقل و پرطرفداری که در سال ۲۰۲۵ عرضه شد، نیست.

از طریق ChatGPT، ماهانه ۲۰ دلار برای نسخه پلاس یا ۲۰۰ دلار برای نسخه پرو. از طریق API، شما به ازای هر ثانیه ویدیو هزینه پرداخت می‌کردید: حدود ۰.۱۰ دلار در ثانیه با کیفیت ۷۲۰p و تقریباً ۰.۳۰ تا ۰.۵۰ دلار در ثانیه برای خروجی ۱۰۸۰p پرو. یک کلیپ ده ثانیه‌ای از یک دلار به بالا قیمت داشت.

بستگی به منبع دارد. شرایط OpenAI اجازه استفاده تجاری را می‌داد، اما خطر بزرگتر حق چاپ بود: Sora می‌توانست شخصیت‌ها و سبک‌های محافظت‌شده را بازتولید کند، که چندین استودیو آن را به چالش کشیدند. بسیاری از ناشران Sora شخص ثالث مجوز تجاری اعطا می‌کنند، با این حال، سوالات مربوط به حقوق اساسی هنوز در مورد آنچه مدل تولید می‌کند، مطرح است.

به طور فزاینده‌ای، بله. استرایپ (Stripe) در اواخر سال ۲۰۲۵، امکان پرداخت با استیبل کوین (Stablecoin) را به صورت اشتراکی ارائه داد و درگاه‌های پرداخت کریپتو به کسب‌وکارها اجازه می‌دهند تا استیبل کوین‌ها را برای نرم‌افزارها و خدمات هوش مصنوعی مستقیماً بپذیرند. برای پرداخت با هوش مصنوعی برون‌مرزی و با محدودیت زمانی، استیبل کوین‌ها بهتر از کارت‌ها عمل می‌کنند، چرا که کارت‌ها با هزینه‌های ناچیز و بین‌المللی مشکل دارند.

Ready to Get Started?

Create an account and start accepting payments – no contracts or KYC required. Or, contact us to design a custom package for your business.

Make first step

Always know what you pay

Integrated per-transaction pricing with no hidden fees

Start your integration

Set up Plisio swiftly in just 10 minutes.