Sora AI: Wyjaśnienie modelu przetwarzania tekstu na wideo w OpenAI

Posted on Jun 19, 2026 Автор: Simon Chartan

Przez około miesiąc Sora AI była najczęściej pobieraną aplikacją w Stanach Zjednoczonych. Potem OpenAI ją wyłączyło. Aplikacja, która pozwalała każdemu wpisać zdanie i uzyskać minutę zsynchronizowanego, kinowego wideo, osiągnęła pierwsze miejsce na liście przebojów, przyciągnęła mnóstwo deepfake'ów celebrytów i podróbek Studio Ghibli, a następnie po cichu zniknęła w kwietniu 2026 roku. Ludzie wciąż zadawali sobie oczywiste pytanie: jak coś tak popularnego po prostu znika?

Krótka odpowiedź brzmi: pieniądze. Dłuższa odpowiedź jest bardziej użyteczna, zwłaszcza jeśli płacisz za narzędzia AI lub je sprzedajesz. Wartość Sora AI nigdy tak naprawdę nie tkwiła w darmowym kanale społecznościowym. Była w komputerze, który wynajmujesz na sekundę, aby generować filmy. To rozróżnienie stanowi całą historię i prowadzi do czegoś, co pomija większość artykułów: jak ludzie faktycznie płacą za te rzeczy i dlaczego szyna płatności zaczyna mieć takie samo znaczenie jak model.

Czym jest Sora AI i jak działa model wideo

Sora AI to model przetwarzania tekstu na wideo stworzony przez OpenAI. Wystarczy podać mu tekstowy komunikat, a model generowania wideo zwraca krótki klip. Na tym właśnie polega cała idea generowania wideo przez sztuczną inteligencję. W głębi duszy jest to transformator dyfuzyjny, ta sama szeroka rodzina, która napędza nowoczesne narzędzia do przetwarzania obrazu AI, trenowana na wideo i czasie.

OpenAI zaprezentowało Sorę w lutym 2024 roku, prezentując kilka klipów demonstracyjnych, a następnie opublikowało pierwszą wersję w ChatGPT w grudniu 2024 roku. Wczesne wersje Sory generowały klipy trwające do około minuty i, co dziwne, uchwyciły zgrubne wrażenie przestrzeni 3D i ruchu kamery bez wyraźnego nauczania. Nikt nie zaprogramował w niej paralaksy. Sora nauczyła się, że ruch kamery zmienia to, co widzisz – tak jak uczy się tego dziecko – poprzez oglądanie wystarczającej liczby przykładów.

Dlatego też wynik był nierówny. Model mógł wyrenderować wiarygodną scenę uliczną, a następnie pokazać osobę przechodzącą przez ścianę, ponieważ nigdy nie uczył się fizyki jako reguł, a jedynie jako wzorców. Warto pamiętać, gdy klip wygląda idealnie: urządzenie nie ma pojęcia, czym jest grawitacja.

sora-ai

Jak tworzyć filmy AI za pomocą Sora 2

Wersja, która stała się viralem, to Sora 2, wydana 30 września 2025 roku wraz z aplikacją na iOS. To był prawdziwy skok i warto zobaczyć, jak naprawdę wyglądało tworzenie z nią.

Zsynchronizowany dźwięk, fizyka i ujęcia kinowe

Sora 2 dodała dźwięk. Dialogi, kroki i szum tła pojawiały się teraz zsynchronizowane z obrazem, a nie jako niemy klip, który trzeba było samemu udźwiękowić. Realistyczny ruch był widoczną zmianą, dzięki której obiekty zderzały się i upadały w sposób, który w większości się sprawdzał. Model mógł również łączyć wiele ujęć kamery w jednej generacji, nadając krótkim klipom kinowy charakter, którego brakowało pierwszej wersji. To właśnie odróżniało ruchomą pocztówkę od czegoś, co przypominało montaż filmowy.

Cameo, remiksy i edycja

Główną funkcją społecznościową był cameo: nagrywaj się raz, a następnie wstawiaj swoją podobiznę do dowolnej wygenerowanej sceny. To, a nie surowa jakość, sprawiło, że aplikacja się rozpowszechniła. Dodatkowo, dostępny był niewielki zestaw do edycji. Funkcja Remix pozwalała na dostosowanie istniejącego klipu za pomocą nowego polecenia. Funkcja Re-cut regenerowała pojedynczy segment. Funkcja Loop przekształcała klip w czysty, powtarzalny fragment, a funkcja Blend scalała dwa filmy. Żadna z tych funkcji nie wymagała umiejętności edycji, a o to właśnie chodziło.

Pisanie podpowiedzi: tekst i obraz w formie wideo

Uzyskanie dobrego rezultatu sprowadzało się do podpowiedzi tekstowej. Model nagradza szczegóły. „Pies” generuje dźwięk. „Mokry golden retriever otrząsający się z wody w zwolnionym tempie, podświetlony popołudniowym słońcem, nakręcony obiektywem 50 mm” generuje coś użytecznego. Opisz temat, akcję, światło i kamerę. Możesz również przesłać obraz i pozwolić Sorze go animować – obraz w trybie wideo zamieniał statyczny kadr w kilka sekund ruchu, co czyniło go jednocześnie generatorem ruchomych obrazów. Większość rzemiosła polegała na nauce pisania podpowiedzi w taki sposób, w jaki reżyser pisze notatki do ujęć.

Domyślnie każdy klip miał widoczny znak wodny i metadane C2PA, co oznaczało, że został wygenerowany przez sztuczną inteligencję. Oba miały później znaczenie.

Dlaczego aplikacja Sora AI została wyłączona?

OpenAI ogłosiło zakończenie działalności 24 marca 2026 roku i wyłączyło aplikację 26 kwietnia. Technologia działała. Biznes nie.

Według doniesień, uruchomienie Sory w skali konsumenckiej kosztowało około miliona dolarów dziennie. W porównaniu z tym, aplikacja zarobiła około 1,4 miliona dolarów w całym okresie swojego istnienia z zakupów w aplikacji, jak donosi TechCrunch . Baza użytkowników osiągnęła szczyt blisko miliona, a następnie spadła poniżej pół miliona w ciągu kilku tygodni od premiery, co jest typowym przykładem nowości. Oddzielna umowa licencyjna z Disneyem, warta około miliarda dolarów za prawa do wykorzystania ponad 200 postaci, zakończyła się wraz z końcem aplikacji.

Data	Co się stało
Luty 2024	Sora publicznie zapowiedziała
Grudzień 2024	Pierwsza wersja wydana w ChatGPT
30 września 2025 r.	Sora 2 i premiera aplikacji na iOS
24 marca 2026 r.	Zapowiedziano wycofanie
26 kwietnia 2026 r.	Aplikacja została wyłączona

OpenAI nie porzuciło jednak tej technologii, a ta część często ginie. Możliwości te są obecne w ChatGPT i produktach korporacyjnych, a sam model Sora pozostał dostępny dla programistów poprzez API. To, co OpenAI zniszczyło, to darmowa aplikacja społecznościowa oparta na Sora AI – najdroższy i najmniej dochodowy sposób jej dostarczania. Dla każdego, kto sprzedaje usługi AI, lekcja jest prosta: wartość narasta tam, gdzie ludzie płacą za wynik, a nie tam, gdzie przewijają za darmo.

Ile kosztuje Sora AI: subskrypcje, kredyty, API

Pieniądze napływały do Sora trzema drogami, a różnice te wiele wyjaśniają na temat tego, jak działa płatna sztuczna inteligencja.

Droga dojazdowa	Co otrzymujesz	Cena
ChatGPT Plus	Sora na czacie, standardowe generacje	20 USD/miesiąc
ChatGPT Pro	Wyższe limity, dłuższe klipy HD	200 dolarów miesięcznie
Pakiety kredytów (poziom bezpłatny)	Zapłać za pojedynczy film	Zależy od opakowania
API, sora-2 (720p)	Rozliczane za sekundę filmu	~0,10 USD/sek.
API, sora-2-pro (1080p)	Rozliczane za sekundę filmu	~0,30 do 0,50 USD/sek.

Większość okazjonalnych użytkowników nigdy nie płaciła bezpośrednio. Sora była oferowana w pakiecie z subskrypcją ChatGPT, więc korzystała z tych samych 20 lub 200 dolarów miesięcznie, które użytkownicy już wydawali na chatbota. To połączenie ma znaczenie, ponieważ prawdziwym motorem napędowym OpenAI są subskrypcje: około 50 milionów płacących subskrybentów, szacowane 25 miliardów dolarów rocznych przychodów cyklicznych i około 900 milionów aktywnych użytkowników tygodniowo. W porównaniu z tym, 1,4 miliona dolarów w aplikacji Sora było błędem zaokrąglenia.

Interesującym poziomem jest API. W tym przypadku nie kupowało się planu. Płaciło się za sekundę generowanego wideo, około dziesięciu centów za sekundę w rozdzielczości 720p i trzy do pięciu razy więcej w rozdzielczości 1080p pro, zgodnie z dokumentacją API OpenAI (stan na 2026). Dziesięciosekundowy klip kosztował dolara w najniższym przedziale cenowym. To jest rozliczanie mocy obliczeniowej – tak samo jak płaci się za serwery w chmurze czy energię elektryczną. Kupuje się użytkowanie, a nie miejsce czy plan. Dla dewelopera lub twórcy korzystającego z Sora w dużych ilościach, licznik sekundowy jest rzeczywistym produktem i nigdy nie zniknął.

Zastanów się, co oznacza ten licznik. Studio renderujące sto klipów dziennie ma rachunek, który skaluje się wraz z produkcją, jak firma energetyczna. Hobbysta, który tworzy jeden film miesięcznie, płaci centy. Ten sam model sprawdza się w obu przypadkach, ponieważ cena jest powiązana z mocą obliczeniową, a nie z miejscem. Do takiego kształtu zmierza niemal całe poważne rozliczenie za sztuczną inteligencję, od modeli językowych po generatory obrazów: płacisz za to, co zużywasz, mierzone w tokenach, sekundach lub megapikselach. Stałe miesięczne plany to wygodne opakowanie. Opłaty za zużycie to siła napędowa i założę się, że to właśnie tam kryje się kolejna dekada przychodów z AI.

Sora 2 kontra inne generatory wideo oparte na sztucznej inteligencji

Sora AI trafiła na pierwsze strony gazet, ale nigdy nie była jedyna, a rynek wokół niej to prawdziwe pieniądze. Branża generatorów wideo AI była warta około 716 milionów dolarów w 2025 roku i zmierza w kierunku około 847 milionów dolarów w 2025 roku, rosnąc w tempie prawie 19% rocznie, według Fortune Business Insights . Runway , jeden z rywali, pozyskał 315 milionów dolarów na początku 2025 roku, przy wycenie 5,3 miliarda dolarów. To poważna branża, a nie demo.

Narzędzie	Producent	Zsynchronizowany dźwięk	Dostęp	Model cenowy
Sora 2	OpenAI	Tak	ChatGPT, API	Subskrypcja + za sekundę
Veo 3	Google	Tak	Gemini, Vertex AI	Subskrypcja + za sekundę
Pas startowy	Pas startowy	Ograniczony	Sieć, aplikacja	Kredyty, subskrypcja
Kling	Kuaishou	Tak	Sieć, aplikacja	Kredyty, subskrypcja

Konkurencyjny obraz rymuje się z własnym Sora. Veo od Google rozlicza się za pośrednictwem subskrypcji Gemini i cennika sekundowego Vertex AI, który plasuje się w tym samym przedziale co Sora. Kling i Runway opierają się na pakietach kredytowych, gdzie kupuje się blok generacji z góry i go zużywa. Pomijając branding, porównuje się głównie dwa modele rozliczeń: kredyty przedpłacone lub rozliczanie na zasadzie pre-paid, oparte na modelach, które wszystkie działają mniej więcej tak samo. Wybierając Sora zamiast Veo lub Kling, wybiera się ekosystem i model płatności, a nie zupełnie inną funkcjonalność. Jakość skokowo rośnie co kilka miesięcy. Struktura cenowa nie.

sora-ai

Płacenie za narzędzia wideo AI za pomocą stablecoinów

Tutaj aspekt kryptowalut przestaje być naciągany, a zaczyna być oczywisty. Przyjrzyjmy się ponownie, jak te narzędzia AI pobierają opłaty: małe kwoty, często pobierane od użytkowników na całym świecie. To problem płatności i, jak się okazuje, jest to dokładnie ten sam problem, który stablecoiny dobrze rozwiązują.

Dlaczego stablecoiny pasują do rozliczeń opartych na sztucznej inteligencji

Wywołanie API z przepływem dziesięciu centów na sekundę to mikropłatność. Sieci kart płatniczych nie znoszą mikropłatności, ponieważ stałe opłaty pochłaniają na maksa opłatę poniżej dolara. Cykliczne subskrypcje w różnych krajach powodują dodatkowe przewalutowanie i utratę wartości w przypadku nieudanych płatności. Stablecoiny , czyli tokeny powiązane z dolarem, rozliczane w łańcuchu bloków, omijają oba te problemy. Rozliczenie jest tanie, niemal natychmiastowe i takie samo, niezależnie od tego, czy użytkownik znajduje się w Ohio, czy w Lagos. To już nie jest teoria. Stripe uruchomił płatności stablecoinami za subskrypcje w październiku 2025 roku, umożliwiając firmom rozliczanie cyklicznych USDC tak samo, jak rozliczają karty. Prace trwają.

Wypłaty dla twórców i dostęp globalny

Druga połowa to wypłacanie, a nie tylko przyjmowanie pieniędzy. Wideo AI to gospodarka twórców, a twórcy siedzą wszędzie, w tym w miejscach, gdzie szyny kart są słabe lub wypłaty trwają tydzień. Zapłacenie twórcy w stablecoinach zajmuje kilka minut, w dolarach, niezależnie od lokalnej bankowości. Dla platformy płacącej tysiącom małych twórców co miesiąc, same oszczędności na opłatach za przetwarzanie i przewalutowaniu mogą zadecydować o tym, czy cały model jest wykonalny. Skala, która za tym stoi, nie jest już mała: kapitalizacja rynkowa stablecoinów przekroczyła 323 miliardy dolarów w 2026, a stablecoiny osiągnęły wartość rzędu 33 bilionów dolarów brutto w 2025 roku, według szacunków Visa . Kiedy rozliczanie za pomocą AI i globalne wypłaty dla twórców wskazują na tę samą szynę, szyna ta zaczyna wyglądać mniej jak eksperyment kryptowalutowy, a bardziej jak infrastruktura. Sprzedawca, który chce dziś akceptować płatności kryptowalutowe za narzędzie AI, może to zrobić bez dotykania procesora kart.

Zagrożenia związane ze sztuczną inteligencją Sora: deepfake'i, prawa autorskie, znaki wodne

Nic z tego nie jest czyste. Znak wodny i tagi C2PA w Sora AI miały oznaczać klipy wygenerowane przez AI, ale narzędzia do usuwania znaków wodnych pojawiły się w ciągu tygodnia od premiery. Domyślnie prawa autorskie były wyłączone, a nie włączone, więc Sora odtwarzała chronione postacie i style, dopóki właściciele praw nie wyrazili sprzeciwu. Studio Ghibli i Square Enix zażądały usunięcia. Obraz lub film AI, który wygląda realistycznie i usuwa własny znak wodny, to problem, którego branża nie rozwiązała, a jedynie oznaczyła.

Co tak naprawdę mówi ci historia Sory

Aplikacja Sora upadła z nudnego powodu: jej utrzymanie kosztowało więcej, niż przynosiło zysków. Technologia nigdy nie była problemem. Pod darmowym kanałem krył się model, który zarabia realne pieniądze w momencie, gdy pobiera się za niego opłatę za sekundę. Trwałą wartością w filmach o sztucznej inteligencji są obliczenia mierzone, a obliczenia mierzone to kwestia rozliczeń, zanim stanie się kwestią kreatywności. Więc jeśli zamierzasz płacić za sztuczną inteligencję za sekundę lub zarabiać na jej tworzeniu, zapytaj, która kolej przesyła dolary tak mało, tak szybko, tak globalnie. Na razie szczerą odpowiedzią nie jest karta. Ile czasu minie, zanim domyślną odpowiedzią będzie stablecoin?

Simon Chartan

A journalist with a strong technical background and a passion for decentralized finance. With degrees in MBA and Master of Engineering in Data Science, the author combines analytical expertise with a clear, engaging writing style. At Plisio, they cover topics such as cryptocurrency, blockchain, DeFi, and digital finance—helping readers make sense of a rapidly evolving fintech landscape.