Czym jest Viggle AI? Narzędzie do tworzenia memów i animacji, które stało się viralem
Ktoś wrzucił postać ze zdjęcia stockowego do tańca w Fortnite i wyglądało to… dobrze. Nie „dobre dla SI”, tylko dobre. A właściwie dobre. Płynny ruch. Fizyka, która miała sens. Ciężar postaci przesuwał się naturalnie podczas obrotu, jej ubrania poruszały się jak prawdziwy materiał, a całość zajęła może dwie minuty. Ten film trafił na Twittera na początku 2024 roku i w ciągu tygodnia wszyscy mówili o sztucznej inteligencji Viggle.
Zobaczyłem klip, założyłem, że to wybiórczo dobrana treść marketingowa i postanowiłem sam to wypróbować. Wgrałem zdjęcie, wybrałem szablon ruchu tanecznego i poczekałem jakieś dziewięćdziesiąt sekund. Rezultat był niedoskonały, ale naprawdę imponujący. Postać z mojego zdjęcia tańczyła. W 3D. Z fizyką. Za darmo. Na bocie Discord. Wtedy zdałem sobie sprawę, że to narzędzie różni się od typowego szumu wokół filmów z AI.
Viggle rozrósł się od zera do 1,6 miliona użytkowników Discorda w niecały rok. Stał się motorem napędowym połowy memów o sztucznej inteligencji w mediach społecznościowych w 2024 roku. Technologia, która za nim stoi – model o nazwie JST-1, który faktycznie rozumie fizykę 3D, a nie tylko dopasowuje wzorce do pikseli 2D – reprezentuje coś naprawdę nowego w przestrzeni wideo opartej na sztucznej inteligencji. W tym artykule omówiono, czym jest Viggle, jak działa JST-1, jak korzystać z tego narzędzia krok po kroku i jak wypada na tle większych marek w dziedzinie generowania wideo opartego na sztucznej inteligencji.

Czym jest Viggle AI i dlaczego jest to ważne
Viggle AI to platforma do animacji postaci, która wykonuje nieruchomy obraz osoby lub postaci i wprawia go w ruch. Nie w sposób, który można by nazwać „powiększaniem i przesuwaniem zdjęcia”, jak to robi większość narzędzi opartych na sztucznej inteligencji. Viggle generuje rzeczywisty ruch 3D. Postać obraca się, chodzi, tańczy, skacze, a ruch ten uwzględnia prawa fizyki: grawitację, przenoszenie ciężaru, układanie się materiału i pęd.
Firma została założona przez zespół specjalistów z zakresu wizji komputerowej i modelowania 3D. Zbudowali oni JST-1, co oznacza Joint Space-Time, i opisują go jako „pierwszy model wideo-3D, który uwzględnia rzeczywiste prawa fizyki”. Warto przeanalizować to stwierdzenie, ponieważ to właśnie ono wyróżnia Viggle na tle innych produktów w tej kategorii.
Większość narzędzi wideo AI (Runway Gen-3, Pika, Kling) generuje wideo, przewidując, jak powinna wyglądać następna klatka na podstawie poprzedniej. Działają w dwuwymiarowej przestrzeni pikseli. Wynik wygląda dobrze, dopóki postać nie musi obrócić się bokiem, wejść w interakcję z obiektem lub poruszyć się w sposób, którego nie uwzględniły dane treningowe. Wtedy sytuacja się komplikuje: kończyny przechodzą przez ciała, zmieniają się proporcje, a grawitacja przestaje działać.
JST-1 stosuje inne podejście. Rekonstruuje trójwymiarową reprezentację postaci na podstawie obrazu wejściowego, analizuje strukturę szkieletu postaci, a następnie animuje ten model 3D zgodnie z zasadami fizyki, zanim wyrenderuje ostateczny obraz wideo 2D. Postać ma objętość, wagę i stawy. Podczas tańca stopy odpychają się od podłoża z odpowiednią siłą. Podczas obrotu perspektywa zmienia się prawidłowo, ponieważ model wie, że postać ma plecy, a nie tylko przód.
Czy wynik jest idealny? Nie. Złożone sceny nadal generują artefakty. Interakcje między wieloma postaciami są zawodne. Model ten działa najlepiej z postaciami z kreskówek i anime, a nie z fotorealistycznymi postaciami. Jednak w przypadku animacji pojedynczej postaci ze statycznego obrazu, Viggle generuje rezultaty, których nie widziałem w żadnym innym narzędziu konsumenckim w tej cenie. A to jest darmowe.
Jak korzystać z Viggle AI: przewodnik krok po kroku
Viggle działa w dwóch miejscach: aplikacji internetowej i bota Discord. Bot Discord pojawił się pierwszy i nadal jest głównym interfejsem dla społeczności. Oto jak działa każda z głównych funkcji.
Miks: wydarzenie główne
To właśnie miks sprawił, że Viggle stał się viralem. Podajesz mu dwa dane wejściowe: obraz postaci i ruchomy film. Viggle wyodrębnia postać z obrazu, mapuje ją na ruch z filmu i renderuje wynik.
Krok po kroku: otwórz aplikację internetową Viggle lub Discorda. Użyj komendy /mix. Prześlij wyraźny obraz postaci (jedna osoba, widoczne ciało, dobre oświetlenie). Prześlij krótki film z wybranym ruchem (taniec, chód, gest). Wybierz tło: zielone, białe lub oryginalne. Kliknij „Generuj”. Odczekaj 60–120 sekund. Otrzymasz film, na którym Twoja postać wykonuje ruch z klipu referencyjnego.
Rezultaty w dużej mierze zależą od Twoich danych wejściowych. Najlepiej sprawdzają się wyraźne obrazy postaci z widocznymi kończynami. Nieuporządkowane tła, zasłonięte części ciała lub ekstremalne kąty widzenia dezorientują modela. Filmy z ruchomymi obrazami sprawdzają się najlepiej, gdy pokazują pojedynczą osobę wykonującą wyraźne, wyraźne ruchy. Subtelne gesty są trudniejsze do wykonania niż efektowne tańce.
Przesuń: animuj z zachowanym tłem
Funkcja Move jest podobna do Mix, ale zachowuje oryginalne tło postaci. Prześlij obraz postaci, prześlij ruchomy film, a system animuje postać, zachowując scenę, w której się znajduje. Przydatne, gdy potrzebujesz kontekstu: osoba przy biurku nagle zaczyna tańczyć, postać w parku machająca do kogoś.
Pomysły i stylizacja
Ideate generuje koncepcje wideo na podstawie podpowiedzi tekstowych. Opisz, czego chcesz, a model wygeneruje wideo. Stylize pozwala zmienić styl wizualny istniejącej postaci lub animacji. Oba narzędzia są bardziej eksperymentalne niż Mix i Move, a rezultaty są mniej przewidywalne.
Polecenie /character
Dzięki temu możesz stworzyć trwałą postać, którą możesz ponownie wykorzystać w wielu animacjach. Prześlij obraz raz, zapisz go jako postać i odwołuj się do niego w przyszłych miksach bez konieczności ponownego przesyłania za każdym razem. Dla twórców treści, którzy tworzą powtarzalną postać (maskotkę, awatara, postać marki), to znaczna oszczędność czasu.
Cennik Viggle: co jest darmowe, a co kosztuje
Viggle korzysta z modelu freemium, a bezpłatny pakiet jest zaskakująco hojny w porównaniu z większością narzędzi wideo opartych na sztucznej inteligencji.
| Funkcja | Bezpłatny | Premia |
|---|---|---|
| Pokolenia na dzień | Ograniczony (zmienny) | Wyższe limity |
| Priorytet kolejki | Standardowy (może być wolny) | Przetwarzanie priorytetowe |
| Długość filmu | Do 30 sekund | Do 30 sekund |
| Rezolucja | Standard | Wyższa jakość |
| Filigran | Tak | REMOVED |
| Prawa komercyjne | Tak (bez opłat licencyjnych) | Tak (bez opłat licencyjnych) |
| Wiele znaków | Tylko szablony | Więcej opcji |
Na uwagę zasługuje fragment dotyczący praw komercyjnych. Viggle twierdzi, że wygenerowane treści są „całkowicie wolne od opłat licencyjnych” i „udzielają pełnych praw do komercyjnego wykorzystania każdego wygenerowanego filmu”. To nietypowe. Większość platform wideo opartych na sztucznej inteligencji albo ogranicza wykorzystanie komercyjne do bezpłatnych planów, albo pobiera opłaty licencyjne dla przedsiębiorstw. Viggle pozwala na wykorzystanie wyników w celach marketingowych, w mediach społecznościowych lub w dowolnych celach komercyjnych bez dodatkowych opłat.
Ceny premium zmieniały się z czasem i różnią się w zależności od regionu. Aktualne stawki można sprawdzić bezpośrednio na viggle.ai. Kiedy ostatnio sprawdzałem, płatny pakiet kosztował poniżej 20 USD miesięcznie i oferował przede wszystkim usunięcie znaków wodnych, podniesienie priorytetu kolejki i zwiększenie dziennych limitów generacji.
Viggle kontra Runway kontra Pika kontra Kling: gdzie pasuje
Rynek generowania wideo za pomocą sztucznej inteligencji szybko się zapełnił. Oto, jak Viggle wypada w porównaniu z narzędziami, z którymi większość ludzi go porównuje.
| Narzędzie | Najlepszy w | Fizyka/3D | Wycena | Animacja postaci |
|---|---|---|---|---|
| Viggle AI | Ruch pojedynczego znaku, memy | JST-1 (fizyka 3D) | Bezpłatne + płatne | Doskonały |
| Pas startowy Gen-3 | Generowanie wideo kinowego | Predykcja pikseli 2D | 12-76 USD/mies. | Umiarkowany |
| Pika | Szybkie, stylizowane klipy | Predykcja pikseli 2D | Bezpłatnie + 8–58 USD/mies. | Podstawowy |
| Kling AI | Dłuższy film, synchronizacja ust | 2D z odrobiną 3D | Bezpłatne + płatne | Dobry |
| Animate Anyone (oprogramowanie open source) | Transfer pozycji o jakości badawczej | Dyfuzja 2D | Bezpłatny (samodzielny hosting) | Dobry, ale techniczny |
Viggle nie próbuje konkurować z Runwayem pod względem kinowej jakości. Nie próbuje zastąpić Piki w krótkich klipach do mediów społecznościowych. Jego ścieżka to przede wszystkim animacja postaci: robienie nieruchomego obrazu osoby lub postaci i sprawianie, by poruszała się w przekonujący sposób. W tej konkretnej ścieżce, rozumienie fizyki przez JST-1 daje mu przewagę, której nie mogą dorównać narzędzia oparte na pikselach.
Gdzie Viggle przegrywa: nie potrafi generować wideo od podstaw, tak jak Runway czy Pika. Potrzebny jest obraz wejściowy i odniesienie do ruchu. To animacja, a nie generowanie. Długość wyjściowa jest ograniczona do 30 sekund. Obecnie najlepiej sprawdza się w przypadku postaci ilustrowanych lub kreskówkowych. Fotorealistyczni ludzie czasami trafiają na terytorium doliny niesamowitości, gdzie rekonstrukcja 3D tworzy subtelne nieprawidłowości w rysach twarzy i teksturze skóry.
Gdzie Viggle wygrywa: jakość ruchu jest niezrównana w tym przedziale cenowym. Darmowe generowanie Viggle z dobrymi danymi wejściowymi generuje bardziej przekonujący ruch fizycznie niż subskrypcja Runway za 76 dolarów miesięcznie w przypadku animacji postaci. Dzieje się tak, ponieważ model Viggle faktycznie rozumie przestrzeń trójwymiarową, a pozostałe modele odgadują ją na podstawie wzorców dwuwymiarowych.

Do czego właściwie używać Viggle: rzeczywiste przypadki użycia
To właśnie memy sprawiły, że Viggle zyskało 1,6 miliona członków Discorda, ale istnieją też bardziej praktyczne zastosowania.
Twórcy treści wykorzystują ją do animowania swoich awatarów lub person w mediach społecznościowych. YouTuber z awatarem postaci z kreskówki może sprawić, że postać będzie tańczyć, machać lub reagować w filmach bez konieczności zatrudniania animatora. Twórcy TikToka tworzą postacie ze zdjęć, które wykonują popularne tańce. Czas realizacji, poniżej dwóch minut na klip, umożliwia codzienną produkcję animowanych treści.
Małe firmy i marketerzy wykorzystują go do szybkich animacji promocyjnych. Restauracja może zrobić zdjęcie swojej maskotki i sprawić, by tańczyła w reklamie w mediach społecznościowych. Marka e-commerce może animować postać produktu, aby podkreślić jego historię. Bezpłatny koszt i komercyjne licencje sprawiają, że jest on dostępny dla firm, które nie mogą sobie pozwolić na studia motion designu.
Twórcy gier niezależnych i artyści storyboardowi używają go do prototypowania. Zanim zainwestują w pełną animację, mogą sprawdzić, jak postać wygląda w ruchu. Czy poza się sprawdza? Czy ruch przekazuje emocje? Viggle udziela zwięzłej, ale zwięzłej odpowiedzi.
Edukacja to przypadek użycia, którego się nie spodziewałem, ale ma sens. Nauczyciele i twórcy kursów biorą maskotkę postaci i animują ją na potrzeby filmów objaśniających. To o wiele bardziej angażujące niż statyczny obraz na slajdzie. Postać gestykulująca podczas wyjaśniania fotosyntezy utrzymuje uwagę 12-latka na dłużej niż tekst i strzałki. Widziałem korepetytorów języków na TikToku, którzy używają Viggle, aby animowane postacie demonstrowały powitania w różnych kulturach. Kreatywne, bezproblemowe i działa.
Ograniczenia i rzeczy, na które należy zwrócić uwagę
Viggle robi wrażenie, ale ma pewne ograniczenia.
Obsługiwane są wizerunki ludzi, ale model został wyraźnie zoptymalizowany pod kątem postaci ilustrowanych. Fotorealistyczne rezultaty bywają nierówne. Twarze czasami zahaczają o dolinę niesamowitości. Dłonie... są coraz lepsze, ale wciąż stanowią słaby punkt każdego istniejącego narzędzia wideo opartego na sztucznej inteligencji.
Limit 30 sekund oznacza, że nie można tworzyć długich treści. W przypadku treści wykraczających poza krótki klip, konieczne będzie zmontowanie kilku generacji jednocześnie.
Prywatność to uzasadniony problem. Przesyłasz zdjęcia i filmy do usługi w chmurze. Na subreddicie poświęconym prywatności pojawił się wątek na temat praktyk Viggle dotyczących danych i chociaż firma wdrożyła moderację treści i tagowanie metadanych C2PA w celu zapewnienia możliwości śledzenia, warto się zastanowić przed przesłaniem wrażliwych, osobistych zdjęć. Zwłaszcza zdjęć innych osób bez ich zgody. Potencjał deepfake'ów jest oczywisty, a etyczna odpowiedzialność spoczywa na użytkowniku.
Brak API oznacza brak zautomatyzowanych przepływów pracy. Jeśli chcesz wbudować Viggle w produkt lub generować setki animacji programowo, na razie nie masz szans. Wszystko odbywa się ręcznie przez aplikację internetową lub Discord.
Nie ma jeszcze aplikacji mobilnej, która replikowałaby pełen zestaw funkcji. Aplikacja na iOS istnieje, ale jest to uproszczona wersja skupiona na szablonach memów, a nie na pełnym procesie Mix/Move. Zależność od Discorda, choć stanowiła część budowania społeczności, stwarza problemy dla użytkowników, którzy z niego nie korzystają. Konieczność dołączenia do serwera, nauki komend ukośnikowych i oczekiwania w publicznej kolejce to nie jest typowe doświadczenie programistyczne. Aplikacja internetowa pomaga, ale wciąż jest w fazie rozwoju i brakuje jej niektórych funkcji.