Що таке Viggle AI? Інструмент для створення мемів та анімації, який став вірусним
Хтось вставив персонажа зі стокової фотографії в танець Fortnite, і це виглядало... добре. Не "добре для ШІ". Насправді добре. Плавний рух. Фізика, яка мала сенс. Вага персонажа природно змінювалася, коли він обертався, його одяг рухався, як справжня тканина, і на створення всього цього знадобилося близько двох хвилин. Це відео з'явилося в Твіттері на початку 2024 року, і протягом тижня всі говорили про ШІ Viggle.
Я побачив кліп, припустив, що це ретельно підібраний маркетинговий контент, і сам спробував. Завантажив фотографію, вибрав шаблон танцювального руху, почекав близько дев'яноста секунд. Результат був недосконалим, але справді вражаючим. Персонаж з мого фото танцював. У 3D. З фізикою. Безкоштовно. На боті Discord. Саме тоді я зрозумів, що цей інструмент відрізняється від звичайного відеохайпу зі штучним інтелектом.
Кількість учасників Viggle у Discord зросла з нуля до 1,6 мільйона менш ніж за рік. У 2024 році вона стала рушієм половини контенту мемів про штучний інтелект у соціальних мережах. А технологія, що лежить в її основі, модель під назвою JST-1, яка насправді розуміє 3D-фізику, а не просто зіставляє 2D-пікселі зі зразком, являє собою щось справді нове у сфері відео на основі штучного інтелекту. У цій статті розглядається, що таке Viggle, як працює JST-1, як крок за кроком використовувати цей інструмент і як він порівнюється з більшими іменами у сфері створення відео на основі штучного інтелекту.

Що таке Viggle AI і чому це важливо
Viggle AI — це платформа для анімації персонажів, яка бере нерухоме зображення людини або персонажа та змушує його рухатися. Не таким незграбним способом «масштабування та панорамування фотографії», як це робить більшість інструментів штучного інтелекту. Viggle генерує справжній 3D-рух. Персонаж повертається, ходить, танцює, стрибає, і рух враховує фізику: гравітацію, перенесення ваги, драпірування тканини, імпульс.
Компанію заснувала команда з досвідом роботи в галузі комп'ютерного зору та 3D-моделювання. Вони створили JST-1, що розшифровується як «Об'єднаний простір-час», і описують його як «першу відео-3D базову модель, яка містить реальне розуміння фізики». Це твердження варто розібратися, оскільки саме воно відрізняє Viggle від усіх інших у своїй категорії.
Більшість відеоінструментів на основі штучного інтелекту (Runway Gen-3, Pika, Kling) генерують відео, прогнозуючи, як має виглядати наступний кадр на основі попереднього. Вони працюють у двовимірному піксельному просторі. Вихідні дані виглядають добре, доки персонажу не потрібно повернутись боком, взаємодіяти з об'єктом або рухатися таким чином, який не був врахований у навчальних даних. Потім все стає дивним: кінцівки фазово змінюють положення тіла, пропорції змінюються, гравітація перестає працювати.
JST-1 використовує інший підхід. Він реконструює 3D-зображення персонажа з вхідного зображення, розуміє структуру скелета персонажа, а потім анімує цю 3D-модель відповідно до правил фізики, перш ніж відтворити кінцевий 2D-відео. Персонаж має об'єм, вагу та суглоби. Коли він танцює, його ноги відштовхуються від землі з потрібною силою. Коли він повертається, перспектива зміщується правильно, оскільки модель знає, що персонаж має спину, а не лише передню частину.
Чи ідеальний результат? Ні. Складні сцени все одно створюють артефакти. Взаємодія кількох персонажів ненадійна. І модель найкраще працює з персонажами мультфільмів та аніме, ніж з фотореалістичними людьми. Але для анімації одного персонажа з нерухомого зображення Viggle дає результати, яких я не бачив у жодному споживчому інструменті в цій ціновій категорії. До того ж, він безкоштовний.
Як користуватися Viggle AI: покрокова інструкція
Viggle працює у двох місцях: як веб-додаток та як бот Discord. Бот Discord з'явився першим і досі є основним інтерфейсом для спільноти. Ось як працює кожна основна функція.
Мікс: головна подія
Змішування – це те, що зробило Viggle вірусним. Ви надаєте йому два вхідні дані: зображення персонажа та відео з рухом. Viggle витягує персонажа з вашого зображення, накладає його на рух з відео та рендерить результат.
Крок за кроком: відкрийте веб-застосунок Viggle або Discord. Використайте команду /mix. Завантажте чітке зображення персонажа (одна людина, видиме тіло, гарне освітлення). Завантажте коротке відео з потрібним рухом (танець, прогулянка, жест). Виберіть фон: зелений екран, білий або оригінальний. Натисніть «Згенерувати». Зачекайте 60-120 секунд. Ви отримаєте відео, на якому ваш персонаж виконує рух з референсного кліпу.
Результати значною мірою залежать від ваших введених даних. Найкраще працюватимуть чіткі зображення персонажів із видимими кінцівками. Неохайний фон, затемнені частини тіла або екстремальні ракурси заплутують модель. Анімовані відео найкраще працюють, коли вони показують одну людину, яка виконує чіткі, виразні рухи. Зняти ледь помітні жести складніше, ніж масштабні танці.
Переміщення: анімація зі збереженням фону
Функція «Перемістити» схожа на «Змішати», але зберігає оригінальний фон персонажа. Завантажте зображення персонажа, завантажте відео з рухом, і система анімує персонажа, зберігаючи будь-яку сцену, в якій він стоїть. Корисно, коли вам потрібен контекст: людина за своїм столом раптово починає танцювати, персонаж у парку робить хвилю.
Генеруйте ідеї та стилізуйте
Ideate генерує відеоконцепції з текстових підказок. Опишіть, що ви хочете, і модель створить відео. Stylize дозволяє змінити візуальний стиль існуючого персонажа або анімації. Обидва варіанти є більш експериментальними, ніж Mix and Move, а результати менш передбачувані.
Команда /character
Це дозволяє створювати постійного персонажа, якого можна повторно використовувати в кількох анімаціях. Завантажте зображення один раз, збережіть його як персонажа та посилайтеся на нього в майбутніх міксах, не завантажуючи його повторно щоразу. Для творців контенту, які створюють повторюваного персонажа (талісман, аватар, фігуру бренду), це значно економить час.
Ціноутворення Viggle: що безкоштовно, а що платно
Viggle використовує модель freemium, і безкоштовний рівень напрочуд щедрий порівняно з більшістю відеоінструментів на основі штучного інтелекту.
| Функція | Безкоштовно | Преміум |
|---|---|---|
| Поколінь на день | Обмежено (варіюється) | Вищі ліміти |
| Пріоритет черги | Стандартний (може бути повільним) | Пріоритетна обробка |
| Тривалість відео | До 30 секунд | До 30 секунд |
| Роздільна здатність | Стандартний | Вища якість |
| Водяний знак | Так | Видалено |
| Комерційні права | Так (без роялті) | Так (без роялті) |
| Кілька символів | Тільки шаблони | Більше опцій |
Варто зазначити, що стаття про комерційні права є примітною. Viggle стверджує, що згенерований контент є «повністю безкоштовним» з «повними правами на комерційне використання кожного відео, яке ви створюєте». Це незвично. Більшість відеоплатформ зі штучним інтелектом або обмежують комерційне використання на безкоштовних рівнях, або стягують корпоративну ліцензію. Viggle дозволяє використовувати результат для маркетингу, соціальних мереж або будь-яких комерційних цілей без додаткової плати.
Ціни на преміум-послуги з часом змінювалися та залежать від регіону. Актуальні тарифи дивіться безпосередньо на сайті viggle.ai. Коли я востаннє переглядав, платний рівень коштував менше 20 доларів на місяць і в основному видаляв водяні знаки, підвищував пріоритет черги та збільшував щоденні ліміти генерації.
Віггл проти Рунвея проти Піки проти Клінга: де це підходить
Простір для створення відео за допомогою штучного інтелекту швидко став переповненим. Ось де Viggle знаходиться порівняно з інструментами, з якими його порівнюють більшість людей.
| Інструмент | Найкраще в | Фізика/3D | Ціноутворення | Анімація персонажів |
|---|---|---|---|---|
| Штучний інтелект Віґґла | Рух одного персонажа, меми | JST-1 (3D-фізика) | Безкоштовно + платно | Відмінно |
| Злітно-посадкова смуга Gen-3 | Генерація кінематографічного відео | 2D-піксельне прогнозування | $12-76/міс | Помірний |
| Піка | Швидкі, стилізовані кліпи | 2D-піксельне прогнозування | Безкоштовно + $8-58/міс | Базовий |
| Клінг ШІ | Довше відео, синхронізація губ | 2D з деякими 3D | Безкоштовно + платно | Добре |
| Анімація будь-кого (з відкритим кодом) | Перенесення поз дослідницького рівня | 2D дифузія | Безкоштовно (власний хостинг) | Добре, але технічно |
Viggle не намагається конкурувати з Runway за кінематографічною якістю. Він не намагається замінити Pika для швидких кліпів у соціальних мережах. Його напрямок — це, зокрема, анімація персонажів: зйомка нерухомого зображення людини чи персонажа та переконливі рухи. У цьому конкретному напрямку розуміння фізики JST-1 дає йому перевагу, з якою не можуть зрівнятися інструменти на основі пікселів.
Де Viggle програє: він не може генерувати відео з нуля, як це роблять Runway чи Pika. Вам потрібне вхідне зображення та посилання на рух. Це анімація, а не генерація. Тривалість вихідного зображення обмежена 30 секундами. І наразі він найкраще працює з ілюстрованими або мультяшними персонажами. Фотореалістичні люди іноді потрапляють у дивовижну долину, де 3D-реконструкція створює ледь помітні неправильності в рисах обличчя та текстурі шкіри.
Де перемагає Viggle: якість руху не має собі рівних у цій ціновій категорії. Безкоштовна генерація Viggle з гарним внеском створює фізично переконливіший рух, ніж підписка на Runway за 76 доларів на місяць для анімації персонажів. Це тому, що модель Viggle насправді розуміє 3D-простір, а інші здогадуються про це на основі 2D-візерунків.

Для чого насправді використовувати Viggle: реальні випадки використання
Саме використання мемів привело Viggle до 1,6 мільйона учасників Discord, але є й більш практичні застосування.
Творці контенту використовують його для анімації свого аватара або персони для соціальних мереж. Ютубер з аватаром мультяшного персонажа може змусити цього персонажа танцювати, махати рукою або реагувати у відео без найму аніматора. Творці TikTok створюють персонажів з фотографій, які виконують трендові танці. Час виконання, менше двох хвилин на кліп, дозволяє створювати анімований контент щодня.
Малий бізнес та маркетологи використовують його для швидкої рекламної анімації. Ресторан може сфотографувати свій талісман і змусити його танцювати в рекламі в соціальних мережах. Бренд електронної комерції може анімувати персонажа продукту для висвітлення сюжету. Нульова вартість та комерційне ліцензування роблять його доступним для підприємств, які не можуть дозволити собі студії дизайну руху.
Розробники інді-ігор та художники розкадровок використовують його для створення прототипів. Перш ніж інвестувати в повноцінну анімацію, вони можуть перевірити, як персонаж виглядає в русі. Чи працює поза? Чи рух передає емоції? Viggle дає приблизну, але швидку відповідь.
Освіта — це випадок використання, якого я не очікував побачити, але він має сенс. Вчителі та розробники курсів беруть персонажа-талісмана та анімують його для пояснювальних відео. Набагато цікавіше, ніж статичне зображення на слайд-шоу. Персонаж, який жестикулює, пояснюючи фотосинтез, утримує увагу 12-річної дитини довше, ніж текст та стрілки. Я бачив, як репетитори з мов у TikTok використовують Viggle, щоб анімовані персонажі демонстрували вітання в різних культурах. Креативно, не вимагає багато зусиль, і це працює.
Обмеження та речі, на які слід звернути увагу
Віґґл вражає, але він має реальні межі.
Підтримуються людські зображення, але модель явно була оптимізована для ілюстрованих персонажів. Фотореалістичні результати бувають як вдалими, так і невдалими. Обличчя іноді ніби переходять у дивовижну долину. Руки... вдосконалюються, але все ще є слабким місцем кожного існуючого інструменту для відео зі штучним інтелектом.
30-секундне обмеження означає, що ви не можете створювати довгоформатний контент. Для чогось, що виходить за рамки короткого кліпу, вам потрібно буде редагувати кілька поколінь разом.
Конфіденційність — це обґрунтоване занепокоєння. Ви завантажуєте зображення та відео до хмарного сервісу. На subreddit, присвяченому конфіденційності, була тема про методи роботи з даними Viggle, і хоча компанія впровадила модерацію контенту та тегування метаданих C2PA для відстеження, вам слід подумати, перш ніж завантажувати конфіденційні особисті фотографії. Особливо фотографії інших людей без їхньої згоди. Потенціал діпфейку очевидний, і етична відповідальність лежить на користувачеві.
Відсутність API означає відсутність автоматизованих робочих процесів. Якщо ви хочете вбудувати Viggle у продукт або згенерувати сотні анімацій програмно, вам поки що не пощастило. Все відбувається вручну через веб-додаток або Discord.
Також поки що немає мобільного додатку, який би відтворював повний набір функцій. Додаток для iOS існує, але це спрощена версія, зосереджена на шаблонах мемів, а не на повноцінному робочому процесі Mix/Move. А залежність від Discord, хоча й є частиною того, що побудувало спільноту, створює труднощі для користувачів, які не користуються Discord. Необхідність приєднуватися до сервера, вивчати команди зі слешем та чекати в публічній черзі — це незвичайний досвід роботи з програмним забезпеченням. Веб-додаток допомагає, але він все ще перебуває в розробці та не має деяких функцій.