هوش مصنوعی Viggle چیست؟ ابزار ساخت میم و انیمیشن که همهگیر شد
یک نفر یک شخصیت را از یک عکس استوک به داخل رقص فورتنایت انداخت و... خوب به نظر رسید. نه اینکه «برای هوش مصنوعی خوب» باشد، خوب. در واقع خوب. حرکت روان. فیزیک منطقی. وزن شخصیت هنگام چرخش به طور طبیعی تغییر میکرد، لباسهایش مانند پارچه واقعی حرکت میکردند و کل ماجرا شاید دو دقیقه طول میکشید تا ساخته شود. آن ویدیو در اوایل سال ۲۰۲۴ در توییتر منتشر شد و ظرف یک هفته همه در مورد هوش مصنوعی ویگل صحبت میکردند.
من کلیپ را دیدم، فکر کردم محتوای بازاریابی گلچین شدهای است و خودم رفتم تا آن را امتحان کنم. یک عکس آپلود کردم، یک الگوی حرکت رقص انتخاب کردم، حدود نود ثانیه صبر کردم. نتیجه ناقص اما واقعاً چشمگیر بود. شخصیت عکس من در حال رقصیدن بود. به صورت سه بعدی. با فیزیک. به صورت رایگان. روی یک ربات Discord. آن لحظه بود که متوجه شدم این ابزار با هیاهوی معمول ویدیوهای هوش مصنوعی متفاوت است.
ویگل در کمتر از یک سال از صفر به ۱.۶ میلیون عضو در دیسکورد رسید. این ابزار در سال ۲۰۲۴ به موتور محرک نیمی از محتوای میم هوش مصنوعی در رسانههای اجتماعی تبدیل شد. و فناوری پشت آن، مدلی به نام JST-1 که در واقع فیزیک سهبعدی را درک میکند و نه فقط پیکسلهای دوبعدی منطبق با الگو، چیزی واقعاً جدید در فضای ویدیوی هوش مصنوعی را نشان میدهد. این مقاله به بررسی ویگل، نحوه کار JST-1، نحوه استفاده گام به گام از این ابزار و مقایسه آن با نامهای بزرگتر در تولید ویدیوی هوش مصنوعی میپردازد.

هوش مصنوعی ویگل چیست و چرا اهمیت دارد؟
Viggle AI یک پلتفرم انیمیشن شخصیت است که تصویر ثابت یک شخص یا شخصیت را میگیرد و آن را به حرکت در میآورد. نه به روش عجیب و غریب "بزرگنمایی و حرکت روی عکس" که اکثر ابزارهای هوش مصنوعی انجام میدهند. Viggle حرکت سهبعدی واقعی ایجاد میکند. شخصیت میچرخد، راه میرود، میرقصد، میپرد و این حرکت مطابق با قوانین فیزیک است: جاذبه، انتقال وزن، پارچه، تکانه.
این شرکت توسط تیمی با پیشینه در بینایی کامپیوتر و مدلسازی سهبعدی تأسیس شد. آنها JST-1 را ساختند که مخفف Joint Space-Time است و آن را به عنوان «اولین مدل پایه ویدیویی سهبعدی که با درک واقعی فیزیک همراه است» توصیف میکنند. این ادعا ارزش بررسی دارد زیرا همان چیزی است که Viggle را از هر چیز دیگری در این دسته متمایز میکند.
اکثر ابزارهای ویدیویی هوش مصنوعی (Runway Gen-3، Pika، Kling) با پیشبینی فریم بعدی بر اساس فریم قبلی، ویدیو تولید میکنند. آنها در فضای پیکسلی دوبعدی کار میکنند. خروجی تا زمانی که یک شخصیت نیاز به چرخش به پهلو، تعامل با یک شیء یا حرکت به روشی که دادههای آموزشی پوشش نمیدادند، نداشته باشد، خوب به نظر میرسد. سپس اوضاع عجیب میشود: اندامها از بدن عبور میکنند، نسبتها تغییر میکنند، جاذبه از کار میافتد.
JST-1 رویکرد متفاوتی را در پیش میگیرد. این نرمافزار یک نمایش سهبعدی از شخصیت را از تصویر ورودی بازسازی میکند، ساختار اسکلتی شخصیت را درک میکند و سپس آن مدل سهبعدی را طبق قوانین فیزیک، قبل از رندر کردن خروجی ویدیوی دوبعدی نهایی، متحرکسازی میکند. شخصیت دارای حجم، وزن و مفاصل است. وقتی میرقصد، پاها با نیروی مناسب از زمین جدا میشوند. وقتی میچرخد، پرسپکتیو به درستی تغییر میکند زیرا مدل میداند که شخصیت پشت دارد، نه فقط جلو.
آیا خروجی بینقص است؟ خیر. صحنههای پیچیده هنوز هم مصنوعات ایجاد میکنند. تعاملات چند شخصیتی غیرقابل اعتماد هستند. و این مدل با شخصیتهای کارتونی و انیمه بهتر از انسانهای واقعگرایانه کار میکند. اما برای انیمیشن تک شخصیتی از یک تصویر ثابت، Viggle نتایجی تولید میکند که من در هیچ ابزار مصرفی با این قیمت ندیدهام. که البته رایگان است.
نحوه استفاده از Viggle AI: راهنمای گام به گام
ویگل در دو جا اجرا میشود: یک اپلیکیشن وب و یک ربات دیسکورد. ربات دیسکورد ابتدا ارائه شد و هنوز هم رابط کاربری اصلی این انجمن است. در اینجا نحوه عملکرد هر ویژگی اصلی آورده شده است.
میکس: رویداد اصلی
میکس چیزی بود که ویگل را وایرال کرد. شما دو ورودی به آن میدهید: یک تصویر شخصیت و یک ویدیوی متحرک. ویگل شخصیت را از تصویر شما استخراج میکند، آنها را روی حرکت ویدیو نگاشت میکند و نتیجه را رندر میکند.
گام به گام: برنامه وب Viggle یا Discord را باز کنید. از دستور /mix استفاده کنید. یک تصویر واضح از یک شخصیت (یک نفر، بدن قابل مشاهده، نورپردازی خوب) آپلود کنید. یک ویدیوی کوتاه با حرکتی که میخواهید (رقص، راه رفتن، یک ژست) آپلود کنید. پسزمینه خود را انتخاب کنید: صفحه سبز، سفید یا اصلی. دکمه generate را بزنید. ۶۰ تا ۱۲۰ ثانیه صبر کنید. ویدیویی از شخصیت خود در حال انجام حرکت از کلیپ مرجع دریافت خواهید کرد.
نتایج به شدت به ورودیهای شما بستگی دارد. تصاویر تمیز از شخصیتها با اندامهای قابل مشاهده بهترین عملکرد را دارند. پسزمینههای نامرتب، قسمتهای بدن مبهم یا زوایای شدید، مدل را گیج میکنند. ویدیوهای متحرک زمانی بهترین عملکرد را دارند که یک فرد را در حال انجام حرکات واضح و مشخص نشان دهند. حرکات ظریف سختتر از رقصهای بزرگ هستند.
حرکت: متحرکسازی با حفظ پسزمینه
Move شبیه Mix است اما پسزمینه اصلی شخصیت را نگه میدارد. تصویر شخصیت را آپلود کنید، یک ویدیوی متحرک آپلود کنید و سیستم شخصیت را متحرکسازی میکند و در عین حال هر صحنهای را که در آن ایستاده است حفظ میکند. وقتی میخواهید زمینه را درک کنید مفید است: شخصی که پشت میزش نشسته ناگهان شروع به رقصیدن میکند، شخصیتی در پارک که دست تکان میدهد.
ایدهپردازی و سبکسازی
Ideate مفاهیم ویدیویی را از متنهای پیشنهادی تولید میکند. آنچه را که میخواهید توصیف کنید و مدل یک ویدیو تولید میکند. Stylize به شما امکان میدهد سبک بصری یک شخصیت یا انیمیشن موجود را تغییر دهید. هر دو نسبت به Mix and Move تجربیتر هستند و نتایج کمتر قابل پیشبینی هستند.
دستور /character
این به شما امکان میدهد یک شخصیت ماندگار ایجاد کنید که بتوانید در چندین انیمیشن از آن استفاده مجدد کنید. یک بار تصویر را بارگذاری کنید، آن را به عنوان یک شخصیت ذخیره کنید و در میکسهای بعدی بدون نیاز به بارگذاری مجدد هر بار، به آن ارجاع دهید. برای سازندگان محتوا که در حال ساخت یک شخصیت تکرارشونده (یک نماد، یک آواتار، یک شخصیت برند) هستند، این امر باعث صرفهجویی قابل توجهی در زمان میشود.
قیمتگذاری ویگل: چه چیزهایی رایگان و چه چیزهایی پولی هستند
ویگل از مدل فریمیوم استفاده میکند و نسخه رایگان آن در مقایسه با اکثر ابزارهای ویدیویی هوش مصنوعی، به طرز شگفتآوری سخاوتمندانه است.
| ویژگی | رایگان | پریمیوم |
|---|---|---|
| نسل در روز | محدود (متغیر) | محدودیتهای بالاتر |
| اولویت صف | استاندارد (ممکن است کند باشد) | پردازش اولویتدار |
| طول ویدیو | تا 30 ثانیه | تا 30 ثانیه |
| وضوح تصویر | استاندارد | کیفیت بالاتر |
| واترمارک | بله | حذف شد |
| حقوق تجاری | بله (بدون حق امتیاز) | بله (بدون حق امتیاز) |
| شخصیتهای چندگانه | فقط قالبها | گزینههای بیشتر |
بخش حقوق تجاری قابل توجه است. ویگل اظهار میکند که محتوای تولید شده "کاملاً بدون حق امتیاز" است و "حقوق کامل استفاده تجاری برای هر ویدیویی که تولید میکنید" را دارد. این غیرمعمول است. اکثر پلتفرمهای ویدیویی هوش مصنوعی یا استفاده تجاری را در سطوح رایگان محدود میکنند یا مجوز سازمانی را دریافت میکنند. ویگل به شما امکان میدهد بدون هزینه اضافی از خروجی برای بازاریابی، رسانههای اجتماعی یا هر هدف تجاری دیگری استفاده کنید.
قیمتگذاری نسخه پریمیوم در طول زمان تغییر کرده و بر اساس منطقه متفاوت است. برای اطلاع از نرخهای فعلی، مستقیماً به viggle.ai مراجعه کنید. آخرین باری که بررسی کردم، قیمت نسخه پولی کمتر از 20 دلار در ماه بود و عمدتاً واترمارکها حذف شده، اولویت صف افزایش یافته و محدودیتهای تولید روزانه افزایش یافته بود.
ویگل در مقابل رانوی در مقابل پیکا در مقابل کلینگ: جایگاه هر کدام کجاست؟
فضای تولید ویدیوی هوش مصنوعی به سرعت شلوغ شده است. در اینجا جایگاه ویگل (Viggle) نسبت به ابزارهایی که اکثر مردم آن را با آنها مقایسه میکنند، آمده است.
| ابزار | بهترین در | فیزیک/سهبعدی | قیمتگذاری | انیمیشن شخصیت |
|---|---|---|---|---|
| هوش مصنوعی ویگل | حرکت تکحرفی، میمها | JST-1 (فیزیک سهبعدی) | رایگان + پولی | عالی |
| باند فرودگاه نسل ۳ | تولید ویدئوی سینمایی | پیشبینی پیکسل دوبعدی | ۱۲ تا ۷۶ دلار در ماه | متوسط |
| پیکا | کلیپهای سریع و استایلدار | پیشبینی پیکسل دوبعدی | رایگان + ۸ تا ۵۸ دلار در ماه | پایه |
| هوش مصنوعی کلینگ | ویدیوی طولانیتر، همگامسازی لب | دوبعدی با کمی سهبعدی | رایگان + پولی | خوب |
| متحرک سازی هر کسی (منبع باز) | انتقال ژست در سطح تحقیقاتی | انتشار دوبعدی | رایگان (خود میزبان) | خوب اما فنی |
ویگل (Viggle) قصد رقابت با Runway در کیفیت سینمایی را ندارد. قصد جایگزینی Pika برای کلیپهای سریع رسانههای اجتماعی را هم ندارد. حوزه فعالیت آن به طور خاص انیمیشن شخصیت است: گرفتن تصویر ثابت از یک شخص یا شخصیت و ایجاد حرکت قانعکننده در آن. در این حوزه خاص، درک فیزیک JST-1 به آن برتریای میدهد که ابزارهای مبتنی بر پیکسل نمیتوانند با آن رقابت کنند.
نقطه ضعف Viggle این است که نمیتواند مانند Runway یا Pika از ابتدا ویدیو تولید کند. شما به یک تصویر ورودی و یک مرجع حرکت نیاز دارید. این انیمیشن است، نه تولید. مدت زمان خروجی به 30 ثانیه محدود میشود. و در حال حاضر بهترین عملکرد را با شخصیتهای مصور یا کارتونی دارد. انسانهای واقعگرا گاهی اوقات به قلمروی درههای وهمآلود میرسند که در آن بازسازی سهبعدی، اشتباهات ظریفی در ویژگیهای صورت و بافت پوست ایجاد میکند.
نقطه قوت ویگل: کیفیت حرکت در این بازه قیمتی بینظیر است. یک نسل رایگان ویگل با ورودی خوب، حرکت فیزیکی قانعکنندهتری نسبت به اشتراک ۷۶ دلاری ماهانه Runway برای انیمیشن شخصیت ایجاد میکند. دلیلش این است که مدل ویگل در واقع فضای سهبعدی را درک میکند و بقیه آن را از الگوهای دوبعدی حدس میزنند.

کاربرد واقعی Viggle چیست: موارد استفاده واقعی
مورد استفاده از میم همان چیزی است که ویگل را به ۱.۶ میلیون عضو در دیسکورد رسانده است، اما کاربردهای عملی بیشتری نیز وجود دارد.
تولیدکنندگان محتوا از آن برای متحرکسازی آواتار یا شخصیت خود برای رسانههای اجتماعی استفاده میکنند. یک یوتیوبر با آواتار یک شخصیت کارتونی میتواند بدون استخدام انیماتور، آن شخصیت را در ویدیوها به رقص، دست تکان دادن یا واکنش وادار کند. تولیدکنندگان تیکتاک شخصیتهای عکسها را به رقصهای پرطرفدار تبدیل میکنند. زمان تولید، کمتر از دو دقیقه برای هر کلیپ، تولید محتوای متحرک روزانه را امکانپذیر میکند.
کسبوکارهای کوچک و بازاریابان از آن برای انیمیشنهای تبلیغاتی سریع استفاده میکنند. یک رستوران میتواند از نماد خود عکس بگیرد و آن را در یک تبلیغ در رسانههای اجتماعی به رقص درآورد. یک برند تجارت الکترونیک میتواند یک شخصیت محصول را برای یک داستان برجسته متحرکسازی کند. هزینه صفر و مجوز تجاری، آن را برای کسبوکارهایی که توانایی مالی استودیوهای طراحی حرکت را ندارند، قابل دسترس میکند.
توسعهدهندگان بازیهای مستقل و هنرمندان استوریبورد از آن برای نمونهسازی اولیه استفاده میکنند. قبل از سرمایهگذاری روی انیمیشن کامل، میتوانند آزمایش کنند که یک شخصیت در حال حرکت چگونه به نظر میرسد. آیا ژست مناسب است؟ آیا حرکت، احساسات را منتقل میکند؟ ویگل یک پاسخ تقریبی اما سریع میدهد.
آموزش یک مورد کاربردی است که انتظار نداشتم ببینم، اما منطقی است. معلمان و سازندگان دورههای آموزشی، یک شخصیت نمادین را انتخاب میکنند و آن را برای ویدیوهای توضیحی متحرک میکنند. بسیار جذابتر از یک تصویر ثابت روی یک اسلاید. شخصیتی که هنگام توضیح فتوسنتز حرکاتی انجام میدهد، توجه یک کودک ۱۲ ساله را بیشتر از متن و فلش جلب میکند. من معلمان زبان را در TikTok دیدهام که از Viggle برای ساخت شخصیتهای انیمیشنی که در فرهنگهای مختلف سلام و احوالپرسی میکنند، استفاده میکنند. خلاقانه، کمزحمت و مؤثر است.
محدودیتها و مواردی که باید به آنها توجه کرد
ویگل (Viggle) چشمگیر است اما محدودیتهای واقعی دارد.
تصاویر انسان پشتیبانی میشوند، اما مدل به وضوح برای شخصیتهای مصور بهینه شده است. نتایج واقعگرایانه یا موفق هستند یا ناموفق. چهرهها گاهی اوقات به قلمرو دره وهمآلود کشیده میشوند. دستها... در حال بهبود هستند، اما هنوز نقطه ضعف هر ابزار ویدیویی هوش مصنوعی موجود هستند.
محدودیت ۳۰ ثانیهای به این معنی است که نمیتوانید محتوای طولانی تولید کنید. برای هر چیزی فراتر از یک کلیپ سریع، باید چندین نسل را با هم ویرایش کنید.
حریم خصوصی یک نگرانی مشروع است. شما در حال آپلود تصاویر و ویدیوها در یک سرویس ابری هستید. بخش حریم خصوصی ردیت، تاپیکی در مورد شیوههای دادهای ویگل داشت و در حالی که این شرکت، مدیریت محتوا و برچسبگذاری ابرداده C2PA را برای ردیابی پیادهسازی کرده است، باید قبل از آپلود عکسهای شخصی حساس، فکر کنید. به خصوص عکسهای افراد دیگر بدون رضایت آنها. پتانسیل دیپفیک آشکار است و مسئولیت اخلاقی بر عهده کاربر است.
نبود API به معنای نبود گردش کار خودکار است. اگر میخواهید Viggle را به یک محصول تبدیل کنید یا صدها انیمیشن را به صورت برنامهنویسی تولید کنید، فعلاً شانسی ندارید. همه چیز از طریق برنامه وب یا Discord به صورت دستی انجام میشود.
همچنین هنوز هیچ برنامه موبایلی وجود ندارد که مجموعه کامل ویژگیها را تکرار کند. برنامه iOS وجود دارد، اما نسخه سادهشدهای است که به جای گردش کار کامل Mix/Move، بر الگوهای میم متمرکز است. و وابستگی به Discord، اگرچه بخشی از چیزی است که جامعه را ساخته است، برای کاربرانی که از Discord استفاده نمیکنند، اصطکاک ایجاد میکند. نیاز به پیوستن به یک سرور، یادگیری دستورات اسلش و انتظار در صف عمومی، یک تجربه نرمافزاری عادی نیست. برنامه وب کمک میکند، اما هنوز در حال توسعه است و برخی از ویژگیها را ندارد.