Viggle AI là gì? Công cụ tạo meme và hoạt hình gây sốt trên mạng.
Ai đó đã lấy một nhân vật từ ảnh có sẵn và ghép vào điệu nhảy Fortnite, và kết quả trông... khá ổn. Không phải kiểu "ổn đối với AI" mà là thực sự ổn. Chuyển động mượt mà. Vật lý hợp lý. Trọng lượng của nhân vật thay đổi tự nhiên khi xoay, quần áo chuyển động như vải thật, và toàn bộ quá trình chỉ mất khoảng hai phút. Video đó xuất hiện trên Twitter vào đầu năm 2024 và chỉ trong vòng một tuần, mọi người đã bàn tán về Viggle AI.
Tôi xem đoạn clip, cho rằng đó chỉ là nội dung tiếp thị được chọn lọc kỹ càng, và quyết định tự mình thử. Tôi tải một bức ảnh lên, chọn một mẫu chuyển động nhảy, chờ khoảng chín mươi giây. Kết quả không hoàn hảo nhưng thực sự ấn tượng. Nhân vật trong ảnh của tôi đã nhảy múa. Trong không gian 3D. Có hiệu ứng vật lý. Miễn phí. Trên một bot Discord. Đó là lúc tôi nhận ra công cụ này khác biệt so với những video AI được quảng cáo rầm rộ thông thường.
Viggle đã tăng từ con số 0 lên 1,6 triệu thành viên Discord chỉ trong chưa đầy một năm. Nó trở thành động lực đằng sau một nửa nội dung meme AI trên mạng xã hội vào năm 2024. Và công nghệ đằng sau nó, một mô hình có tên JST-1 thực sự hiểu vật lý 3D chứ không chỉ đơn thuần là khớp mẫu các pixel 2D, đại diện cho một điều gì đó thực sự mới mẻ trong lĩnh vực video AI. Bài viết này sẽ đề cập đến Viggle là gì, cách thức hoạt động của JST-1, cách sử dụng công cụ này từng bước một và so sánh nó với những tên tuổi lớn hơn trong lĩnh vực tạo video AI.

Viggle AI là gì và tại sao nó lại quan trọng
Viggle AI là một nền tảng hoạt hình nhân vật, cho phép tạo chuyển động cho một hình ảnh tĩnh của người hoặc nhân vật. Không phải theo kiểu "phóng to và lia máy trên ảnh" vụng về như hầu hết các công cụ AI khác. Viggle tạo ra chuyển động 3D thực sự. Nhân vật có thể xoay, đi bộ, nhảy múa, nhảy cao, và chuyển động tuân theo các định luật vật lý: trọng lực, sự chuyển trọng lượng, độ rũ của vải, quán tính.
Công ty được thành lập bởi một nhóm các chuyên gia về thị giác máy tính và mô hình 3D. Họ đã xây dựng JST-1, viết tắt của Joint Space-Time (Không gian-Thời gian chung), và mô tả nó là "mô hình nền tảng video-3D đầu tiên có sự hiểu biết vật lý thực tế". Tuyên bố này đáng được phân tích kỹ hơn vì đó là điều làm nên sự khác biệt của Viggle so với các sản phẩm khác cùng loại.
Hầu hết các công cụ video AI (Runway Gen-3, Pika, Kling) tạo ra video bằng cách dự đoán hình ảnh tiếp theo dựa trên hình ảnh trước đó. Chúng hoạt động trong không gian pixel 2D. Kết quả trông khá tốt cho đến khi nhân vật cần xoay người sang một bên, tương tác với vật thể hoặc di chuyển theo cách mà dữ liệu huấn luyện không bao gồm. Khi đó mọi thứ trở nên kỳ lạ: tay chân xuyên qua cơ thể, tỷ lệ cơ thể thay đổi, trọng lực ngừng hoạt động.
JST-1 áp dụng một phương pháp khác. Nó tái tạo hình ảnh 3D của nhân vật từ hình ảnh đầu vào, hiểu cấu trúc xương của nhân vật, và sau đó tạo hoạt ảnh cho mô hình 3D đó theo các quy tắc vật lý trước khi tạo ra video 2D cuối cùng. Nhân vật có thể tích, trọng lượng và khớp nối. Khi nhảy múa, bàn chân đẩy khỏi mặt đất với lực phù hợp. Khi xoay người, phối cảnh thay đổi chính xác vì mô hình biết nhân vật có lưng, chứ không chỉ có mặt trước.
Liệu kết quả đầu ra có hoàn hảo? Không. Các cảnh phức tạp vẫn tạo ra các lỗi hình ảnh. Tương tác giữa nhiều nhân vật không đáng tin cậy. Và mô hình hoạt động tốt nhất với các nhân vật hoạt hình và anime hơn là con người chân thực như ảnh chụp. Nhưng đối với hoạt hình một nhân vật từ ảnh tĩnh, Viggle tạo ra kết quả mà tôi chưa thấy bất kỳ công cụ nào dành cho người tiêu dùng ở mức giá này sánh kịp. Mà lại là miễn phí.
Hướng dẫn sử dụng Viggle AI từng bước chi tiết
Viggle hoạt động trên hai nền tảng: ứng dụng web và bot Discord. Bot Discord ra đời trước và vẫn là giao diện chính cho cộng đồng. Dưới đây là cách thức hoạt động của từng tính năng cốt lõi.
Mix: sự kiện chính
Chính Mix là thứ đã giúp Viggle trở nên nổi tiếng. Bạn chỉ cần cung cấp hai đầu vào: một hình ảnh nhân vật và một video chuyển động. Viggle sẽ trích xuất nhân vật từ hình ảnh của bạn, ghép chúng vào chuyển động từ video và tạo ra kết quả.
Hướng dẫn từng bước: Mở ứng dụng web Viggle hoặc Discord. Sử dụng lệnh /mix. Tải lên một hình ảnh rõ nét của nhân vật (một người, toàn thân, ánh sáng tốt). Tải lên một video ngắn với chuyển động bạn muốn (nhảy múa, đi bộ, cử chỉ). Chọn phông nền: màn hình xanh lá cây, trắng hoặc phông nền gốc. Nhấn tạo. Chờ 60-120 giây. Bạn sẽ nhận được một video nhân vật của mình thực hiện chuyển động từ video tham khảo.
Kết quả phụ thuộc rất nhiều vào dữ liệu đầu vào của bạn. Hình ảnh nhân vật rõ nét với các chi tiết tay chân hiển thị rõ ràng sẽ cho kết quả tốt nhất. Hình nền lộn xộn, các bộ phận cơ thể bị che khuất hoặc góc quay quá nghiêng sẽ làm rối loạn mô hình. Video chuyển động hoạt động tốt nhất khi chúng thể hiện một người thực hiện các chuyển động rõ ràng, mạch lạc. Các cử chỉ tinh tế khó hơn các điệu nhảy lớn.
Di chuyển: tạo hiệu ứng hoạt hình mà vẫn giữ nguyên phông nền.
Move tương tự như Mix nhưng giữ nguyên bối cảnh ban đầu của nhân vật. Tải lên hình ảnh nhân vật, tải lên video chuyển động, và hệ thống sẽ tạo hoạt ảnh cho nhân vật trong khi vẫn giữ nguyên khung cảnh mà họ đang đứng. Hữu ích khi bạn muốn có bối cảnh: một người đang ngồi ở bàn làm việc đột nhiên nhảy múa, một nhân vật trong công viên đang vẫy tay.
Lên ý tưởng và tạo phong cách
Ideate tạo ra các ý tưởng video từ các gợi ý bằng văn bản. Mô tả những gì bạn muốn và mô hình sẽ tạo ra video. Stylize cho phép bạn thay đổi phong cách hình ảnh của một nhân vật hoặc hoạt hình hiện có. Cả hai đều mang tính thử nghiệm hơn so với Mix and Move, và kết quả ít dự đoán được hơn.
Lệnh /character
Tính năng này cho phép bạn tạo ra một nhân vật cố định mà bạn có thể tái sử dụng trong nhiều hoạt hình khác nhau. Chỉ cần tải ảnh lên một lần, lưu lại dưới dạng nhân vật và tham chiếu đến nó trong các bản phối sau này mà không cần phải tải lại mỗi lần. Đối với những người sáng tạo nội dung xây dựng một nhân vật định kỳ (linh vật, hình đại diện, biểu tượng thương hiệu), điều này giúp tiết kiệm đáng kể thời gian.
Giá cả của Viggle: những gì miễn phí và những gì phải trả phí
Viggle sử dụng mô hình freemium và gói miễn phí có nội dung khá hào phóng so với hầu hết các công cụ chỉnh sửa video bằng AI khác.
| Tính năng | Miễn phí | Phần thưởng |
|---|---|---|
| Số thế hệ mỗi ngày | Có giới hạn (tùy thuộc từng trường hợp) | Giới hạn cao hơn |
| Ưu tiên xếp hàng | Tiêu chuẩn (có thể chậm) | Xử lý ưu tiên |
| Độ dài video | Tối đa 30 giây | Tối đa 30 giây |
| Nghị quyết | Tiêu chuẩn | Chất lượng cao hơn |
| Hình mờ | Đúng | LOẠI BỎ |
| Quyền thương mại | Có (miễn phí bản quyền) | Có (miễn phí bản quyền) |
| Nhiều ký tự | Chỉ có mẫu | Nhiều tùy chọn hơn |
Điều khoản về quyền sử dụng thương mại rất đáng chú ý. Viggle tuyên bố rằng nội dung được tạo ra là "hoàn toàn miễn phí bản quyền" với "toàn bộ quyền sử dụng thương mại đối với mọi video bạn tạo ra". Điều này khá hiếm. Hầu hết các nền tảng video AI đều hạn chế việc sử dụng thương mại ở các gói miễn phí hoặc tính phí cấp phép doanh nghiệp. Viggle cho phép bạn sử dụng sản phẩm đầu ra cho mục đích tiếp thị, mạng xã hội hoặc bất kỳ mục đích thương mại nào mà không phải trả thêm phí.
Giá dịch vụ cao cấp đã thay đổi theo thời gian và khác nhau tùy theo khu vực. Vui lòng kiểm tra trực tiếp trên viggle.ai để biết giá hiện tại. Lần cuối tôi xem, gói trả phí có giá dưới 20 đô la/tháng và chủ yếu bao gồm việc loại bỏ hình mờ, tăng ưu tiên xếp hàng và tăng giới hạn tạo nội dung hàng ngày.
Viggle vs Runway vs Pika vs Kling: vị trí phù hợp
Lĩnh vực tạo video bằng AI đang trở nên cạnh tranh rất nhanh. Dưới đây là vị trí của Viggle so với các công cụ mà hầu hết mọi người thường so sánh với nó.
| Dụng cụ | Giỏi nhất ở | Vật lý/3D | Giá cả | Hoạt hình nhân vật |
|---|---|---|---|---|
| Trí tuệ nhân tạo Viggle | Chuyển động của một nhân vật duy nhất, meme | JST-1 (Vật lý 3D) | Miễn phí + trả phí | Xuất sắc |
| Runway Gen-3 | Tạo video điện ảnh | Dự đoán pixel 2D | 12-76 đô la/tháng | Vừa phải |
| Pika | Các đoạn video ngắn, được cách điệu. | Dự đoán pixel 2D | Miễn phí + 8-58 đô la/tháng | Nền tảng |
| Trí tuệ nhân tạo Kling | Video dài hơn, hát nhép | Hình ảnh 2D kết hợp với một số yếu tố 3D. | Miễn phí + trả phí | Tốt |
| Animate Anyone (mã nguồn mở) | Chuyển đổi tư thế cấp độ nghiên cứu | Khuếch tán 2D | Miễn phí (tự lưu trữ) | Hay nhưng mang tính kỹ thuật. |
Viggle không cố gắng cạnh tranh với Runway về chất lượng điện ảnh. Nó cũng không cố gắng thay thế Pika cho các video ngắn trên mạng xã hội. Lĩnh vực chuyên môn của nó là hoạt hình nhân vật: lấy một hình ảnh tĩnh của một người hoặc nhân vật và làm cho nó chuyển động một cách thuyết phục. Trong lĩnh vực cụ thể đó, khả năng hiểu vật lý của JST-1 mang lại cho nó lợi thế mà các công cụ dựa trên pixel không thể sánh kịp.
Điểm yếu của Viggle: nó không thể tạo video từ đầu như Runway hay Pika. Bạn cần một hình ảnh đầu vào và một hình ảnh tham chiếu chuyển động. Nó là hoạt hình, không phải tạo hình từ đầu. Độ dài video đầu ra bị giới hạn ở 30 giây. Và hiện tại, nó hoạt động tốt nhất với các nhân vật minh họa hoặc hoạt hình. Hình ảnh người chân thực đôi khi rơi vào vùng "thung lũng kỳ lạ" (uncanny valley) nơi quá trình tái tạo 3D tạo ra những sai sót nhỏ trong các đặc điểm khuôn mặt và kết cấu da.
Ưu điểm vượt trội của Viggle: chất lượng chuyển động không gì sánh bằng ở mức giá này. Một mô hình Viggle miễn phí với dữ liệu đầu vào tốt sẽ tạo ra chuyển động vật lý thuyết phục hơn nhiều so với hoạt hình nhân vật được tạo ra bằng gói đăng ký Runway trị giá 76 đô la/tháng. Đó là bởi vì mô hình của Viggle thực sự hiểu không gian 3D, trong khi các mô hình khác chỉ phỏng đoán từ các mẫu 2D.

Nên sử dụng Viggle cho mục đích gì: các trường hợp sử dụng thực tế
Việc sử dụng meme là điều đã giúp Viggle đạt được 1,6 triệu thành viên trên Discord, nhưng còn nhiều ứng dụng thực tiễn khác nữa.
Những người sáng tạo nội dung sử dụng nó để tạo hoạt ảnh cho hình đại diện hoặc nhân vật của họ trên mạng xã hội. Một YouTuber có hình đại diện nhân vật hoạt hình có thể làm cho nhân vật đó nhảy múa, vẫy tay hoặc phản ứng trong video mà không cần thuê người làm hoạt ảnh. Người sáng tạo nội dung trên TikTok tạo ra các nhân vật từ ảnh và thực hiện các điệu nhảy thịnh hành. Thời gian hoàn thành, dưới hai phút mỗi clip, giúp việc sản xuất nội dung hoạt hình hàng ngày trở nên khả thi.
Các doanh nghiệp nhỏ và các nhà tiếp thị sử dụng nó để tạo hoạt ảnh quảng cáo nhanh chóng. Một nhà hàng có thể chụp ảnh linh vật của mình và cho nó nhảy múa trong quảng cáo trên mạng xã hội. Một thương hiệu thương mại điện tử có thể tạo hoạt ảnh cho nhân vật sản phẩm để làm nổi bật câu chuyện. Chi phí bằng không và giấy phép thương mại giúp nó dễ tiếp cận với các doanh nghiệp không đủ khả năng thuê các studio thiết kế chuyển động.
Các nhà phát triển game độc lập và họa sĩ vẽ kịch bản phân cảnh sử dụng nó để tạo mẫu thử. Trước khi đầu tư vào hoạt hình hoàn chỉnh, họ có thể kiểm tra xem nhân vật trông như thế nào khi chuyển động. Tư thế có hiệu quả không? Chuyển động có truyền tải được cảm xúc không? Viggle đưa ra câu trả lời sơ lược nhưng nhanh chóng.
Giáo dục là một trường hợp sử dụng mà tôi không ngờ tới nhưng lại rất hợp lý. Giáo viên và người tạo khóa học sử dụng linh vật nhân vật và hoạt hình hóa nó cho các video giải thích. Điều này thu hút hơn nhiều so với một hình ảnh tĩnh trên slide. Một nhân vật cử chỉ trong khi giải thích về quá trình quang hợp sẽ thu hút sự chú ý của một đứa trẻ 12 tuổi lâu hơn so với văn bản và mũi tên. Tôi đã thấy các gia sư ngôn ngữ trên TikTok sử dụng Viggle để tạo ra các nhân vật hoạt hình minh họa lời chào hỏi trong các nền văn hóa khác nhau. Sáng tạo, ít tốn công sức và hiệu quả.
Những hạn chế và điều cần lưu ý
Viggle rất ấn tượng nhưng nó cũng có những hạn chế nhất định.
Hình ảnh con người được hỗ trợ nhưng mô hình rõ ràng được tối ưu hóa cho các nhân vật minh họa. Kết quả chân thực như ảnh chụp thì lúc được lúc không. Khuôn mặt đôi khi rơi vào vùng "thung lũng kỳ lạ" (uncanny valley). Bàn tay thì... đang được cải thiện, nhưng vẫn là điểm yếu của mọi công cụ chỉnh sửa video bằng AI hiện có.
Giới hạn 30 giây có nghĩa là bạn không thể tạo nội dung dài. Đối với bất kỳ nội dung nào dài hơn một đoạn clip ngắn, bạn sẽ cần chỉnh sửa nhiều phiên bản khác nhau lại với nhau.
Bảo mật thông tin cá nhân là một mối quan ngại chính đáng. Bạn đang tải hình ảnh và video lên dịch vụ lưu trữ đám mây. Cộng đồng Reddit về quyền riêng tư đã có một chủ đề thảo luận về các hoạt động thu thập dữ liệu của Viggle, và mặc dù công ty đã triển khai việc kiểm duyệt nội dung và gắn thẻ siêu dữ liệu C2PA để theo dõi, bạn vẫn nên suy nghĩ kỹ trước khi tải lên những bức ảnh cá nhân nhạy cảm. Đặc biệt là ảnh của người khác mà không có sự đồng ý của họ. Tiềm năng tạo ra ảnh giả mạo (deepfake) là điều hiển nhiên và trách nhiệm đạo đức thuộc về người dùng.
Không có API đồng nghĩa với việc không có quy trình làm việc tự động. Nếu bạn muốn tích hợp Viggle vào một sản phẩm hoặc tạo ra hàng trăm hoạt ảnh bằng lập trình, hiện tại bạn sẽ gặp khó khăn. Mọi thứ đều phải thực hiện thủ công thông qua ứng dụng web hoặc Discord.
Hiện tại cũng chưa có ứng dụng di động nào sao chép đầy đủ các tính năng. Ứng dụng iOS đã có nhưng đó là phiên bản đơn giản hóa, tập trung vào các mẫu meme hơn là quy trình Mix/Move đầy đủ. Và việc phụ thuộc vào Discord, dù là một phần xây dựng cộng đồng, lại tạo ra khó khăn cho người dùng không sử dụng Discord. Việc phải tham gia máy chủ, học các lệnh gạch chéo và chờ trong hàng đợi công khai không phải là trải nghiệm phần mềm thông thường. Ứng dụng web có ích, nhưng nó vẫn đang trong quá trình phát triển và thiếu một số tính năng.