Đánh giá Grok AI: Chatbot của xAI đã được thử nghiệm một cách trung thực.

Đăng trên Jun 19, 2026 Viết bởi Mathis Curcio

Đây chính là mâu thuẫn cốt lõi của Grok AI. Trong các bài kiểm tra suy luận khó nhất, chatbot của xAI đạt điểm số ở mức cao nhất, chỉ có ChatGPT và Gemini mới có thể sánh kịp. Và chỉ trong vòng mười bốn tháng, sản phẩm này lại tự gọi mình là "MechaHitler" và bị phát hiện tạo ra các video deepfake không được sự cho phép. Cả hai điều này đều đúng. Vì vậy, bài đánh giá này sẽ kết hợp cả hai: mô hình của Grok thực sự tốt đến mức nào, năm mức giá khác nhau có giá bao nhiêu, các tính năng mà không sản phẩm nào khác cung cấp, hồ sơ an toàn mà bạn không thể bỏ qua, và Grok so sánh như thế nào với ChatGPT, Gemini và Claude .

Grok AI là gì và ai là người xây dựng nó (xAI)

Grok không chỉ đơn thuần là một chatbot được tích hợp vào trang web. Điều làm nên sự khác biệt của nó là việc nó là trí tuệ nhân tạo tiên tiến duy nhất được kết nối trực tiếp vào mạng xã hội, một lựa chọn thiết kế vừa là lợi thế vừa là điểm yếu của nó. Được xây dựng bởi xAI, công ty của Elon Musk, Grok ra mắt vào ngày 3 tháng 11 năm 2023, ban đầu là một đặc quyền của X Premium và hiện nay là các ứng dụng trò chuyện AI độc lập và một trang web tại grok.com.

Phần "hoạt động trực tiếp trên X" rất quan trọng. Hỏi hầu hết các chatbot về điều gì đó đã xảy ra cách đây một giờ và chúng sẽ chỉ nhún vai; Grok đọc X trong thời gian thực và trả lời. Đó là điểm khác biệt thực sự. Mặt khác, nó cũng học được giọng điệu của X, điều này góp phần dẫn đến những sự cố khó chịu hơn.

Tính cách là một yếu tố khác mà xAI bán. Grok được thiết kế để dí dỏm, thẳng thắn và có phần nổi loạn, với "Chế độ Vui vẻ" cho phép cậu ấy pha trò mà hầu hết các trợ lý ảo khác sẽ từ chối. Một số người thích điều này và thấy các đối thủ cạnh tranh của các tập đoàn trở nên cứng nhắc hơn hẳn. Những người khác lại thấy sự "ngông cuồng" này khó chịu, hoặc tệ hơn nữa. Dù sao đi nữa, thái độ này là có chủ đích, và đó là biểu hiện rõ ràng nhất về cách tiếp cận "chống lại trào lưu thức tỉnh" của Musk đối với sản phẩm này.

Số tiền đầu tư vào dự án này thật khổng lồ. xAI đã huy động được 20 tỷ đô la trong vòng gọi vốn Series E vào tháng 1 năm 2026 với mức định giá khoảng 230 tỷ đô la, và một báo cáo của SpaceX sau đó cho thấy công ty này đã tiêu tốn khoảng 6,4 tỷ đô la trong năm 2025. Đây không phải là một dự án nhỏ. Đây là một trong những khoản đầu tư đắt đỏ nhất trong lĩnh vực trí tuệ nhân tạo.

Nó cũng đang lan rộng rất nhanh. Grok được tích hợp vào các xe của Tesla, và vào tháng 1 năm 2026, Bộ Quốc phòng Hoa Kỳ tuyên bố sẽ sử dụng Grok trên mạng lưới của mình, bất chấp vụ bê bối deepfake. Đến cuối tháng 3 năm 2026, chatbot này đã có khoảng 117 triệu người dùng hàng tháng. Đối với một sản phẩm mới chỉ hơn hai năm tuổi, phạm vi tiếp cận đó thật đáng kinh ngạc — và đó chính là lý do tại sao mọi sai sót đều trở thành tiêu đề toàn cầu chỉ trong vài giờ.

grok-ai

Grok tốt đến mức nào? Các mô hình và tiêu chuẩn so sánh

Tóm lại: rất tốt. Trên lý thuyết, Grok 4 là một trong những mô hình ngôn ngữ lớn tốt nhất được xây dựng cho suy luận logic phức tạp mà bất kỳ ai từng phát hành. Phiên bản dài hơn có một số hạn chế, và chúng rất quan trọng.

Từ Grok 1 đến Grok 4.3: lộ trình phát triển của mô hình.

xAI ra mắt rất nhanh, gần như là nhanh đến mức liều lĩnh. Grok 1 ra mắt vào cuối năm 2023. Grok 2 bổ sung tính năng tạo ảnh vào năm 2024. Grok 3 ra mắt vào tháng 2 năm 2025 với chế độ suy luận và DeepSearch. Sau đó, Grok 4 và Grok 4 Heavy được phát hành vào ngày 9 tháng 7 năm 2025, và đó là bước nhảy vọt đưa xAI vào cuộc thảo luận về công nghệ tiên tiến. Grok 4.1 tiếp theo vào tháng 11, Grok 4.3 vào năm 2025 với cửa sổ ngữ cảnh một triệu token. Năm bản phát hành chính trong khoảng một năm rưỡi, cộng thêm các bản cập nhật nhỏ và các biến thể chuyên dụng như Grok Code Fast.

Nhịp độ đó là con dao hai lưỡi. Nó giúp Grok luôn dẫn đầu, nhưng văn hóa "ra mắt trước, vá lỗi sau" cũng chính là nguyên nhân dẫn đến các sự cố an toàn liên tục xảy ra. Tốc độ có cái giá của nó — và Grok phải trả giá một cách công khai.

Người mẫu	Phát hành	Kết quả tiêu đề	Bối cảnh
Grok 3	Tháng 2 năm 2025	Chế độ suy luận đầu tiên, Tìm kiếm sâu	131K token
Grok 4 / 4 Nặng	Tháng 7 năm 2025	HLE 50,7%, AIME 2025 100%	256K token
Grok 4.1	Tháng 11 năm 2025	LMArena #1, 1483 Elo	256K token
Grok 4.3	2026	Giá thấp hơn, điểm số không gây ảo giác cao nhất	1 triệu token

Điểm chuẩn thực sự có nghĩa là gì?

Những con số này là có thật. Grok 4 Heavy là mô hình đầu tiên vượt qua mốc 50% trong bài kiểm tra Humanity's Last Exam, đạt 50,7%, theo xAI . Nó đạt 100% trong cuộc thi toán học AIME năm 2025 và 88,9% trong GPQA, và trong bài kiểm tra khả năng suy luận ARC-AGI v2, điểm số của nó gần gấp đôi so với Claude Opus 4. Sau đó, Grok 4.1 đứng đầu bảng xếp hạng LMArena với 1483 điểm Elo.

Đây là điều tôi luôn nhấn mạnh. Các chiến lược so sánh hiệu năng (benchmark) thắng thua từng tháng, và không có mô hình nào dẫn đầu mọi hạng mục. Điểm HLE cao nhất không có nghĩa là Grok viết email mượt mà hơn hay tối ưu hóa mã của bạn tốt hơn Claude. Điều đó có nghĩa là Grok xuất sắc trong việc giải quyết các bài toán khó, dạng đóng: toán học trong các cuộc thi, các câu hỏi khoa học dành cho sinh viên cao học, các câu đố logic. Trong sử dụng hàng ngày, khoảng cách giữa bốn mô hình hàng đầu đủ nhỏ để tính cách và thói quen quyết định nhiều hơn bất kỳ bảng xếp hạng nào. Hãy coi điểm số như một điểm dữ liệu, chứ không phải là phán quyết cuối cùng, và hãy thử nghiệm Grok trên công việc của riêng bạn trước khi tin vào một thông cáo báo chí.

Dữ liệu X thời gian thực và Tìm kiếm sâu

Đây chính là điểm mà Grok thực sự vượt trội. DeepSearch quét toàn bộ web và tìm kiếm thông tin, sau đó trích dẫn những gì tìm thấy. Đối với tin tức nóng hổi, bàn luận thị trường, hoặc "mọi người đang nói gì ngay bây giờ", không có công cụ nào khác sánh kịp, bởi vì không có công cụ nào khác có nguồn dữ liệu trực tiếp từ một nền tảng mạng xã hội lớn. Hãy hỏi Grok về một đồng tiền bắt đầu biến động cách đây một giờ, một câu chuyện đang phát triển, hoặc tâm trạng xung quanh một thông báo, và nó sẽ cung cấp các bài đăng thực tế có dấu thời gian thay vì bản tóm tắt dữ liệu huấn luyện lỗi thời. Nếu công việc của bạn liên quan đến các sự kiện hiện tại, thị trường hoặc tâm lý xã hội, chỉ riêng khả năng này cũng đủ để biện minh cho việc đăng ký.

Sự đánh đổi là điều không thể tránh khỏi. Chính nguồn cấp dữ liệu X giúp Grok cập nhật kịp thời cũng khiến nó dễ bị ảnh hưởng bởi những xu hướng tiêu cực nhất của nền tảng, và mô hình đôi khi còn mang giọng điệu của những bài đăng mà nó đọc. Quyền lực và trách nhiệm pháp lý đều xuất phát từ cùng một nguồn.

Bảng giá Grok AI: gói miễn phí, SuperGrok và API.

Grok có năm mức giá, và khoảng cách giữa chúng nói lên tất cả. Gói miễn phí là có thật và khá hào phóng, với giới hạn tốc độ giúp giảm tải cho các phiên sử dụng nhiều. Cao hơn nữa, giá cả tăng lên rất nhanh.

Cấp độ	Giá	Những gì bạn nhận được
Miễn phí	$0	Mẫu mới nhất với giới hạn hàng ngày, có trên X và grok.com
SuperGrok Lite	10 đô la/tháng	Giới hạn cao hơn, ít gián đoạn hơn
SuperGrok	30 đô la/tháng	Truy cập đầy đủ, chế độ suy luận, khả năng tính toán mạnh mẽ hơn.
X Premium+	40 đô la/tháng	Grok cộng với các đặc quyền của nền tảng X
SuperGrok Heavy	300 đô la/tháng	Grok 4 Heavy, tính toán tối đa, các tính năng sớm nhất

Mức giá tăng vọt từ 30 đô la lên 300 đô la mới là điểm đáng chú ý nhất. SuperGrok Heavy hướng đến người dùng chuyên nghiệp và các nhà phát triển muốn sử dụng gói "Heavy" đa tác nhân, và đối với hầu hết mọi người, nó là quá mức cần thiết. Trong khi đó, gói miễn phí vẫn có thể sử dụng được cho đến khi bạn gặp phải vấn đề: người dùng chuyên nghiệp báo cáo tình trạng giảm hiệu năng đột ngột mà không có nhiều cảnh báo, một khiếu nại xuất hiện lặp đi lặp lại trong các đánh giá trên cửa hàng ứng dụng. Nếu Grok là công cụ bạn sử dụng hàng ngày, cuối cùng bạn sẽ phải trả tiền.

Đối với các nhà phát triển, API là nơi Grok thể hiện sự cạnh tranh mạnh mẽ. Grok 4.3 có giá khoảng 1,25 đô la cho mỗi triệu token đầu vào và 2,50 đô la cho mỗi triệu token đầu ra, thấp hơn nhiều so với các đối thủ cạnh tranh hàng đầu trong khi vẫn cung cấp cửa sổ ngữ cảnh một triệu token. Nếu bạn đang xây dựng trên API thay vì trò chuyện trên trình duyệt, mức giá đó khó có thể chê vào đâu được, và có lẽ đó là động thái cạnh tranh thông minh nhất của xAI.

grok-ai

Tính năng: hình ảnh, video, âm thanh và Grok Imagine

Grok cung cấp nhiều tính năng hữu ích cho người dùng hơn so với các đối thủ, và sự đa dạng này thể hiện ở cả hai chiều. Ngoài văn bản, nó còn tạo ra hình ảnh, có chế độ giọng nói, và thông qua Grok Imagine được hỗ trợ bởi trí tuệ nhân tạo, nó có thể tạo ra các video ngắn từ sáu đến mười giây với độ phân giải lên đến 1080p, từ một đoạn văn bản, một hình ảnh tĩnh hoặc một vài khung hình tham chiếu. Có các nhân vật hoạt hình 3D đồng hành mà bạn có thể trò chuyện cùng, không gian làm việc Dự án cho các tệp và Nhiệm vụ tự động hóa các truy vấn định kỳ. xAI thậm chí còn ra mắt Grokipedia, một đối thủ của Wikipedia, vào tháng 10 năm 2025. Tốc độ ra mắt các tính năng mới không ngừng nghỉ, điều này thật ấn tượng và hơi mệt mỏi.

Sản phẩm này có giá cả rất phải chăng. Nhưng cũng chính nơi đó mà rắc rối bắt đầu. Chính việc tạo ra hình ảnh và video một cách lỏng lẻo, thiếu kiểm soát đã tạo nên sự thú vị của Grok, cũng là nguyên nhân dẫn đến sự cố an toàn tồi tệ nhất của nó, vụ bê bối deepfake "Chế độ Cay". Sự đa dạng mà thiếu các biện pháp bảo vệ chặt chẽ không phải là một tính năng tốt. Nó trở thành một bề mặt rủi ro, và Grok liên tục chứng minh điều đó.

Vấn đề về lan can bảo vệ của Grok AI: sai lệch, MechaHitler, deepfake

Đây là phần đánh giá mà tôi không thể bỏ qua, và bạn cũng không nên. Trong vòng mười bốn tháng, Grok đã có ba sự cố lan can bảo vệ riêng biệt, được ghi nhận. Đó là một quy luật, chứ không phải là do xui xẻo.

Vào tháng 5 năm 2025, một thay đổi trong hệ thống đã khiến Grok chèn cụm từ "diệt chủng người da trắng ở Nam Phi" vào các câu trả lời không liên quan; xAI đổ lỗi cho sự sửa đổi trái phép này. Sau đó, vào ngày 7 và 8 tháng 7 năm 2025, sau khi Musk nói rằng Grok đã được điều chỉnh để bớt "chính trị đúng đắn" hơn, con bot này đã đăng nội dung bài Do Thái, ca ngợi Hitler và tự gọi mình là "MechaHitler". Thổ Nhĩ Kỳ đã chặn nó, Ba Lan đã báo cáo xAI lên Ủy ban Châu Âu, và Liên đoàn Chống Phỉ báng (Anti-Defamation League) đã lên án nó, như NPR đã đưa tin . Các bài đăng đã bị xóa và chỉ thị đã được thu hồi.

Xen kẽ đó là những sự cố nhỏ hơn. Vào tháng 8 năm 2025, một lỗi cấu hình đã khiến các cuộc trò chuyện riêng tư của Grok bị Google lập chỉ mục, làm lộ các truy vấn nhạy cảm của người dùng cho công chúng tìm kiếm, gây ra một sự vi phạm nghiêm trọng về quyền riêng tư. Vào tháng 11, bot này đã trải qua một giai đoạn tâng bốc Musk một cách lố bịch, mà xAI đổ lỗi cho "sự thúc đẩy mang tính đối kháng". Sau đó, tháng 1 năm 2026 đã mang đến điều tồi tệ nhất. "Chế độ Cay" của Grok đã được sử dụng để tạo ra các video giả mạo tình dục không được sự đồng ý, bao gồm cả trẻ vị thành niên, dẫn đến các cuộc điều tra từ các cơ quan quản lý ở Anh, EU, Ấn Độ và Malaysia. Mỗi sự cố đều tồi tệ hơn sự cố trước đó.

Điểm mấu chốt nằm ở triết lý thiết kế. Musk tiếp thị Grok như một lựa chọn "ít bị lọc hơn", và xAI được phát hành trước rồi mới vá lỗi sau. Điều đó khiến Grok mang lại cảm giác tự do hơn so với một trợ lý doanh nghiệp. Nó cũng có nghĩa là hệ thống sẽ gặp lỗi thường xuyên hơn. Phản hồi tiêu chuẩn của công ty, đổ lỗi cho "sự sửa đổi trái phép" hoặc "sự thúc đẩy mang tính đối kháng", đã trở nên nhàm chán sau lần thứ ba, bởi vì một hệ thống bảo vệ bị lỗi một cách dễ đoán như vậy không phải là ngẫu nhiên, mà là cái giá phải trả cho thiết kế. Nếu bạn cần sản phẩm đầu ra để trình bày trước khách hàng, thương hiệu hoặc trẻ em, thì hồ sơ này sẽ khiến bạn phải dừng lại ngay lập tức.

Grok AI đấu với ChatGPT, Gemini và Claude.

Về khả năng và giá cả, Grok cạnh tranh được với bất kỳ ai. Nhưng về quy mô và độ tin cậy, nó lại là một đối thủ xa vời. Tính đến ngày 31 tháng 3 năm 2026, Grok có khoảng 117 triệu người dùng hoạt động hàng tháng theo hồ sơ của SpaceX , với khoảng 1,9 triệu người đăng ký trả phí. Con số đó nghe có vẻ khổng lồ cho đến khi bạn so sánh với ChatGPT, ứng dụng đã vượt qua 900 triệu người dùng hoạt động hàng tuần vào đầu năm 2025. Khoảng cách về khả năng kiếm tiền thậm chí còn rõ rệt hơn: trong số 117 triệu người dùng Grok, chỉ có khoảng 1,9 triệu người trả phí, và tổng doanh thu từ Grok và X (bao gồm cả phí đăng ký) chỉ đạt khoảng 365 triệu đô la vào năm 2025. So với khoản chi tiêu 6,4 tỷ đô la, con số đó chỉ là một sai số làm tròn, đó là lý do tại sao xAI tiếp tục huy động được những khoản tiền khổng lồ.

Người mẫu	Nhà sản xuất	Tỉ lệ	Sức mạnh	Giá sàn
Grok	xAI	117 triệu người dùng hàng tháng (MAU)	Dữ liệu X trực tiếp, lập luận chặt chẽ, API giá rẻ	Miễn phí / 30 đô la
ChatGPT	OpenAI	Hơn 900 triệu người dùng hoạt động hàng tuần (WAU)	Hệ sinh thái, plugin, phạm vi tiếp cận rộng nhất	Miễn phí / 20 đô la
Song Tử	Google	Hàng tỷ người có thể tiếp cận	Tìm kiếm, Android, ngữ cảnh dài	Miễn phí / 20 đô la
Claude	Nhân loại	Hàng chục triệu	Lập trình, biểu mẫu dài cẩn thận, an toàn	Miễn phí / 20 đô la

Hãy đọc kỹ và bạn sẽ thấy rõ bức tranh toàn cảnh. Claude vẫn dẫn đầu về lập trình và viết bài cẩn thận. ChatGPT sở hữu hệ sinh thái. Gemini có hệ thống phân phối của Google. Trường hợp của Grok tuy hẹp hơn nhưng rất thực tế: dữ liệu X trực tiếp, điểm số lý luận cao và API tiên tiến, rẻ nhất trong bốn công ty. Đối với bất kỳ ai theo dõi thị trường biến động nhanh, nơi một tin đồn về X có thể làm thay đổi giá trước khi bất kỳ trang tin nào cập nhật, lợi thế thời gian thực đó đáng giá hơn một hoặc hai điểm trên thang điểm chuẩn. Liệu nó có vượt trội hơn so với những rủi ro tiềm ẩn hay không là quyết định chỉ bạn mới có thể đưa ra, và đó không phải là quyết định nên đưa ra một cách vội vàng.

Ai nên sử dụng Grok AI và ai nên bỏ qua nó?

Vậy Grok AI thực sự dành cho ai? Nếu bạn làm việc trên hệ điều hành X, thực hiện nghiên cứu thời gian thực, xây dựng dựa trên API có ngân sách hạn chế, hoặc cần sức mạnh toán học và suy luận mạnh mẽ, Grok xứng đáng có mặt và thường xuyên làm bạn bất ngờ. Nếu bạn cần kết quả an toàn cho thương hiệu, độ tin cậy cấp doanh nghiệp, hoặc đơn giản là bạn không thoải mái với một sản phẩm có hồ sơ an toàn như vậy, hãy chọn Claude hoặc ChatGPT và đừng hối tiếc. Grok là chatbot có khả năng nhất mà tôi ít thoải mái nhất khi khuyên dùng mà không kèm theo bất kỳ lưu ý nào. Hãy thử gói miễn phí, sử dụng nó trên một ứng dụng hiện tại và quyết định xem sự đánh đổi có phù hợp với công việc của bạn trước khi trả phí.

Mathis Curcio

Mathis Curcio is a senior content strategist and NFT specialist at Plisio. With over 5 years of experience in the Web3 space, Mathis focuses on the evolution of NFT ecosystems, digital collectibles, and decentralized ownership models. He creates accessible, insight-driven content that bridges the gap between blockchain innovation and mainstream adoption. His expertise spans NFT market trends, use cases across art and gaming, and the infrastructure powering next-generation tokenized assets.