Trí tuệ nhân tạo không thể phát hiện: Công cụ nhận diện con người ChatGPT so với các công cụ phát hiện AI.

Đăng trên Apr 27, 2026 Viết bởi Jordan Morris

Một giáo viên dán bài luận của học sinh vào Turnitin. Kết quả trả về: 92% do AI tạo ra. Học sinh khẳng định mình là người viết. Cả hai đều có thể đúng. Cả hai đều có thể sai. Chào mừng đến với cuộc chạy đua vũ trang hỗn loạn, trị giá hàng tỷ đô la để xem ai thực sự là người viết bất cứ thứ gì trên mạng vào năm 2026.

Từ khóa "AI không thể phát hiện" nằm ở trung tâm của cuộc chiến đó. Nó đề cập đến một loại sản phẩm nhỏ nhưng phát triển nhanh chóng được gọi là các công cụ "AI nhân hóa". Những công cụ này lấy đầu ra của ChatGPT hoặc Gemini và viết lại nó. Mục tiêu là làm cho các công cụ phát hiện như Turnitin, GPTZero và Originality.ai ngừng gắn cờ là văn bản do máy viết. Hơn 20 công ty đang hoạt động trong lĩnh vực này. Thương hiệu lớn nhất, Undetectable.ai, tuyên bố có 11 triệu người dùng với một nhóm 34 người tự lực cánh sinh. Các công cụ phát hiện ở phía bên kia xử lý hàng trăm triệu bài nộp mỗi năm. Như một thỏa thuận dàn xếp của FTC năm 2025 đã chỉ ra, cả hai bên đều có thói quen phóng đại khả năng thực sự của phần mềm của họ. Hướng dẫn này sẽ đi sâu vào từng khía cạnh. Các công cụ AI không thể phát hiện là gì. Cách thức hoạt động của các công cụ phát hiện. Thị trường hiện tại. Tại sao một số nỗ lực vượt qua thành công và một số khác thất bại. Các vụ bê bối về kết quả dương tính giả khiến tòa án và các trường đại học nghi ngờ về khả năng phát hiện. Và ranh giới đạo đức dễ bị vượt qua.

Trí tuệ nhân tạo không thể phát hiện là gì? Giải thích về hạng mục "nhân hóa"

"Trí tuệ nhân tạo không thể phát hiện" là thuật ngữ viết tắt cho một phần mềm viết lại nội dung do AI tạo ra. Mục tiêu: ngăn chặn việc bị các công cụ phát hiện nhận diện là AI. Các sản phẩm này có một vài tên gọi khác nhau. Phần mềm chuyển đổi văn bản thành văn hóa người. Phần mềm vượt qua phát hiện AI. Phần mềm viết lại chống phát hiện. Hầu hết đều tự quảng cáo là công cụ vượt qua phát hiện cho bài viết học thuật và SEO. Chúng hoạt động giữa bạn và các công cụ kiểm tra AI. Bạn dán văn bản từ ChatGPT vào công cụ. Phần mềm chuyển đổi văn bản thành văn hóa người sẽ diễn đạt lại văn bản đó. Phiên bản mới được cho là sẽ vượt qua các công cụ phát hiện AI như Turnitin, GPTZero, Copyleaks hoặc ZeroGPT. Các nhà cung cấp gọi đây là quy trình vượt qua phát hiện bởi AI.

Lĩnh vực này bùng nổ vào năm 2023, sau khi ChatGPT ra mắt, giúp việc tạo ra văn bản do AI thực hiện trở nên dễ dàng hơn bao giờ hết, và các mô hình phát hiện AI cũng dễ tìm hơn. Chỉ trong vòng một năm, hàng chục sản phẩm giúp người đọc tự nhiên hóa văn bản đã ra mắt. Hầu hết chỉ là các lớp diễn đạt lại văn bản đơn giản được xây dựng trên các mô hình ngôn ngữ mã nguồn mở. Những sản phẩm tốt sẽ huấn luyện một AI giúp người đọc tự nhiên hóa văn bản mà không bị phát hiện, dựa trên văn bản của con người và các lỗi của các bộ phát hiện cụ thể. Những sản phẩm kém chất lượng chỉ đơn giản là xáo trộn các từ đồng nghĩa và làm đứt đoạn câu.

Các trường hợp sử dụng mà mọi người quảng cáo rất đa dạng. Người tạo nội dung và nhà tiếp thị "nhân hóa" các bản nháp blog do AI tạo ra để giữ lưu lượng truy cập SEO từ các công cụ tìm kiếm mà không làm cho văn phong nghe có vẻ máy móc. Những người viết tiếng Anh không phải người bản xứ sử dụng bản nháp của họ thông qua một công cụ "nhân hóa" AI miễn phí để làm mềm câu chữ, giúp văn phong tự nhiên hơn. Người dùng học thuật (nhóm gây tranh cãi) sử dụng chúng để che giấu việc sử dụng AI trái phép, đôi khi gần như là đạo văn. Các nhóm hỗ trợ khách hàng đôi khi sử dụng chúng để biến đầu ra của AI thành thứ gì đó giống con người và mang tính đối thoại hơn, giống như những gì một người thực sự sẽ nói. Ranh giới giữa việc chỉnh sửa hợp pháp và gian lận học thuật chính là nơi diễn ra hầu hết các cuộc tranh luận về chính sách, và cách AI không thể phát hiện được có thể được sử dụng trong cả hai bối cảnh là trọng tâm của cuộc tranh cãi. Các nhà cung cấp quảng cáo các tính năng của công cụ AI không thể phát hiện được như là năng suất nhàm chán, trong khi những người chỉ trích coi chúng là cơ sở hạ tầng gian lận.

Thuật ngữ thông dụng	Ý nghĩa của nó là gì
AI nhân hóa	Công cụ viết lại văn bản do AI tạo ra sao cho nghe giống con người hơn.
Công cụ bỏ qua/phát hiện AI	Cùng một sản phẩm, được đặt cạnh các thiết bị dò tìm.
Công cụ viết lại chống phát hiện	Cùng một sản phẩm, được đóng khung để tối ưu hóa SEO.
máy dò AI	Công cụ gắn cờ văn bản do AI tạo ra
Hình mờ	Tín hiệu thống kê được nhúng trong kết quả đầu ra của AI
Nguồn gốc / Chứng thực nội dung	Bản ghi mật mã về nguồn gốc nội dung (C2PA)

Cách các công cụ phát hiện AI gắn cờ và viết lại văn bản ChatGPT

Để vượt qua bộ lọc, bạn phải biết nó tìm kiếm điều gì. Các bộ lọc AI hiện đại dựa vào một số tín hiệu nhất định có xu hướng phân biệt chữ viết máy với chữ viết của con người.

Độ khó hiểu là yếu tố được trích dẫn nhiều nhất. GPTZero, công cụ phát hiện độ khó hiểu dành cho người tiêu dùng ra mắt vào đầu năm 2023, gọi độ khó hiểu là "thước đo bất ngờ" của nó. Các mô hình ngôn ngữ chọn từ tiếp theo có khả năng xảy ra cao nhất. Văn bản dễ đoán, có độ khó hiểu thấp sẽ đọc giống như được máy tạo ra. Con người, đặc biệt là khi họ cảm thấy nhàm chán hoặc bực bội giữa câu, thường đưa ra những lựa chọn từ ngữ kỳ lạ làm tăng độ khó hiểu.

Tiếp theo là sự thay đổi đột ngột về độ dài câu. Văn phong của con người thường rất khác nhau về độ dài và độ phức tạp của câu trong cùng một đoạn văn. Có thể là một đoạn ngắn, rồi đến một câu dài lê thê với ba mệnh đề. Sau đó lại là một câu ngắn gọn chỉ gồm bốn từ. Kết quả đầu ra của LLM thì đồng nhất hơn: các câu thường tập trung quanh mức 14 đến 22 từ và giữ nguyên như vậy. Các công cụ phát hiện đo lường sự khác biệt này.

Tiếp theo là tần suất N-gram. Các cụm từ cụ thể ("delve into," "vibrant tapestry," "in today's rapidly evolving landscape") xuất hiện thường xuyên hơn nhiều sau năm 2023 so với trước đó. Các bộ dò duy trì thư viện mẫu của những dấu hiệu AI này, và các thư viện lớn hơn được cập nhật liên tục.

Và cuối cùng, một bộ phân loại mạng thần kinh được tinh chỉnh. Hầu hết các công cụ phát hiện nội dung hiện đại đều ghép một mô hình thuộc lớp BERT hoặc RoBERTa lên trên các số liệu thống kê. Các thuật toán học máy này được thiết kế để xác định các đoạn văn do AI viết so với các đoạn văn do con người viết. Chúng được huấn luyện trên văn bản do con người và AI viết đã được gắn nhãn. Kết quả đầu ra là điểm xác suất cho nội dung do AI tạo ra. GPTZero hiện tích hợp bảy thành phần riêng biệt. Hồ sơ phong cách học. Tìm kiếm web trực tiếp. Phân tích cấu trúc câu. Các mẫu về độ dài và độ phức tạp đều được đưa vào điểm số.

Một số bộ dò cũng tìm kiếm dấu bản quyền. SynthID của Google nhúng một tín hiệu thống kê vào văn bản Gemini. OpenAI đã xác thực nội bộ dấu bản quyền cho ChatGPT (Wall Street Journal, tháng 8 năm 2024) nhưng chưa phát hành. Theo khảo sát người dùng của chính OpenAI, khoảng 30% người dùng ChatGPT cho biết họ sẽ ít sử dụng sản phẩm hơn nếu đầu ra của họ bị gắn dấu bản quyền. Việc gắn dấu bản quyền hình ảnh đã tiến xa hơn: OpenAI đã tham gia C2PA vào tháng 5 năm 2024 và hiện gắn Chứng chỉ Nội dung vào đầu ra DALL-E 3 theo mặc định.

Trí tuệ nhân tạo không thể phát hiện

Cách thức hoạt động của trí tuệ nhân tạo không thể phát hiện bên trong

Các công cụ chuyển đổi giọng nói thành văn bản tự nhiên tấn công cùng những tín hiệu mà máy dò tìm kiếm, nhưng theo chiều ngược lại. Mỗi công cụ được thiết kế để đảo ngược những gì máy dò đã đánh dấu. Lời chào mời tiếp thị luôn là một biến thể của "trí tuệ nhân tạo không thể phát hiện là một công cụ viết lại tiên tiến biến AI thành văn bản nghe tự nhiên". Các nhà cung cấp cạnh tranh nhau để tuyên bố họ nằm trong số những công cụ viết lại AI chính xác nhất hoặc công cụ phát hiện AI chính xác nhất, tùy thuộc vào việc họ đang ở phía nào trong cuộc chạy đua vũ trang.

Một quy trình xử lý văn bản điển hình bắt đầu đơn giản. Đầu tiên, chạy văn bản đầu vào qua một công cụ diễn giải bằng AI trực tuyến. Mô hình được tinh chỉnh dựa trên văn bản do con người viết. Nó tăng độ khó bằng cách chèn các lựa chọn từ ngữ bất ngờ để làm cho văn bản trở nên tự nhiên hơn. Nó thay đổi cấu trúc câu để phá vỡ sự đơn điệu. Nó thay thế các n-gram bị gắn cờ bằng các cụm từ ít phổ biến hơn. Các nhà cung cấp tuyên bố công cụ của họ có thể biến đổi đầu ra của AI để nghe giống con người hơn. Họ tuyên bố nó vượt qua được các kiểm tra "không thể phát hiện" bởi các bộ lọc AI trong khi vẫn giữ nguyên ý nghĩa ban đầu. Liệu nó có thực sự mang lại nội dung chất lượng cao? Điều đó rất khác nhau giữa các sản phẩm. Một số quảng cáo công cụ này có thể làm cho văn bản của bạn không thể phát hiện được chỉ bằng một cú nhấp chuột. Lời quảng cáo và tuyên bố về khả năng làm cho văn bản không thể phát hiện được không phải lúc nào cũng phù hợp với kết quả thực tế.

Đại học Maryland đã công bố bài báo lý thuyết mạnh mẽ nhất về vấn đề này vào năm 2023. Nhóm nghiên cứu do Soheil Feizi dẫn đầu. Bài báo chưa được xuất bản của họ "Liệu văn bản do AI tạo ra có thể được phát hiện một cách đáng tin cậy?" (arXiv:2303.11156) đưa ra một tuyên bố lớn. Một công cụ diễn giải lại văn bản dựa trên mạng thần kinh đơn giản được đặt trên đỉnh của một mô hình ngôn ngữ sẽ đánh bại mọi phương pháp phát hiện. Kỹ thuật thủy vân. Bộ phân loại thần kinh. Phát hiện không cần huấn luyện. Tất cả đều không hiệu quả. Câu nói của Feizi trong thông cáo báo chí của UMD rất thẳng thắn: "Chúng ta nên làm quen với thực tế rằng chúng ta sẽ không thể phân biệt một cách đáng tin cậy liệu một tài liệu được viết bởi AI hay bởi con người."

Các công cụ chuyển đổi văn bản thành văn bản tự nhiên tốt hơn sẽ tiến xa hơn. Chúng được huấn luyện để chống lại các bộ lọc cụ thể. Nhóm phát triển sản phẩm lấy một tập dữ liệu văn bản AI từ ChatGPT, chạy nó qua Turnitin hoặc GPTZero, và huấn luyện công cụ chuyển đổi để giảm thiểu điểm số mà bộ lọc đưa ra. Mục tiêu là làm cho văn bản AI nghe đủ giống con người để vượt qua bộ phân loại và vượt qua quá trình phát hiện AI. Về cơ bản, đây là huấn luyện đối kháng ngược. Người dùng nhận được một trong nhiều công cụ viết AI được tối ưu hóa để đánh bại một đối thủ cụ thể, và lời chào mời tiếp thị cho mỗi công cụ đều là một phiên bản nào đó của "AI không thể phát hiện sẽ viết lại bản nháp của bạn thành thứ mà các công cụ kiểm tra AI sẽ không phát hiện ra". Các nhà cung cấp nói rằng việc viết lại làm cho nội dung không thể phát hiện được và thường quảng cáo rằng kết quả luôn vượt qua quá trình phát hiện AI. Đó cũng là lý do tại sao tỷ lệ vượt qua khác nhau rất nhiều giữa các bộ lọc đối với cùng một đầu ra chuyển đổi văn bản thành văn bản tự nhiên. Trên thực tế, AI không thể phát hiện giúp giảm điểm số, nhưng hiếm khi làm cho nó bằng không. Các tuyên bố tiếp thị rằng công cụ này chuyển đổi văn bản AI thành văn bản tự nhiên của con người thường phóng đại tính nhất quán.

Sự đánh đổi ở đây là chất lượng. Các đánh giá của người dùng trên DitchNet và r/WritingWithAI trên Reddit đều lặp đi lặp lại cùng một lời phàn nàn. Các công cụ tự động hóa thường chèn thêm những từ ngữ thừa thãi. "Tôi nghĩ." "Theo kinh nghiệm của tôi." Những cụm từ như vậy bị nhét vào những chỗ không phù hợp. Các câu văn bị đứt đoạn. Một số lần xử lý làm mất đi giọng văn đặc trưng của thương hiệu. Một người đánh giá đã xếp hạng sản phẩm ở mức miễn phí "khoảng 5/10 cho nội dung công khai." Công cụ tự động hóa có thể làm giảm điểm số của bộ lọc từ 99% xuống 50%. Nhưng nếu văn bản sau đó trở nên khó đọc, thì lợi ích đạt được chỉ mang tính lý thuyết.

Thị trường bao gồm: Undetectable.ai, BypassGPT, QuillBot và nhiều công ty khác.

Công ty dẫn đầu thị trường là Undetectable.ai. Ở đây, AI là một công cụ, không chỉ là một dịch vụ. Nền tảng này kết hợp một công cụ nhận diện con người bằng AI không thể phát hiện, một công cụ phát hiện miễn phí và một tiện ích mở rộng cho Chrome. Công ty được thành lập vào tháng 1 năm 2023. Các nhà sáng lập: Christian Perry, Devan Leos và Bars Juhasz. Ben Miller gia nhập sau đó với vai trò Giám đốc điều hành (COO). Trụ sở chính hợp pháp đặt tại 1309 Coffeen Avenue ở Sheridan, Wyoming. Thông cáo báo chí cũng liệt kê một trụ sở khác ở Boise, Idaho. Undetectable.ai tự huy động vốn. Không có thông tin về nguồn vốn đầu tư mạo hiểm. Theo PR Newswire, công ty đã đạt 11 triệu người dùng vào tháng 11 năm 2024. Đó là 18 tháng sau khi ra mắt. GetLatka ước tính doanh thu hàng năm (ARR) của Undetectable.ai là 3,7 triệu đô la vào tháng 9 năm 2025. Công ty có khoảng 34 nhân viên. Tracxn đã đưa tin về một đề nghị mua bán sáp nhập chưa được xác nhận vào tháng 4 năm 2025.

Thị trường cạnh tranh rất đa dạng và phân khúc theo giá cả:

Dụng cụ	Người sáng lập / Phụ huynh	Sơ đồ lối vào	Kế hoạch hàng đầu	Đáng chú ý
Undetectable.ai	Christian Perry	9,99 đô la/tháng	Không giới hạn	11 triệu người dùng (tháng 11 năm 2024)
StealthGPT	Jozef Gherman	14,99 đô la/tháng	29,99 đô la/tháng + 4,99 đô la phí bổ sung	Doanh thu 2,2 triệu đô la (tháng 12 năm 2023)
BypassGPT	HIX.AI	6,99 đô la/tháng	29,99 đô la/tháng	Gói miễn phí có giới hạn
Đường vòng HIX	HIX.AI	Tặng 20 tín dụng miễn phí	49,99 đô la/tháng không giới hạn	Định vị cao cấp
QuillBot Humanizer	Learneo (công ty mẹ của Course Hero)	4,17 đô la/tháng (hàng năm)	—	Hơn 50 triệu người dùng trên toàn bộ bộ ứng dụng QuillBot.
Cụm từ	độc lập	Miễn phí 550 từ	12,99 đô la/tháng không giới hạn	Thanh toán hàng năm
Walter viết về Trí tuệ nhân tạo	độc lập	Khoảng 13 đô la/tháng (hàng năm)	Khoảng 25 đô la/tháng	Định vị cao cấp

Undetectable.ai tự định vị mình là giải pháp trọn gói tích hợp cả công nghệ phát hiện và nhận diện giọng nói người thật trong cùng một bảng điều khiển. Công cụ phát hiện của họ tuyên bố độ chính xác 99% và "tỷ lệ phát hiện 100% trong các nghiên cứu được đánh giá bởi chuyên gia". Công cụ nhận diện giọng nói người thật sử dụng phương pháp chấm điểm đa công cụ, nghĩa là nó kiểm tra kết quả đầu ra so với khoảng tám mô hình phát hiện khác nhau cùng lúc trước khi đưa ra kết quả. Tiện ích mở rộng Chrome và khả năng hỗ trợ 50 ngôn ngữ là những điểm khác biệt thực sự.

Trong lĩnh vực tạo nội dung bằng AI, QuillBot là công ty dẫn đầu, thuộc sở hữu của Learneo (cùng công ty mẹ với Course Hero). Bộ công cụ viết toàn diện của QuillBot được hơn 50 triệu người sử dụng, và tính năng AI Humanizer chỉ là một trong hàng chục tính năng khác. Công cụ AI Detector tích hợp trong QuillBot hỗ trợ tối đa 1.200 từ mỗi lần quét miễn phí, sáu lần quét mỗi ngày. Cả hai sản phẩm đều phổ biến với sinh viên, đó chính là lý do tại sao các trường đại học hiện đang theo dõi việc sử dụng QuillBot một cách cụ thể.

Quy mô thị trường khá nhỏ so với mức độ phổ biến của nó. Trí tuệ nhân tạo tạo sinh (Generative AI) nói chung là một lĩnh vực trị giá 59 tỷ đô la vào năm 2025 (Statista). Riêng thị trường công cụ phát hiện AI còn nhỏ hơn nhiều. Theo MarketsandMarkets, con số này chỉ khoảng 0,58 tỷ đô la vào năm 2025 và dự kiến sẽ đạt 2,06 tỷ đô la vào năm 2030. Mảng công cụ nhân hóa giọng nói con người (Humanizer) thậm chí còn nhỏ hơn và phân mảnh hơn. Không có số liệu tổng hợp nào tồn tại. Một ước tính từ dưới lên dựa trên doanh thu được công bố của 30 công cụ được theo dõi cho thấy toàn bộ lĩnh vực này có doanh thu định kỳ hàng năm từ 50 triệu đến 150 triệu đô la.

Liệu trí tuệ nhân tạo có khả năng nhân hóa người thật bằng AI có thực sự vượt qua được các cơ chế phát hiện?

Câu trả lời ngắn gọn: đôi khi, đối với một số loại máy dò, điều này có thể gây ra tổn thất đáng kể về chất lượng.

Câu trả lời chi tiết hơn đến từ các thử nghiệm độc lập. Originality.ai, bản thân là một nhà cung cấp phần mềm dò tìm, đã tiến hành một thử nghiệm có kiểm soát trên công cụ chuyển đổi giọng nói thành giọng người của Undetectable.ai. Cả văn bản ChatGPT gốc và phiên bản được chuyển đổi thành giọng người đều đạt 100% điểm AI trên Originality.ai, với độ tin cậy như nhau. Writer.com hầu như không có sự thay đổi nào (từ 6% xuống 3%). GPTZero giảm từ 100% xuống 91%. Hiệu ứng vượt qua kiểm tra chỉ ở mức tối thiểu trên các phần mềm dò tìm mạnh nhất.

Một đánh giá kỹ lưỡng hơn vào năm 2026 tại Aithor đã tạo ra bảng này bằng cách chạy kết quả đầu ra của Undetectable.ai qua bốn bộ dò:

Máy dò	Điểm AI gốc	Sau khi nhân hóa	Kết quả
GPTZero	97%	72%	Đã bỏ qua một phần
Tính độc đáo.ai	99%	81%	Không bị bỏ qua
Copyleaks	Đã gắn cờ	Đã gắn cờ	Không bị bỏ qua
ZeroGPT	94%	61%	Đã bỏ qua một phần

Mô hình này nhất quán trong các bài đánh giá. ZeroGPT và GPTZero dễ bị loại bỏ hơn. Originality.ai và Copyleaks có xu hướng trụ vững. Đó không phải là sự trùng hợp ngẫu nhiên. Originality.ai được xây dựng đặc biệt để phát hiện văn bản được diễn giải lại một cách ác ý, và các tiêu chuẩn nội bộ của nó (được công bố trong bài báo của Pangram tại JAIT tháng 1 năm 2026) cho thấy tỷ lệ phát hiện khoảng 97% trên các mẫu được diễn giải lại bằng QuillBot.

Những tuyên bố về độ chính xác của nhà cung cấp hiếm khi vượt qua được các cuộc kiểm tra độc lập.

Máy dò	Yêu cầu của nhà cung cấp	Kiểm tra độc lập
Turnitin	Độ chính xác 98%, tỷ lệ dương tính giả <1%.	Độ chính xác thu hồi khoảng 85% (được chính nhân viên sản phẩm của Turnitin thừa nhận); được gắn cờ là các trường hợp do AI tạo ra bị phóng đại.
Tính độc đáo.ai	"Người dẫn đầu ngành"	Mạnh về trí tuệ nhân tạo thô, yếu về khả năng đối kháng.
Copyleaks	99,12%	~50% dựa trên văn bản được diễn giải lại bằng QuillBot.
GPTZero	"Đa lớp 7 thành phần"	Tỷ lệ dương tính giả 1-2% đối với các bài luận trước khi áp dụng AI.
Trí tuệ nhân tạo Winston	99,98%	Biến số: 100% cho bài đăng trên blog, 3% cho mẫu sách điện tử.
Bộ phân loại OpenAI	không áp dụng	26% số người được gọi lại khi công ty đóng cửa vào tháng 7 năm 2023.

Không có thiết bị phát hiện nào hoạt động hoàn hảo trong mọi điều kiện. Các nhà cung cấp tuyên bố ngược lại thường công bố kết quả từ các bài kiểm tra hẹp so với nội dung không thể phát hiện được do AI tạo ra dưới sự kiểm soát chặt chẽ.

Chính hệ thống phân loại AI của OpenAI là bằng chứng rõ ràng nhất. Công ty đã ra mắt nó vào tháng 1 năm 2023, sau đó lặng lẽ đóng cửa vào ngày 20 tháng 7 cùng năm. Lý do: tỷ lệ nhận diện đúng chỉ đạt 26%. Bản thân OpenAI thừa nhận mô hình này "không đáng tin cậy". Họ vẫn chưa phát hành mô hình thay thế. Nghiên cứu về kỹ thuật đóng dấu bản quyền của họ, được xác nhận nội bộ với độ chính xác 99,9% theo báo cáo của WSJ, vẫn chưa được công bố sau hai năm rưỡi.

Kết quả dương tính giả: khi các công cụ phát hiện AI nhận diện sai chữ viết của con người.

Vấn đề đáng chú ý hơn trong giai đoạn 2024-2026 là các thiết bị dò tìm bằng trí tuệ nhân tạo cũng gặp trục trặc nghiêm trọng theo chiều ngược lại.

James Zou của Đại học Stanford và nhóm của ông đã công bố bài báo "Các công cụ phát hiện GPT có thành kiến với người viết tiếng Anh không phải là người bản ngữ" trên tạp chí Patterns (tháng 7 năm 2023, arXiv:2304.02819). Họ đã sử dụng bảy công cụ phát hiện chính để chấm điểm các bài luận TOEFL của sinh viên không phải là người bản ngữ. Các công cụ này đã đánh dấu 61,22% số bài luận đó là do AI tạo ra. Trong khi đó, các công cụ tương tự lại đánh dấu gần như bằng không đối với các bài luận của học sinh lớp 8 sinh ra tại Mỹ. Thành kiến này có một lý do kỹ thuật đơn giản. Sự đa dạng từ vựng thấp hơn và cú pháp đơn giản hơn trong tiếng Anh như ngôn ngữ thứ hai trông "giống AI" đối với các công cụ chấm điểm dựa trên độ phức tạp. Tác hại là rõ ràng. Nó ảnh hưởng nặng nề nhất đến sinh viên quốc tế tại chính những trường đang sử dụng các công cụ này.

Báo cáo năm 2024 của Common Sense Media về tác hại của việc phát hiện AI đã mở rộng bức tranh. Khoảng 10% thanh thiếu niên nói chung cho biết họ bị cáo buộc sai về việc sử dụng AI. Con số này tăng lên 20% ở thanh thiếu niên da đen, so với 7% ở học sinh da trắng và 10% ở học sinh gốc Latinh. Tác động không đồng đều này phản ánh sự thiên vị đã biết trong các mô hình ngôn ngữ cơ bản, cộng với cách giáo viên phản hồi khi một công cụ gắn cờ học sinh.

Vụ bê bối công khai nổi bật nhất xảy ra tại Đại học Texas A&M-Commerce vào tháng 5 năm 2023. Giảng viên nông nghiệp, Tiến sĩ Jared Mumm, đã dán các bài luận của sinh viên vào ChatGPT. Ông hỏi mô hình xem nó có phải là người viết các bài luận đó hay không. ChatGPT trả lời là có cho tất cả. (Nó rất hữu ích, như mọi khi.) Sau đó, Mumm đã cho một nửa số sinh viên trong lớp trượt. Trường đại học đã thay đổi quyết định vài ngày sau đó. Sinh viên đã sử dụng lịch sử phiên bản của Google Docs để chứng minh rằng họ đã tự viết các bài luận. Tờ Washington Post, NBC News, Rolling Stone và Inside Higher Ed đều đưa tin về câu chuyện này.

Các trường đại học lớn hơn bắt đầu vô hiệu hóa hoàn toàn tính năng phát hiện AI của Turnitin. UCLA, UC San Diego, Cal State LA và Vanderbilt đều đã tắt tính năng này. Họ viện dẫn lý do là kết quả dương tính giả và tác động không đồng đều đối với sinh viên quốc tế. Riêng hệ thống Đại học Tiểu bang California đã chi 1,1 triệu đô la cho phần mềm phát hiện AI trong năm học 2024-2025. Tổng chi tiêu của hệ thống công lập California lên tới hơn 15 triệu đô la.

Vào tháng 8 năm 2025, FTC đã ra tay mạnh tay. Workado là tên gọi mới của công ty sở hữu "AI Content Detector" của Content at Scale. Công ty này đã quảng cáo độ chính xác 98%. Tuy nhiên, các nhà điều tra của FTC phát hiện ra rằng độ chính xác thực tế đối với nội dung thông thường chỉ là 53%. Mô hình này chỉ được huấn luyện trên văn bản học thuật. Nó hoạt động kém hiệu quả với bất kỳ loại nội dung nào khác. Lệnh thỏa thuận ngày 28 tháng 8 năm 2025 yêu cầu Workado ngừng đưa ra những tuyên bố không có cơ sở. Lệnh này cũng yêu cầu FTC soạn thảo thông báo cho các khách hàng hiện tại. Đây là hành động thực thi đầu tiên của FTC chống lại một nhà cung cấp phần mềm phát hiện AI vì quảng cáo sai sự thật.

Trí tuệ nhân tạo không thể phát hiện

Ranh giới đạo đức: khi việc nhân hóa văn bản AI trở nên rủi ro

Hầu hết các trường hợp sử dụng trí tuệ nhân tạo để "nhân hóa" con người đều hợp pháp. Hầu hết cũng không phải là gian lận. Điều đó phụ thuộc vào ngữ cảnh.

Việc sử dụng hợp pháp trông như thế này. Một chủ doanh nghiệp nhỏ sử dụng công cụ "nhân hóa" để viết bài đăng trên blog được soạn thảo bằng ChatGPT. Họ muốn làm dịu giọng văn mang tính chất doanh nghiệp. Sau đó, họ chỉnh sửa trước khi xuất bản. Một người viết tiếng Anh không phải là người bản xứ sử dụng công cụ "nhân hóa" giống như cách họ sử dụng công cụ kiểm tra ngữ pháp. Mục tiêu là để tinh chỉnh cách diễn đạt mà không làm thay đổi ý nghĩa. Một nhóm tiếp thị diễn giải lại nội dung sản phẩm nội bộ. Không trường hợp nào trong số này vi phạm chính sách hoặc hợp đồng. Không trường hợp nào giả vờ rằng tác phẩm là thứ mà nó không phải.

Việc sử dụng rủi ro nằm ở khía cạnh học thuật. Hầu hết các trường đại học đều cấm sử dụng AI trái phép trong bài tập. Ngày càng nhiều trường cấm cụ thể các phần mềm AI làm cho giọng nói giống người hơn. Bản cập nhật tháng 8 năm 2025 của Turnitin đã thêm tính năng vượt qua bộ lọc nhằm vào các mẫu làm cho giọng nói giống người hơn phổ biến nhất. Nộp văn bản được AI làm cho giống người hơn vào bài tập yêu cầu bài làm gốc là hành vi gian lận học thuật. Điều này đúng theo hầu hết các chính sách của các trường. Nó đúng cho dù bộ lọc có phát hiện ra bạn hay không. Sự gian lận nằm ở việc lừa dối về quyền tác giả. Việc vượt qua bộ lọc chỉ là phương pháp.

Ngành xuất bản thương mại là một lĩnh vực phức tạp hơn. Tờ New York Times đã chấm dứt hợp đồng với nhà phê bình tự do Alex Preston vào tháng 1 năm 2026. Một cuộc điều tra đã phát hiện ra các đoạn văn do AI tạo ra trong các bài đánh giá sách của ông, được diễn đạt lại từ một bài báo của tờ Guardian. Tờ Washington Post cũng gặp sự cố tương tự vào tháng 12 năm 2025. Một tính năng podcast nội bộ sử dụng AI đã phát tán các trích dẫn bịa đặt. Cuộc điều tra của Semafor đã phanh phui câu chuyện này. Cả hai tòa soạn đều không cấm hoàn toàn việc sử dụng AI. Cả hai đều cấm việc sử dụng AI mà không tiết lộ thông tin, nếu khán giả cho rằng đó là do con người viết.

Một cách tiếp cận đạo đức an toàn hơn sẽ như thế này. Nếu người đọc quan tâm đến việc văn bản được hỗ trợ bởi AI, hãy công khai điều đó. Nếu yêu cầu bài tập cấm sử dụng AI, đừng dùng công cụ "làm cho văn bản giống người hơn" để che giấu sự thật. Không có công cụ AI nào thực sự không thể phát hiện giúp bạn tránh được câu hỏi đạo đức đó. Ngay cả khi AI không thể phát hiện có thể giúp cải thiện cách diễn đạt. Nếu bạn sử dụng công cụ "làm cho văn bản giống người hơn" để nghe bớt khô khan hơn hoặc để sửa lỗi ngữ pháp tiếng Anh (ngôn ngữ thứ hai) trong bản nháp của mình, bạn đang tiến gần hơn đến khía cạnh biên tập trong bối cảnh học thuật và chuyên nghiệp. Hầu hết các chính sách đều ít đề cập đến vấn đề này.

Hướng chính sách đang chuyển dịch từ việc phát hiện nguồn gốc sang việc xác thực. C2PA là viết tắt của Liên minh về Nguồn gốc và Tính xác thực Nội dung. Nó nhúng các Chứng chỉ Nội dung được mã hóa vào hình ảnh và video. OpenAI đã gia nhập ủy ban điều hành vào tháng 5 năm 2024. Hiện tại, công ty này mặc định gắn chứng chỉ vào các đầu ra của DALL-E 3. Adobe, Microsoft, Google, BBC, NYT và Sony đều là thành viên. Đặc tả C2PA đang được đẩy nhanh tiến độ để trở thành tiêu chuẩn ISO. Đối với văn bản, các tiêu chuẩn đóng dấu bản quyền tương đương vẫn chưa được giải quyết ở quy mô lớn. Cho đến khi chúng được triển khai, cuộc chạy đua giữa việc vượt qua hệ thống phát hiện và việc xác thực vẫn tiếp diễn.

Jordan Morris

Jordan Morris is an AI expert with over a decade of experience and the author of a widely-read blog focused on artificial intelligence. His content spans a range of topics—from the ethics of machine learning to real-world applications of neural networks in business. Known for his clear writing and deep insights, Jordan has become a trusted voice in the AI community, appealing to both newcomers and seasoned professionals alike.