Vì sao AI gặp khó trong phát hiện ngôn từ thù hận trên mạng?
Hanna Duggal, Mohammed Haddad
Nhân Ngày Quốc tế chống phát ngôn thù hận, Al Jazeera phân tích những hạn chế của AI trong phát hiện nội dung độc hại trên mạng. Các mô hình ngôn ngữ lớn thường thiếu nhất quán và khó xử lý ngôn ngữ tinh vi như thù hận ngầm hay ngôn ngữ phục hồi.
Phát ngôn thù hận từng chỉ lan truyền trong các cuộc gặp trực tiếp, nay di chuyển xa hơn và nhanh hơn qua các tài khoản ẩn danh trên mạng. Nhân Ngày Quốc tế chống phát ngôn thù hận 18/6, Tổng Thư ký Liên Hợp Quốc Antonio Guterres cảnh báo các nền tảng xã hội đang khuếch đại mối đe dọa này.
Theo định nghĩa của Liên Hợp Quốc, phát ngôn thù hận bao gồm mọi hình thức giao tiếp – lời nói, văn bản hay hành vi – nhằm phân biệt đối xử hoặc kích động bạo lực đối với một người hoặc một nhóm. Đối tượng bị nhắm đến có thể là chủng tộc, sắc tộc, tôn giáo, giới tính, khuynh hướng tình dục hay khuyết tật. Phát ngôn thù hận không chỉ giới hạn ở lời nói mà còn có thể là hình ảnh, biếm họa, cử chỉ và cả đồ vật.
Khảo sát chung năm 2023 của Ipsos và UNESCO với 8.000 người tại 16 quốc gia cho thấy hơn hai phần ba người dùng internet từng bắt gặp phát ngôn thù hận trực tuyến. 33% số người được hỏi cho rằng cộng đồng LGBTQI là nhóm chịu nhiều phát ngôn thù hận nhất, tiếp theo là các nhóm dân tộc và chủng tộc thiểu số (28%) và phụ nữ (18%).
Meta, công ty sở hữu Facebook, đã giảm số lượng bài đăng thù hận bị gỡ bỏ kể từ năm 2023. Trong quý cuối năm 2025, họ gỡ 1,3 triệu bài đăng khỏi Instagram và 1,3 triệu khỏi Facebook, so với 7,4 triệu trên Instagram và 5,8 triệu trên Facebook trong quý 4/2024. Sự sụt giảm này diễn ra khi Meta chuyển hướng khỏi phát hiện chủ động, thay vào đó dựa nhiều hơn vào báo cáo của người dùng. Ngược lại, TikTok cho biết họ đã gỡ 96,3% tổng số phát ngôn và nội dung thù hận trong quý 4/2025 trước khi bị báo cáo.
Các công ty mạng xã hội ngày càng chuyển sang sử dụng AI, với các hệ thống kiểm duyệt dựa trên mô hình ngôn ngữ lớn (LLM), để tự động lọc nội dung. Các hệ thống này dùng bộ dữ liệu gắn nhãn và mô hình ngôn ngữ được huấn luyện sẵn để phát hiện ngôn ngữ lạm dụng, sau đó áp dụng quy tắc hoặc ngưỡng điểm để quyết định nội dung có mang tính thù hận hay vi phạm chính sách của công ty.
Một nghiên cứu năm 2025 của Đại học Pennsylvania cho thấy các mô hình AI khác nhau rất nhiều trong cách nhận diện và phân loại phát ngôn thù hận, tạo ra sự thiếu nhất quán đáng kể. Nghiên cứu đánh giá bảy hệ thống kiểm duyệt AI, gồm các mô hình từ OpenAI, Anthropic, DeepSeek, Mistral và Google, và tìm ra khác biệt lớn trong cách chúng chấm điểm mức độ thù hận. Mistral Moderation Endpoint thường gán điểm rất gần 1, nghĩa là nó đánh giá hầu hết mẫu là rất thù hận bất kể nhóm mục tiêu. Trong khi đó, OpenAI Moderation Endpoint cho điểm thấp hơn nhiều, có khi chưa bằng một nửa so với các mô hình khác.
Các tác giả nghiên cứu nhận xét: “Nếu hai hệ thống cho kết quả khác nhau với cùng một nội dung – gắn cờ là phát ngôn thù hận ở hệ thống này nhưng không ở hệ thống kia – thì điều đó làm suy yếu tính hợp pháp của quá trình kiểm duyệt.”
Arkaitz Zubiaga, phó giáo sư tại Đại học Queen Mary London, cho biết AI có thể phát hiện phát ngôn thù hận rõ ràng, chẳng hạn khi có chửi thề hoặc từ ngữ miệt thị nhắm vào một nhóm cụ thể, nhưng bỏ lỡ những trường hợp tinh vi hơn. “Một ví dụ khó là phát ngôn thù hận ngầm, thường không bị phát hiện vì không chứa từ ngữ miệt thị nào”, Zubiaga nói. Đó có thể là một thông điệp có vẻ tích cực như “Tôi rất muốn thấy thế giới tuyệt vời thế nào nếu…” theo sau là nội dung xúc phạm một nhóm nhân khẩu học. AI tập trung vào phần tích cực nên không thấy được sự thù hận.
Ngược lại, những từ ngữ tưởng chừng xúc phạm nhưng đã được các cộng đồng từng bị miệt thị tiếp nhận và dùng với nghĩa thân mật lại thường bị AI gắn cờ nhầm. Zubiaga giải thích: “Đây là trường hợp ngôn ngữ được phục hồi, nơi các từ khóa vốn là từ miệt thị trong lịch sử được cộng đồng từng bị xúc phạm chấp nhận và sử dụng lại theo cách trìu mến. Mặc dù những trường hợp này không nên bị gắn cờ là thù hận, nhưng AI có xu hướng làm điều đó.”