Rác AI bắt đầu gây 'ô nhiễm' Internet

Những nội dung bị đánh giá vô bổ, không có giá trị do AI tạo ra xuất hiện ngày càng nhiều trên Internet, gây lo ngại về sụp đổ mô hình.

Khi lần đầu nghe đến hàng loạt ưu điểm về kỹ năng ngôn ngữ của ChatGPT, Jennifer Stevens đã tự hỏi rằng chatbot này có thể được áp dụng cho tạp chí International Living mà bà đang biên tập hay không. Bà sau đó đã áp dụng AI của OpenAI cho tờ báo của mình.

Nhưng vài tháng sau, công việc của Stevens không giảm đi. Trái lại, bà phải dành hàng giờ để lọc những nội dung vô ích do ChatGPT tạo ra. Bà nằm trong số những người nhận thấy ngày càng nhiều nội dung từ AI thấp hơn nhiều so với tiêu chuẩn và kỳ vọng của họ, đến mức coi đó là một loại thư rác mới.

Minh họa về việc AI có thể tạo ra nội dung cho Internet. Ảnh: Digiday

Cơn sốt AI tạo sinh thời gian qua khiến Internet như bùng nổ, nhờ vào khả năng mà các phần mềm trước đó không làm được như trả lời câu hỏi theo cách tự nhiên, tạo ảnh dựa trên văn bản, hay viết một bài luận dài từ vài gợi ý cơ bản. Chúng hứa hẹn giúp con người thực hiện công việc dễ dàng hơn, như cách máy tính đã thay đổi toán học.

Tuy nhiên, không hẳn nội dung do AI tạo ra đều tích cực. Đầu tháng 5, công ty theo dõi và xếp hạng website tin tức NewsGuard tìm thấy 49 trang tin đang sử dụng AI để tạo nội dung. Nhưng đến cuối tháng 6, con số này tăng lên 277.

"Vấn đề đang phát triển theo cấp số nhân", Gordon Crovitz, người sáng lập NewsGuard và từng là phóng viên của WSJ, cho biết. "Các website dường như chỉ tạo ra để nhận tiền quảng cáo trực tuyến từ Google".

WSJ cũng thử yêu cầu ChatGPT "kể tên một số tạp chí chấp nhận nội dung do ChatGPT viết". Ngay sau đó, công cụ của OpenAI đưa ra 10 cái tên phổ biến có trên một triệu lượt xem mỗi ngày, trong đó có 5 tạp chí sử dụng hệ thống gửi nội dung có tên Moksha để quản lý việc gửi bài viết do AI tạo.

"Các nhà xuất bản sử dụng Moksha chắc chắn đã nhận thấy sự gia tăng số bài do AI tạo. Vì vậy chúng tôi đã phát triển công cụ để họ có thể dễ dàng kiểm soát", Matthew Kressel, người đứng sau Moksha, cho biết sau đó.

Các mô hình AI tạo sinh cũng bị lợi dụng để đưa ra thông tin sai lệch về chính trị, lừa đảo hoặc dùng để tấn công mạng. Theo công ty an ninh mạng Zscaler, đã có một số website "chất lượng cao" được lập ra bởi AI chỉ với mục đích lừa nạn nhân tải xuống phần mềm độc hại và mã độc tống tiền.

Trên YouTube, "cơn sốt vàng" ChatGPT đang diễn ra sôi nổi. Hàng chục video dạy cách kiếm tiền từ AI đã được xem hàng trăm nghìn lần. Nhiều trong đó còn hướng dẫn tạo nội dung rác. Để tăng tính thuyết phục, một số nói đã kiếm được hàng nghìn USD mỗi tuần bằng cách tạo sách điện tử hoặc bán quảng cáo trên blog chứa nội dung AI.

Trước vấn đề này, đại diện Google cho biết luôn kiểm soát công cụ tìm kiếm khỏi nội dung spam và thao túng. Bên cạnh đó, công ty nhấn mạnh việc sử dụng nội dung do AI tạo ra để thao túng xếp hạng kết quả tìm kiếm là vi phạm chính sách và sẽ bị hạn chế.

Nhiều tờ báo có chính sách nhận bài viết từ cộng tác viên đang cảm thấy quá tải. Neil Clarke, đại diện tạp chí khoa học viễn tưởng Clarkesworld, cho biết đã ngừng nhận bài được gửi trực tuyến từ đầu năm do hệ thống "tắc nghẽn" bởi hàng trăm câu chuyện do AI sáng tác.

Theo Clarke, việc xác định bài viết do AI thực hiện khá dễ. "Chúng được trình bày với chính tả và ngữ pháp hoàn hảo, nhưng đa phần câu chuyện không mạch lạc", Clarke nói.

Trong khi đó, Stevens của International Living nói các nội dung do AI tạo ra "nhạt nhẽo và chung chung". "Tất cả đều đúng ngữ pháp. Nhưng có cảm giác rất công thức. Hơn hết, chúng thực sự vô dụng với chúng tôi", bà cho biết.

Một số chuyên gia dự đoán, nếu Internet chứa đầy nội dung do AI tạo ra, chúng có thể hình thành cái gọi là "Sự sụp đổ của mô hình". AI thường dùng dữ liệu trực tuyến trên Internet để huấn luyện chính chúng hàng ngày. Nhưng khi Internet đầy rẫy nội dung AI, các mô hình sẽ trở nên kém tin cậy và cuối cùng sụp đổ.

"Nó giống như việc quét và in liên tục cùng một bức ảnh, mà kết quả cuối cùng sẽ làm giảm độ chi tiết của chính bức ảnh đó. Các mô hình AI tạo sinh có thể cho ra kết quả tương tự nếu nội dung do chúng viết xuất hiện tràn ngập trên Internet", Ilia Shumailov của Đại học Oxford nhận xét.

Tháng trước, các nhà nghiên cứu tại École Polytechnique Fédérale de Lausanne đã thuê các nhà văn tự do tóm tắt nội dung của những bài đăng trên tạp chí y học New England. Họ phát hiện hơn một phần ba nội dung họ nhận được là do AI "làm giúp".

Từ nghiên cứu này, Shumailov cho rằng sự sụp đổ của mô hình AI là không thể tránh khỏi trong tương lai nếu mọi thứ vẫn tiếp diễn như hiện tại. Ông đề xuất tạo mô hình ngôn ngữ lớn chất lượng cao dựa trên dữ liệu do con người tạo ra, tách biệt với mô hình dùng bất cứ nguồn dữ liệu nào đang có trên Internet.