Nỗi lo "ô nhiễm" đang làm các nhà nghiên cứu AI lo lắng.

Nỗi lo "ô nhiễm" đang làm các nhà nghiên cứu AI lo lắng.

Kim-Thứ năm, ngày 19/06/2025 23:07 GMT+7

bangdatally.xyz - Nỗi lo "ô nhiễm" đang làm các nhà nghiên cứu AI lo lắng.

Đối với giới nghiên cứu công nghệ trí tuệ nhân tạo, sự kiện OpenAI ra mắt ChatGPT vào ngày 30/11/2022 đã thay đổi thế giới 

Khi OpenAI ra mắt chatbot này, giới học thuật và chuyên gia công nghệ đã bắt đầu lo ngại về hiện tượng ô nhiễm diễn ra sau khi cuộc chạy đua phát triển trí tuệ nhân tạo bắt đầu. Họ lo ngại rằng khi AI được huấn luyện bằng chính dữ liệu chúng tạo ra, những mô hình được tạo ra về sau sẽ mất dần tính đáng tin, để rồi sụp đổ.

Tháng 3 năm 2023, John Graham-Cumming - khi đó là CTO của Cloudflare và hiện là thành viên hội đồng quản trị của công ty này - đã đăng ký tên miền web lowbackgroundsteel.ai. Trên trang web này, ông bắt đầu đăng tải thông tin về các nguồn dữ liệu được thu thập trước làn sóng AI năm 2022, như kho Arctic Code Vault (ảnh chụp toàn bộ GitHub vào ngày 2/2/2020).

Khi được The Register hỏi liệu ông có phải là người nghĩ ra phép ẩn dụ "thép nền thấp" hay không, Graham-Cumming nói ông không nhớ rõ.

"Tôi đã biết về thép nền thấp từ nhiều năm trước", ông trả lời qua email. "Và tôi từng làm một số việc liên quan đến học máy từ những năm 2000 khi phát triển công cụ lọc email POPFile. Phép ẩn dụ này chợt nảy ra trong đầu tôi, và tôi thích ý tưởng về một kho dữ liệu chỉ toàn nội dung do con người tạo ra. Thế là tôi tạo ra trang web".

Nỗi lo về việc các mô hình AI suy thoái theo thời gian

Tháng 12 năm 2024, các học giả từ nhiều đại học tiếp tục bày tỏ lo ngại trong bài nghiên cứu có tên "Các khía cạnh pháp lý về quyền tiếp cận dữ liệu do con người tạo ra và những đầu vào thiết yếu khác cho việc huấn luyện AI". Họ cho rằng thế giới cần những nguồn dữ liệu "sạch", giống như thép nền thấp, để đảm bảo hoạt động hiệu quả của các mô hình AI và duy trì sự cạnh tranh.

Điều khiến Chiodo và các đồng tác giả không chỉ là nguy cơ các mô hình AI tạo ra thông tin sai lệch, mà còn là sự bất công trong tiếp cận dữ liệu sạch, thứ có thể mang lại lợi thế độc quyền cho những bên đã bước chân vào cuộc chơi sớm.

Khi dữ liệu tạo ra bởi AI càng nhiều, các startup AI sẽ càng khó tìm được dữ liệu huấn luyện chất lượng cao, dẫn đến nguy cơ suy thoái và làm gia tăng thế độc quyền của các "ông lớn". Đó là lập luận của các nhà nghiên cứu hàng đầu.

Nỗi lo ô nhiễm đang làm các nhà nghiên cứu AI lo lắng. - Ảnh 1.

Ông Chiodo nói: "Vấn đề không chỉ là độ tin cậy của thông tin, mà còn là khả năng xây dựng mô hình AI tạo sinh đủ lớn để đầu ra vừa dễ hiểu, vừa có giá trị sử dụng. Bạn có thể xây dựng một mô hình rất hữu dụng nhưng hay nói dối. Ngược lại, bạn cũng có thể có một mô hình trung thực nhưng lại vô dụng".

Giáo sư luật cạnh tranh Rupprecht Podszun (ĐH Heinrich Heine, Düsseldorf) cho rằng: "Nếu bạn nhìn vào dữ liệu email hay giao tiếp giữa người với người, thì dữ liệu trước năm 2022 phản ánh rõ phong cách và cách nghĩ của con người, chúng hữu ích hơn nhiều cho việc huấn luyện AI so với những thứ chatbot tạo ra sau năm 2022".

Ông nhấn mạnh rằng: độ chính xác chưa chắc quan trọng bằng sự sáng tạo trong phong cách khi con người giao tiếp thực sự. Chiodo cho rằng việc tất cả chúng ta tham gia vào AI tạo sinh đang khiến nguồn dữ liệu toàn cầu bị "ô nhiễm", ảnh hưởng không chỉ đến mô hình AI hiện tại mà cả những mô hình trong tương lai.

Làm thế nào để "làm sạch" môi trường AI?

"Về mặt khuyến nghị chính sách, chuyện này rất khó", Chiodo thừa nhận. "Chúng tôi bắt đầu bằng những đề xuất như bắt buộc gắn nhãn cho nội dung do AI tạo ra, nhưng ngay cả điều đó cũng trở nên phức tạp, bởi việc gắn nhãn cho văn bản là rất khó, trong khi việc xóa dấu vết (watermark) lại cực kỳ dễ".

Việc gắn nhãn cho hình ảnh và video còn phức tạp hơn khi có sự tham gia của nhiều khía cạnh pháp lý khác nhau, Chiodo nói thêm. "Ai cũng có thể đưa dữ liệu lên internet ở bất cứ đâu, và vì dữ liệu bị thu thập (scrape) từ khắp nơi, nên rất khó để buộc tất cả các mô hình ngôn ngữ lớn (LLM) luôn phải gắn watermark cho đầu ra của chúng".

Bài nghiên cứu cũng bàn đến các giải pháp chính sách khác, chẳng hạn như thúc đẩy học liên kết (federated learning). Theo đó, những bên sở hữu dữ liệu "sạch" có thể cho phép bên thứ ba huấn luyện mô hình AI trên dữ liệu đó mà không cần chia sẻ trực tiếp. Mục tiêu là giảm bớt lợi thế cạnh tranh không công bằng của những bên nắm giữ bộ dữ liệu chưa bị ô nhiễm, từ đó ngăn chặn tình trạng độc quyền trong phát triển AI.

Tuy nhiên, Chiodo lưu ý rằng việc xây dựng một kho dữ liệu sạch tập trung cũng tiềm ẩn những rủi ro khác.

Nỗi lo ô nhiễm đang làm các nhà nghiên cứu AI lo lắng. - Ảnh 2.

Trung tâm dữ liệu của Google tại Council Bluffs giúp để bạn có thể sử dụng các dịch vụ như Tìm kiếm và YouTube một cách hiệu quả - Ảnh: Google.

"Bạn sẽ gặp rủi ro về quyền riêng tư và an ninh đối với khối lượng dữ liệu khổng lồ này. Vậy bạn giữ lại những gì, loại bỏ những gì, làm thế nào để cẩn trọng với dữ liệu được giữ lại, làm thế nào để bảo vệ nó an toàn?", ông đặt vấn đề. Bản thân những tổ chức nắm dữ liệu trong tay có thể suy thoái trong nay mai.

"Vấn đề mà chúng tôi nhận diện qua hiện tượng suy thoái mô hình là: nó sẽ ảnh hưởng đến sự phát triển của AI về lâu dài", Chiodo nhấn mạnh. "Nếu chính phủ thực sự quan tâm đến một nền AI phát triển bền vững, hiệu quả và có tính cạnh tranh, họ nên đặc biệt quan tâm đến hiện tượng suy thoái mô hình - và từ đó tạo ra những rào chắn, quy định, hướng dẫn về cách quản lý bộ dữ liệu, cách giữ gìn một phần dữ liệu sạch, cách cấp quyền truy cập dữ liệu".

Hiện tại, Hoa Kỳ gần như chưa có bất kỳ hệ thống pháp lý nào đáng kể dành cho AI. Vương quốc Anh cũng đang theo đuổi một mô hình quản lý "nhẹ tay" nhằm tránh bị tụt lại phía sau các đối thủ toàn cầu. Trong khi đó, châu Âu có vẻ sẵn sàng đặt ra những quy tắc rõ ràng hơn thông qua với Đạo luật AI (AI Act).

Nhưng ông Podszun cho rằng các cơ quan quản lý sẽ sớm phải hành động để ngăn chặn kịch bản lặp lại, khi chỉ một vài nền tảng thống trị toàn bộ thế giới số do sự chậm trễ trong quản lý. Bài học từ cuộc cách mạng số dành cho AI là đừng chờ đến khi mọi thứ đã quá muộn, và thị trường đã bị độc quyền hóa.

Tham khảo The Register

AI không phải là sân khấu công nghệ mà là trận địa sống còn của tư duy AI không phải là sân khấu công nghệ mà là trận địa sống còn của tư duy Ứng dụng AI để tìm kiếm bạn đời trong thời hiện đại Ứng dụng AI để tìm kiếm bạn đời trong thời hiện đại 'AI không giúp được, Google cũng bó tay': Cựu đồng sáng lập VNG kể lại hành trình làm app cho Apple Vision Pro "AI không giúp được, Google cũng bó tay": Cựu đồng sáng lập VNG kể lại hành trình làm app cho Apple Vision Pro

* Mời quý độc giả theo dõi các chương trình đã phát sóng của Đài Truyền hình Việt Nam trên TV OnlineVTVGo!

TIN MỚI

    X

    ĐANG PHÁT

    Bản tin thời tiết chào buổi sáng 3 phút trước