Quốc tế

Cơn sốt dữ liệu đào tạo AI

Hà Anh • 13/04/2024 08:24

Công nghệ trí tuệ nhân tạo (AI) phát triển tiềm ẩn nhiều rủi ro, đặc biệt về quyền riêng tư của người dùng.

Trong thời kỳ đỉnh cao vào đầu những năm 2000, Photobucket là trang web lưu trữ hình ảnh hàng đầu thế giới. Ứng dụng này tự hào có 70 triệu người dùng và chiếm gần một nửa thị trường ảnh trực tuyến ở Mỹ. Theo công cụ theo dõi phân tích của Sameweb, hiện nay, chỉ còn 2 triệu người vẫn sử dụng Photobucket, nhưng cuộc cách mạng trí tuệ nhân tạo (AI) có thể mang lại cho nó một sức sống mới.

Trí tuệ nhân tạo (AI) đang phát triển rất mạnh mẽ. Nguồn: Reuters.

Cuộc đua ngầm mua dữ liệu

Việc chiếm đất dữ liệu diễn ra khi các nhà sản xuất mô hình nền tảng AI có tính tổng hợp lớn phải đối mặt với áp lực ngày càng tăng trong việc giải quyết lượng nội dung khổng lồ mà họ đưa vào hệ thống của mình, đòi hỏi sức mạnh tính toán chuyên sâu và thường mất nhiều tháng để hoàn thành.

Các công ty công nghệ cho biết, công nghệ này sẽ rất tốn kém nếu họ không thể sử dụng kho lưu trữ khổng lồ dữ liệu trang web được thu thập miễn phí, chẳng hạn như dữ liệu được cung cấp bởi kho lưu trữ phi lợi nhuận Common Crawl.

Tuy nhiên, cách tiếp cận của họ đã tạo ra một làn sóng các vụ kiện bản quyền và sức ép pháp lý, đồng thời thúc đẩy các nhà xuất bản thêm mã vào trang web của họ để chặn việc thu thập thông tin. Để đối phó tình hình, các nhà sản xuất mô hình AI đã bắt đầu phòng ngừa rủi ro và đảm bảo chuỗi cung ứng dữ liệu thông qua các thỏa thuận với chủ sở hữu nội dung và thông qua ngành công nghiệp môi giới dữ liệu đang phát triển để đáp ứng nhu cầu.

Những tháng sau khi ChatGPT ra mắt vào cuối năm 2022, các công ty bao gồm Meta, Google, Amazon và Apple đều đạt được thỏa thuận với nhà cung cấp hình ảnh chứng khoán Shutterstock để sử dụng hàng trăm triệu hình ảnh, video và tệp nhạc trong thư viện của mình cho mục đích đào tạo.

Giám đốc tài chính của Shutterstock Jarrod Yahes cho biết, các thỏa thuận với các công ty Big Tech ban đầu dao động từ 25 - 50 triệu USD mỗi công ty, mặc dù hầu hết sau đó đã được mở rộng. Ông nói thêm, những công ty công nghệ nhỏ hơn đã nối bước, thúc đẩy một một loạt hoạt động mới trong 2 tháng qua.

Một đối thủ cạnh tranh của Shutterstock - Freepik cho biết, họ đã đạt được thỏa thuận với 2 công ty công nghệ lớn để cấp phép cho phần lớn kho lưu trữ 200 triệu hình ảnh của mình với mức giá từ 2 - 4 xu cho mỗi hình ảnh. Giám đốc điều hành Joaquin Cuenca Abela cho biết, có thêm 5 giao dịch tương tự đang được thực hiện.

Tiềm ẩn rủi ro

Theo Reuters, mặc dù việc cấp phép có thể giải quyết một số vấn đề pháp lý và đạo đức, nhưng việc khôi phục kho lưu trữ của các tên tuổi Internet cũ như Photobucket làm nhiên liệu cho các mô hình AI sẽ làm nảy sinh những vấn đề khác, đặc biệt là về quyền riêng tư của người dùng.

Các hệ thống AI đã bị phát hiện đang lấy lại các bản sao chính xác của dữ liệu đào tạo của chúng, chẳng hạn như hình mờ Getty Images, đoạn văn nguyên bản của các bài báo trên New York Times và hình ảnh của người thật. Điều đó có nghĩa là những bức ảnh riêng tư hoặc những suy nghĩ riêng tư của một người được đăng cách đây nhiều thập kỷ có thể xuất hiện trong các kết quả đầu ra của AI mà không cần thông báo hoặc có sự đồng ý rõ ràng.

Giám đốc điều hành Photobucket Leonard cho biết, có cơ sở pháp lý vững chắc, trích dẫn bản cập nhật các điều khoản dịch vụ của công ty vào tháng 10/2023, cung cấp cho công ty "quyền không hạn chế" để bán bất kỳ nội dung nào được tải lên nhằm mục đích đào tạo hệ thống AI. Ông Leonard coi dữ liệu cấp phép là một giải pháp thay thế cho việc bán quảng cáo.

Cô Braga của Defined.ai cho biết, cô tránh mua nội dung từ các công ty "nền tảng" như Photobucket và thích lấy nguồn ảnh trên mạng xã hội từ những người có ảnh hưởng đã tạo ra chúng, những người mà cô cho rằng có yêu cầu rõ ràng hơn về quyền cấp phép. “Tôi thấy có rất nhiều rủi ro. Nếu một ứng dụng AI bất kỳ tạo ra thứ gì đó giống với hình ảnh của một người chưa bao giờ chấp nhận cấp phép thì đó là một vấn đề” - cô Braga nói.

Photobucket không phải là nền tảng duy nhất trong số các nền tảng chấp nhận cấp phép. Công ty mẹ của Tumblr - Automattic cho biết, họ đang chia sẻ nội dung với các công ty AI được chọn lọc. Vào tháng 2, Reddit đã đạt được thỏa thuận với Google để cung cấp nội dung cho việc đào tạo các mô hình AI của Google.

Reddit tiết lộ, trước đợt chào bán cổ phiếu lần đầu ra công chúng vào tháng 3, hoạt động kinh doanh cấp phép dữ liệu của họ từng là đối tượng của cuộc điều tra của Ủy ban Thương mại Liên bang Mỹ và thừa nhận rằng nó có thể vi phạm các quy định về quyền riêng tư và sở hữu trí tuệ đang phát triển.

“
Nhiều công ty nghiên cứu thị trường lớn cho biết, họ thậm chí còn chưa bắt đầu ước tính quy mô của thị trường dữ liệu AI. Nhưng Business Research Insights ước tính, thị trường hiện ở mức khoảng 2,5 tỷ USD và dự đoán nó có thể tăng gần 30 tỷ USD trong vòng 10 năm.

Hà Anh