Các công cụ AI sắp hết dữ liệu đào tạo – Quản Trị Mạng
Trí tuệ nhân tạo (AI) cần dữ liệu đào tạo, nhưng dữ liệu đó có hạn. Vậy, có thể đào tạo AI bằng cách nào khác để nó tiếp tục phát triển và hữu ích cho chúng ta?
Bạn có thể nghĩ rằng Internet và dữ liệu của nó là nguồn tài nguyên vô tận, nhưng sự thật là các công cụ AI đang cạn kiệt dữ liệu để khai thác. Tuy nhiên, điều đó sẽ không ngăn cản sự phát triển AI – có rất nhiều dữ liệu vẫn sẵn sàng để đào tạo các hệ thống AI.
Nói tóm lại, viện nghiên cứu AI Epoch cho biết dữ liệu chất lượng cao mà AI đang được đào tạo có thể cạn kiệt vào năm 2026.
Mấu chốt ở đây là “có thể”. Lượng dữ liệu được thêm vào Internet hàng năm tăng lên, do đó, điều gì đó mạnh mẽ có thể thay đổi trước năm 2026. Tuy nhiên, đó là một ước tính hợp lý – dù thế nào đi nữa, hệ thống AI cũng sẽ hết dữ liệu tốt vào một lúc nào đó.
Tuy nhiên, nên nhớ rằng có khoảng 147 zettabyte dữ liệu được thêm trực tuyến mỗi năm. Một zettabyte tương đương với 1.000.000.000.000.000.000.000 bit dữ liệu. Nói một cách thực tế, đó là hơn 30 tỷ phim 4K. Đó là một lượng thông tin đáng kinh ngạc để AI sàng lọc.
Tuy nhiên, AI tiêu thụ dữ liệu nhanh hơn mức nhân loại có thể tạo ra…
Tất nhiên, không phải tất cả 147 zettabyte dữ liệu đó đều là dữ liệu tốt. Người ta ước tính rằng AI cũng sẽ sử dụng hết dữ liệu ngôn ngữ chất lượng thấp vào năm 2050.
Reuters đưa tin Photobucket, từng là một trong những kho lưu trữ ảnh lớn nhất thế giới, đang đàm phán để cấp phép thư viện rộng lớn của mình cho các công ty đào tạo AI. Dữ liệu hình ảnh đã đào tạo các hệ thống như DALL-E và Midjourney, nhưng thậm chí hệ thống đó cũng có thể cạn kiệt vào năm 2060. Có một vấn đề lớn hơn ở đây: Photobucket chứa hình ảnh từ các nền tảng mạng xã hội những năm 2000 như Myspace, nghĩa là chúng không đạt tiêu chuẩn cao như nhiếp ảnh hiện nay. Điều này dẫn đến dữ liệu chất lượng thấp.
Photobucket không phải là trường hợp cá biệt. Vào tháng 2 năm 2024, Google đã đạt được thỏa thuận với Reddit, cho phép gã khổng lồ tìm kiếm sử dụng dữ liệu người dùng của nền tảng mạng xã hội trong quá trình đào tạo AI của mình. Các nền tảng mạng xã hội khác cũng đang cung cấp dữ liệu người dùng cho mục đích đào tạo AI; một số đang sử dụng nó để đào tạo những mô hình AI nội bộ, chẳng hạn như Llama của Meta.
Tuy nhiên, trong khi một số thông tin có thể được thu thập từ dữ liệu chất lượng thấp, Microsoft được cho là đang phát triển cách để AI “loại bỏ” dữ liệu một cách có chọn lọc. Về cơ bản, điều này sẽ được sử dụng cho nhiều vấn đề về IP, nhưng nó cũng có nghĩa là các công cụ có thể quên những gì họ đã học được từ các tập dữ liệu chất lượng thấp.
Chúng ta có thể cung cấp cho AI nhiều dữ liệu hơn mà không cần quá chọn lọc; những hệ thống AI đó sau đó có thể chọn những gì có lợi nhất để học hỏi.
Dữ liệu được cung cấp cho các công cụ AI cho đến nay chủ yếu bao gồm văn bản và ở mức độ thấp hơn là hình ảnh. Điều đó chắc chắn sẽ thay đổi, vì phần mềm nhận dạng giọng nói sẽ đồng nghĩa với việc vô số video và podcast hiện có cũng có thể được dùng để đào tạo AI.
Đáng chú ý, OpenAI đã phát triển mạng nơ-ron nhân tạo nhận dạng giọng nói tự động (ASR) mã nguồn mở, Whisper, sử dụng 680.000 giờ dữ liệu đa ngôn ngữ và đa nhiệm. OpenAI sau đó đã đưa hơn một triệu giờ thông tin từ video YouTube vào mô hình ngôn ngữ lớn của mình, GPT-4.
Đây là mẫu lý tưởng cho các hệ thống AI khác sử dụng tính năng nhận dạng giọng nói để sao chép video và âm thanh từ nhiều nguồn và chạy dữ liệu đó thông qua những mô hình AI của chúng.
Theo Statista, hơn 500 giờ video được upload lên YouTube mỗi phút, một con số vẫn khá ổn định kể từ năm 2019. Đó là chưa kể đến các nền tảng video và âm thanh khác như Dailymotion và Podbean. Nếu AI có thể chuyển sự chú ý của mình sang các tập dữ liệu mới như thế này thì sẽ còn một lượng thông tin khổng lồ được khai thác.
OpenAI đã đào tạo mô hình bằng cách sử dụng 117.000 giờ dữ liệu âm thanh không phải tiếng Anh. Điều này đặc biệt thú vị vì nhiều hệ thống AI đã được đào tạo chủ yếu bằng tiếng Anh hoặc nhìn các nền văn hóa khác qua lăng kính phương Tây.
Về bản chất, hầu hết các công cụ đều bị giới hạn bởi văn hóa của người tạo ra chúng.
Lấy ChatGPT làm ví dụ. Ngay sau khi phát hành vào năm 2022, Jill Walker Rettberg, giáo sư Văn hóa kỹ thuật số tại Đại học Bergen, Na Uy, đã dùng thử ChatGPT và kết luận:
“ChatGPT không biết nhiều về văn hóa Na Uy. Hay đúng hơn, bất cứ điều gì nó biết về văn hóa Na Uy có lẽ chủ yếu được học từ các nguồn tiếng Anh… ChatGPT rõ ràng phù hợp với các giá trị và luật pháp của Hoa Kỳ. Trong nhiều trường hợp, những giá trị này gần với các giá trị của Na Uy và Châu Âu, nhưng có lẽ điều này không phải lúc nào cũng đúng”.
Khi đó, AI có thể phát triển khi có nhiều người đa quốc gia tương tác với chúng hơn – hoặc ngôn ngữ và văn hóa đa dạng hơn được sử dụng để đào tạo các hệ thống như vậy.
Hiện tại, nhiều AI bị giới hạn trong một thư viện duy nhất; chúng có thể phát triển nếu được trao chìa khóa mở ra các thư viện trên toàn thế giới.
IP rõ ràng là một vấn đề lớn, nhưng một số nhà xuất bản có thể giúp phát triển AI bằng cách thực hiện các thỏa thuận cấp phép. Điều này có nghĩa là cung cấp cho các công cụ dữ liệu chất lượng cao, tức là đáng tin cậy, từ sách thay vì thông tin có chất lượng thấp được thu thập từ các nguồn trực tuyến.
Trên thực tế, Meta, chủ sở hữu của Facebook, Instagram và WhatsApp, được cho là đã cân nhắc mua Simon & Schuster, một trong những nhà xuất bản “Big Five”. Ý tưởng là sử dụng tài liệu do công ty xuất bản để đào tạo AI của riêng Meta. Thỏa thuận cuối cùng đã thất bại, có lẽ do vấn đề đạo đức của công ty xử lý IP mà không có sự đồng ý trước của người viết.
Một lựa chọn khác rõ ràng đã được cân nhắc là mua quyền cấp phép cá nhân cho các tựa game mới. Điều này sẽ gây ra mối lo ngại lớn cho những người sáng tạo, nhưng nó vẫn sẽ là một cách thú vị để các công cụ AI phát triển nếu dữ liệu có thể sử dụng cạn kiệt.
Mọi giải pháp khác vẫn còn hạn chế, nhưng có một lựa chọn có thể giúp AI phát triển mạnh mẽ trong tương lai: Dữ liệu tổng hợp. Và nó là một khả năng rất thực tế.
Vậy dữ liệu tổng hợp là gì? Theo nghĩa này, đó là dữ liệu do AI tạo ra; Giống như con người tạo ra dữ liệu, phương pháp này sẽ chứng kiến trí tuệ nhân tạo tạo ra dữ liệu cho mục đích đào tạo.
Trên thực tế, AI có thể tạo ra một video deepfake thuyết phục. Video deepfake đó có thể được đưa trở lại AI để nó học hỏi từ những gì thực chất là một kịch bản tưởng tượng. Suy cho cùng, đó là một cách học chính của con người: Chúng ta đọc hoặc xem thứ gì đó để hiểu thế giới xung quanh.
AI có thể đã sử dụng thông tin tổng hợp. Deepfakes đã lan truyền trực tuyến thông tin sai lệch, vì vậy khi hệ thống AI quét Internet, nội dung giả mạo là không thể tránh khỏi. Nó có thể làm hỏng hoặc hạn chế AI, củng cố và lan truyền những sai lầm do những công cụ đó gây ra.
AI đang gây tranh cãi. Ngoài rất nhiều nhược điểm, nó vẫn có những lợi ích. Ví dụ, mạng lưới kiểm toán và tư vấn PwC cho thấy AI có thể đóng góp tới 15,7 nghìn tỷ USD cho nền kinh tế thế giới vào năm 2030.
Hơn nữa, AI đã được sử dụng trên toàn thế giới. Có thể ngày nay bạn đã sử dụng nó dưới hình thức này hay hình thức khác mà có thể bạn không hề nhận ra. Bây giờ, điều quan trọng là phải huấn luyện nó dựa trên dữ liệu chất lượng, đáng tin cậy để chúng ta có thể sử dụng nó một cách hợp lý.