Elon Musk: AI đã dùng cạn dữ liệu tri thức của loài người
Last updated: January 16, 2025 Xem trên toàn màn hình
- 01 Mar 2024 Google thử nghiệm Search AI (Search Generative Experience - SGE)
- 26 Sep 2024 Đội quân dán nhãn AI của tỷ phú 27 tuổi
- 19 Jun 2024 Giải mã AI, ML và DL: Chìa khóa nắm bắt xu hướng chuyển đổi số
- 03 May 2024 AI Đàm Thoại (Conversational AI) – Cuộc Cách Mạng Công Nghệ Đầy Hứa Hẹn
- 23 Aug 2024 Nghịch lý toán học chứng minh giới hạn của AI
Elon Musk cho biết các mô hình đào tạo AI đã khai thác hết nguồn dữ liệu do người tạo ra và cần chuyển sang dữ liệu tổng hợp.
"Toàn bộ dữ liệu và tri thức do con người tạo ra đã được khai thác hết trong quá trình đào tạo AI. Điều này diễn ra từ năm ngoái", tỷ phú Elon Musk cho biết trong cuộc phỏng vấn công bố hôm 9/1.
Ông cho rằng cách duy nhất ngăn tình trạng thiếu hụt dữ liệu nguồn để dùng trong đào tạo mô hình mới là chuyển sang dữ liệu tổng hợp do chính AI tạo ra. "Quá trình này giống như viết một bài luận hoặc luận án, sau đó tự chấm điểm và đánh giá, từ đó xây dựng kiến thức mới", ông nói.
Các tập đoàn công nghệ hàng đầu như Meta, Microsoft, Google và OpenAI đều đã sử dụng dữ liệu tổng hợp để tinh chỉnh mô hình của mình.
Tuy nhiên, tỷ phú Mỹ cũng cảnh báo các mô hình AI vẫn có khả năng tạo ra "ảo giác" (hallucination) - thuật ngữ chỉ những kết quả đầu ra không chính xác hoặc vô nghĩa, dẫn đến nguy cơ sai lệch thông tin do AI tự tổng hợp. "Ảo giác đặt ra nhiều thách thức cho quá trình dùng dữ liệu tổng hợp, vì không thể biết những gì AI đưa ra là ảo giác hay câu trả lời thật sự cho vấn đề đặt ra", ông nói.
ChatGPT, ra mắt tháng 11/2022, đã làm thay đổi ngành công nghệ với khả năng xử lý ngôn ngữ tự nhiên trôi chảy. Tuy nhiên, ChatGPT và các AI tương tự gặp hiện tượng "ảo giác" (hallucination), tức là tạo ra thông tin sai hoặc bịa đặt khi không có dữ liệu phù hợp.
Hiện tượng này xuất phát từ việc AI dựa trên dữ liệu huấn luyện chưa hoàn chỉnh hoặc thành kiến. Người dùng cũng góp phần gây ra vấn đề qua các truy vấn khó hiểu, lắt léo, hoặc nằm ngoài dữ liệu của AI, khiến hệ thống bịa thông tin để đáp ứng.
Các công ty như OpenAI đã cải thiện mô hình GPT-4 nhằm giảm ảo giác, nhưng vấn đề vẫn tồn tại. Không riêng ChatGPT, các AI như Bard của Google cũng gặp tình trạng tương tự, thường tạo ra câu trả lời sai nhưng thuyết phục.
Bên cạnh nguy cơ, hiện tượng ảo giác AI có thể mang lại lợi ích bất ngờ trong sáng tạo. AI hỗ trợ thiết kế nghệ thuật, tạo hình ảnh độc đáo, viết văn học viễn tưởng, hoặc trực quan hóa dữ liệu, giúp tìm ra xu hướng mới trong tài chính. Ngành game và thực tế ảo cũng hưởng lợi từ khả năng AI tạo môi trường siêu thực.
Dù vậy, nguy cơ từ thông tin sai vẫn hiện hữu. Cần có sự phối hợp giữa nhà phát triển trong việc cải thiện dữ liệu và người dùng trong việc kiểm tra kết quả AI. Điều này đảm bảo AI phát huy tối đa tiềm năng mà không gây hại.
Andrew Duncan, Giám đốc AI tại Viện Alan Turing (Anh), cho biết nhận xét của Musk có điểm tương đồng với một bài báo học thuật gần đây, trong đó ước tính dữ liệu công khai cho mô hình AI có thể cạn kiệt vào năm 2026. Theo ông, phụ thuộc quá nhiều vào dữ liệu tổng hợp có thể gây nguy cơ "mô hình sụp đổ", tức chất lượng đầu ra của AI sẽ suy giảm, tính thiên kiến tăng cao và mất đi sự sáng tạo.
Dữ liệu chất lượng cao, cũng như quyền kiểm soát chúng, đã trở thành một trong những mặt trận căng thẳng về pháp lý trong cơn sốt AI.
OpenAI hồi năm ngoái cũng thừa nhận không thể tạo ra các công cụ như ChatGPT nếu thiếu quyền truy cập vào các dữ liệu có bản quyền. Trong khi đó, ngành công nghiệp sáng tạo và các nhà xuất bản đang yêu cầu trả tiền cho các tài liệu của họ bị khai thác trong quá trình đào tạo AI.
Điệp Anh (Theo Guardian)