Một nghiên cứu mới đăng trên arXiv.org ngày 3/3 cho thấy văn bản do AI của DeepSeek tạo ra có mức tương đồng khoảng 74,2% với ChatGPT của OpenAI. Nghiên cứu này do Copyleaks – một công ty chuyên phân tích và so sánh mô hình AI – thực hiện. Forbes nhận định phát hiện này có thể ảnh hưởng đến các vấn đề về quyền sở hữu trí tuệ, quy định AI và định hướng phát triển của ngành trí tuệ nhân tạo trong tương lai.
Copyleaks đã sử dụng công nghệ nhận diện dấu vân tay phong cách ngôn ngữ để phân tích đầu ra của nhiều mô hình AI như OpenAI, Claude, Google Gemini, Meta Llama và DeepSeek. Kết quả cho thấy các mô hình thường có phong cách riêng biệt, dễ dàng nhận diện, ngoại trừ DeepSeek. Phần lớn văn bản do DeepSeek tạo ra bị phân loại là của OpenAI, làm dấy lên nghi vấn về việc mô hình này có thể đã được huấn luyện dựa trên đầu ra của ChatGPT.
Shai Nisan, Giám đốc khoa học dữ liệu tại Copyleaks, so sánh phương pháp này với việc giám định chữ viết tay nhằm xác định tác giả một văn bản. Ông nhấn mạnh sự tương đồng giữa DeepSeek và ChatGPT là đáng chú ý và không xuất hiện ở các mô hình khác.
Kết quả này đặt ra câu hỏi về cách DeepSeek được phát triển, liệu họ có sử dụng dữ liệu từ OpenAI mà không có sự cho phép hay không. Dù nghiên cứu chưa thể khẳng định chắc chắn DeepSeek là sản phẩm phái sinh, nhưng nó cho thấy cần có sự điều tra sâu hơn về quá trình đào tạo mô hình này. Nếu DeepSeek thực sự đã dùng dữ liệu của OpenAI mà không có sự đồng ý, điều đó có thể gây ra tác động lớn về mặt pháp lý và sở hữu trí tuệ.
Nisan cũng cảnh báo rằng sự thiếu minh bạch trong nguồn dữ liệu đào tạo AI sẽ là một vấn đề lớn trong tương lai. Các cơ quan quản lý có thể buộc các công ty AI công khai dữ liệu và phương pháp huấn luyện mô hình của họ để tránh các vi phạm về bản quyền và đạo đức.

Nguồn ảnh: straitstimes
Dù các mô hình AI có thể dần có phong cách tương đồng do sử dụng tập dữ liệu chồng chéo, Copyleaks khẳng định phương pháp của họ có thể phân biệt sự khác biệt tinh vi giữa các mô hình. Do đó, sự giống nhau giữa DeepSeek và OpenAI có thể không chỉ là do dữ liệu trùng lặp mà còn liên quan đến kiến trúc và quá trình đào tạo.
Trước đó, vào cuối năm 2024, một số người dùng phát hiện mô hình DeepSeek V3 tự nhận là ChatGPT khi được hỏi. Một số thử nghiệm từ TechCrunch cũng cho thấy V3 khẳng định mình là GPT-4, mô hình của OpenAI ra mắt năm 2023.
Có giả thuyết cho rằng DeepSeek có thể đã áp dụng kỹ thuật "chưng cất" kiến thức từ các mô hình tiên tiến hơn. Đây là phương pháp giúp các mô hình nhỏ hơn đạt được hiệu suất cao bằng cách học từ đầu ra của các mô hình lớn. Tuy nhiên, OpenAI từng bày tỏ lo ngại về việc DeepSeek có thể đã vi phạm điều khoản dịch vụ của họ. Đến nay, DeepSeek vẫn chưa có phản hồi chính thức về những nghi vấn này.
Nguồn:https://vnexpress.net/phong-cach-deepseek-tuong-dong-dang-kinh-ngac-voi-chatgpt-4856444.html









