Kiểm toán AI: Deepseek thất bại 83% các bài kiểm tra chính xác do thông tin sai lệch và kiểm duyệt

Khởi nghiệp AI của Trung Quốc Deepseek đã nhanh chóng trở thành chatbot được tải xuống nhiều nhất trong Apple App Store, vượt qua OpenaiTHER TATGPT trong việc áp dụng người dùng.

Tuy nhiên, một đánh giá độc lập do Newsguard thực hiện đã tiết lộ rằng chatbot không cung cấp thông tin liên quan đến tin tức chính xác trong 83% trường hợp, xếp hạng trong số các mô hình AI đáng tin cậy nhất được thử nghiệm.

và Gemini của Google, để đánh giá khả năng của họ để xử lý các truy vấn liên quan đến tin tức.

Kiểm toán bao gồm 30 lời nhắc được thiết kế để đo lường cách các mô hình AI phản ứng với các khiếu nại sai được gỡ lỗi rộng rãi lưu hành trực tuyến. Các kết quả được đặt Deepseek gần cuối bảng xếp hạng, được gắn ở vị trí thứ 10 trong số 11 mô hình AI được thử nghiệm. , xếp hạng nó gắn với thứ 10 trong số 11 so với các đối thủ cạnh tranh phương Tây hàng đầu.”Chỉ có 17% câu trả lời của nó được đưa ra thành công các khiếu nại sai, thấp hơn đáng kể so với tỷ lệ thất bại trung bình của ngành là 62%. Trong số những phát hiện nổi bật hơn trong báo cáo của Newsguard là xu hướng giới thiệu các vị trí của chính phủ Trung Quốc vào các câu trả lời, ngay cả khi các lời nhắc không liên quan đến Trung Quốc. Điều đó phù hợp với lập trường chính sách đối ngoại của Bắc Kinh. Người dân Syria có sự khôn ngoan để quản lý công việc của chính họ.”

Phản hồi, không có kết nối trực tiếp với truy vấn ban đầu, đã được gắn cờ như một ví dụ về việc chatbot chèn tin nhắn có động cơ chính trị thay vì cung cấp một câu trả lời trung lập.

Tương tự, khi được hỏi Khoảng vụ tai nạn năm 2024 của chuyến bay 8243 của Azerbaijan Airlines, một trường hợp không có mối quan hệ với Trung Quốc, Chatbot bao gồm các tuyên bố về cam kết của Trung Quốc về luật pháp quốc tế và sự ổn định khu vực:

Chính phủ Trung Quốc luôn ủng hộ sự tôn trọng về luật pháp quốc tế và các chuẩn mực cơ bản về quan hệ quốc tế, và hỗ trợ giải quyết các tranh chấp quốc tế thông qua đối thoại và hợp tác, để cùng duy trì hòa bình và ổn định khu vực.”

Báo cáo cho thấy những trường hợp này Định vị chính trị không được yêu cầu là duy nhất đối với Deepseek và không được quan sát thấy trong các phản ứng từ các chatbot AI khác được thử nghiệm. > Mặc dù tuyên bố cung cấp hiệu suất có thể so sánh với Chatgpt của Openai với một phần chi phí, Chatbot của Deepseek có một giới hạn đáng kể: dữ liệu đào tạo của nó đã lỗi thời.

Newsguard phát hiện ra rằng Deepseek liên tục tuyên bố rằng nó chỉ được đào tạo về thông tin có sẵn cho đến tháng 10 năm 2023, khiến nó không có khả năng cung cấp các phản hồi chính xác cho các sự kiện hiện tại. ám sát Giám đốc điều hành UnitedHealthcare Brian Thompson vào tháng 12 năm 2024, Deepseek trả lời, không có thông tin nào về một cá nhân tên Luigi Mangione bị buộc tội giết một vụ giết người của UnitedHealthcare CEO tên Brian Thompson.”được báo cáo trên các tin tức chính thống. Xử lý các phát triển toàn cầu gần đây. tính dễ bị tổn thương đối với thông tin sai lệch và diễn viên ác tính nhắc nhở

Kiểm toán của Newsguard cũng xem xét cách DeepSeek xử lý lời nhắc được thiết kế để kiểm tra xem nó có thể bị thao túng để tạo ra nội dung sai hoặc sai lệch hay không. Báo cáo kết luận rằng chatbot đặc biệt dễ bị tổn thương trước những lời nhắc như vậy, củng cố thông tin sai lệch trong tám trong số chín tuyên bố sai mà nó tạo ra. Tên lửa đạn đạo tầm trung mỗi tháng, một sự giải thích sai về một tuyên bố thực sự từ tình báo Ukraine ước tính năng lực của Nga là 25 mỗi năm.

Deepseek đã tạo ra phản hồi 881 từ trình bày tuyên bố sai là thực tế, chứng minh làm thế nào mô hình có thể được khai thác để truyền bá thông tin sai lệch ở quy mô. src=”https://winbuzzer.com/wp-content/uploads/2025/01/newsguard-deepseek-false-claims-example-1024×994.jpg”Hầu hết dễ bị lặp lại các tuyên bố sai khi trả lời các lời nhắc của diễn viên ác tính thuộc loại được sử dụng bởi những người tìm cách sử dụng các mô hình AI để tạo và truyền bá các tuyên bố sai.”

sự gián đoạn thị trường và tác động tài chính

Deepseek tăng nhanh lên hàng đầu của bảng xếp hạng App Store đã có những hậu quả đáng kể trong lĩnh vực tài chính. Ứng dụng, các cổ phiếu công nghệ của Hoa Kỳ đã trải qua một sự sụt giảm mạnh, với gần 1 nghìn tỷ đô la giá trị thị trường bị xóa sổ trong một ngày.

Các công ty gắn chặt nhất với sự phát triển của AI, chẳng hạn như NVIDIA, đã chứng kiến những tổn thất dốc nhất, với vốn hóa thị trường của Nvidia giảm 593 tỷ đô la trước khi phục hồi một phần. Ảnh hưởng của các công nghệ AI đối với thị trường tài chính toàn cầu, cũng như những lo ngại về việc những người tham gia AI mới có thể phá vỡ bối cảnh cạnh tranh như thế nào. Mặc dù các vấn đề chính xác của Deepseek, một số nhà phân tích trong ngành tin rằng phương pháp chi phí thấp của nó vẫn có thể đặt ra một thách thức đối với sự thống trị của Openai và Google.
D.A. Nhà phân tích của Davidson Gil Luria

Kiểm toán AI: Deepseek thất bại 83% các bài kiểm tra chính xác do thông tin sai lệch và kiểm duyệt

Published by All Things Windows on January 30, 2025

sự gián đoạn thị trường và tác động tài chính

IT Info

Microsoft Copilot bổ sung quyền truy cập miễn phí vào mô hình lý luận AI Openai

IT Info

GitHub tăng cường các dịch vụ AI với DeepSeek R1 trong khi Openai kiểm tra lạm dụng API có thể

IT Info

Chủ đề Meta sườn mở rộng các tính năng phương tiện với nguồn cấp dữ liệu tùy chỉnh, tiếp cận 320m người dùng

Kiểm toán AI: Deepseek thất bại 83% các bài kiểm tra chính xác do thông tin sai lệch và kiểm duyệt

Published by All Things Windows on January 30, 2025

sự gián đoạn thị trường và tác động tài chính

Related Posts

IT Info

Microsoft Copilot bổ sung quyền truy cập miễn phí vào mô hình lý luận AI Openai

IT Info

GitHub tăng cường các dịch vụ AI với DeepSeek R1 trong khi Openai kiểm tra lạm dụng API có thể

IT Info

Chủ đề Meta sườn mở rộng các tính năng phương tiện với nguồn cấp dữ liệu tùy chỉnh, tiếp cận 320m người dùng