Deepseek, một công ty khởi nghiệp trí tuệ nhân tạo của Trung Quốc, đã chiếm vị trí hàng đầu trên Apple Apple App Store vào cuối tuần trước, vượt qua các nhà thờ Openaiiến trong các bản tải xuống.

Mốc quan trọng được đưa ra sau khi phát hành ngày 20 tháng 1 của mô hình lý luận hàng đầu của Deepseek, R1, đã nhanh chóng nhận được sự công nhận về khả năng đối thủ của các hệ thống AI tiên tiến trong khi hoạt động trên một phần của các tài nguyên thường được yêu cầu.

Nguồn:

Bằng cách phát triển các phương pháp đào tạo hiệu quả, công ty dựa trên Hàng Châu đã chứng minh rằng AI tiến bộ là có thể ngay cả dưới những hạn chế địa chính trị. Sự phát triển này thách thức nhận thức về sự thống trị của Hoa Kỳ trong trí tuệ nhân tạo và đặt ra câu hỏi về hiệu quả của các hạn chế xuất khẩu nhằm mục đích kiềm chế khả năng công nghệ của Trung Quốc./H2>

Mô hình R1 của Deepseek đã được đào tạo chỉ bằng 2.048 GPU NVIDIA H800 với tổng chi phí dưới 6 triệu đô la, theo một bài báo nghiên cứu được phát hành vào tháng 12 năm 2024. Các phiên bản của chip H100 được sử dụng bởi các công ty Hoa Kỳ như Openai và Meta. Bất chấp những hạn chế về phần cứng, các kỹ sư của Deepseek đã phát triển các kỹ thuật tối ưu hóa mới cho phép R1 đạt được kết quả tương đương với các mô hình được đào tạo về cơ sở hạ tầng mạnh mẽ hơn nhiều. Phỏng vấn 36kr. Chúng tôi cần tiêu thụ sức mạnh tính toán gấp bốn lần để đạt được hiệu ứng tương tự”Liang nói. Tầm nhìn xa của Liang trong việc dự trữ GPU NVIDIA trước khi các hạn chế của Hoa Kỳ có hiệu lực là một yếu tố quan trọng trong khả năng đổi mới của công ty trong các trường hợp đầy thách thức.. Dimitris Papailiopoulos, một nhà nghiên cứu chính tại Phòng thí nghiệm Microsoft AI AI Frontiers, đã nhấn mạnh hiệu quả của thiết kế R1.

Họ nhằm mục đích trả lời chính xác thay vì chi tiết mọi bước logic, giảm đáng kể thời gian tính toán trong khi duy trì mức độ hiệu quả cao”, ông nói với MIT Technology Review. Điểm chuẩn và công nhận ngành

Hiệu suất của R1 đặc biệt mạnh về điểm chuẩn kỹ thuật, kiếm được điểm 97,3% trên Math-500 và 79,8% trên AIME 2024. Chứng minh rằng mô hình tiết kiệm tài nguyên của DeepSeek có thể cạnh tranh với các nhà lãnh đạo trong ngành. Các nhà phát triển, nhà giáo dục và người có sở thích. Mistral AI ra mắt Pixtral 12b cho xử lý văn bản và hình ảnh

Thành tích của Deepseek đã thu hút được sự khen ngợi từ các nhân vật nổi bật trong lĩnh vực AI. Yann Lecun, nhà khoa học AI trưởng của Meta, đã nhấn mạnh vai trò của sự hợp tác nguồn mở trong thành công của Deepseek. Deep Deepseek đã thu được lợi nhuận từ nghiên cứu mở và nguồn mở (ví dụ, Pytorch và Llama từ Meta). Họ đã đưa ra những ý tưởng mới và xây dựng chúng trên công việc của người khác.”Lecun viết trên LinkedIn. Bởi vì công việc của họ được xuất bản và nguồn mở, mọi người đều có thể thu lợi từ nó. Đó là sức mạnh của nghiên cứu mở và nguồn mở.”<

Tương tự, Marc Andreessen, đồng sáng lập của Andreessen Horowitz, đã mô tả R1 là một trong những đột phá tuyệt vời nhất mà tôi từng thấy./P>

Khả năng chi trả và nguồn gốc nguồn mở

Không giống như các nền tảng độc quyền như Chatgpt của Openai, Deepseek đã chấp nhận một triết lý nguồn mở. Trọng lượng, công thức đào tạo và tài liệu có sẵn công khai, cho phép các nhà phát triển trên toàn thế giới tái tạo hoặc xây dựng dựa trên công việc của nó. Sự phổ biến của R1. Các chiến lược định giá này, kết hợp với khả năng mạnh mẽ của mô hình, đã biến DeepSeek trở thành một lựa chọn hấp dẫn cho các cá nhân và doanh nghiệp. Bạn về các mô hình nguồn mở của nguồn mở”Đặc biệt trong lĩnh vực trí tuệ nhân tạo. rằng các biện pháp như vậy có thể không ngăn chặn đầy đủ sự đổi mới. Chiến lược dự trữ GPU của Liang và tập trung vào hiệu quả đã được chứng minh rằng những hạn chế có thể thúc đẩy giải quyết vấn đề sáng tạo thay vì kìm hãm nó hoàn toàn. bởi Nvidia và những người khác

một phong trào rộng lớn hơn trong phương pháp tiếp cận nguồn mở của Trung Quốc AI

Deepseek phù hợp với xu hướng rộng hơn trong lĩnh vực AI của Trung Quốc. Các công ty khác, bao gồm Alibaba Cloud và Kai-fu Lee, 01.AI, cũng đã ưu tiên các sáng kiến ​​nguồn mở trong những năm gần đây. Liang đã mô tả sự cần thiết phải giải quyết những gì anh ta gọi là khoảng cách hiệu quả của người Hồi Strong> Alibaba Qwen phát hành QVQ-72B-Preview Lý do đa phương thức AI mô hình

Vào tháng 7 năm 2024, Liang tuyên bố, chúng tôi ước tính rằng các mô hình trong nước và nước ngoài tốt nhất có thể có khoảng cách một lần về cấu trúc mô hình và cấu trúc mô hình và cấu trúc mô hình và Động lực đào tạo. Dữ liệu đào tạo và sức mạnh tính toán để đạt được hiệu quả tương tự.

Sự lãnh đạo của ông đã được DeepSeek công nhận cả ở Trung Quốc và quốc tế. Năm 2024, anh được mời tham dự các cuộc họp cấp cao với các quan chức Trung Quốc để thảo luận về các chiến lược để thúc đẩy các khả năng AI của đất nước. Deepseek tiếp tục tinh chỉnh các mô hình của mình, công ty phải đối mặt với cả cơ hội và thách thức. Mặc dù thành tích của nó đã chứng minh khả năng tồn tại của AI tiết kiệm tài nguyên, nhưng các câu hỏi vẫn còn về việc liệu các phương pháp đó có thể mở rộng quy mô để cạnh tranh với các khoản đầu tư lớn của những người khổng lồ công nghệ như Openai và Meta. , Mark Zuckerberg, Giám đốc điều hành của Meta, đã nhấn mạnh tầm quan trọng của các khoản đầu tư quy mô lớn vào cơ sở hạ tầng AI, Sying Hồi Đây sẽ là một năm xác định đối với AI. Vào năm 2025, tôi hy vọng Meta AI sẽ là trợ lý hàng đầu phục vụ hơn 1 tỷ người, Llama 4 sẽ trở thành mô hình hiện đại hàng đầu và chúng tôi sẽ xây dựng một kỹ sư AI sẽ bắt đầu đóng góp số lượng mã ngày càng tăng của mã cho những nỗ lực R & D của chúng tôi. Để cung cấp năng lượng này, Meta đang xây dựng một trung tâm dữ liệu 2GW+ lớn đến mức bao gồm một phần đáng kể của Manhattan.

Chúng tôi sẽ mang trực tuyến ~ 1GW tính toán trong Hồi25 và chúng tôi sẽ kết thúc năm với hơn 1,3 triệu GPU. Chúng tôi có kế hoạch đầu tư $ 60-65B vào CAPEX trong năm nay trong khi cũng phát triển đáng kể các nhóm AI của chúng tôi và chúng tôi có vốn để tiếp tục đầu tư vào những năm tới. Đây là một nỗ lực lớn, và trong những năm tới, nó sẽ thúc đẩy các sản phẩm và hoạt động kinh doanh cốt lõi của chúng tôi, mở khóa đổi mới lịch sử và mở rộng lãnh đạo công nghệ Mỹ. Chúng ta hãy xây dựng!”Tác động lâu dài đến ngành công nghiệp AI toàn cầu.