Công ty AI Trung Quốc DeepSeek hôm thứ Hai đã phát hành một hệ thống nguồn mở mới được thiết kế để giải quyết một nút thắt lớn về AI: xử lý các tài liệu lớn.
Nhóm có trụ sở tại Hàng Châu của họ đã phát triển DeepSeek-OCR, một công cụ sử dụng kỹ thuật “nén quang học” mới để chuyển đổi văn bản từ hình ảnh và PDF sang định dạng nén cao.
Phương pháp này cho phép các mô hình ngôn ngữ phân tích các tệp dài với chi phí ít hơn đáng kể. sức mạnh tính toán, được cho là duy trì độ chính xác 97% với lượng dữ liệu giảm gấp 10 lần.
Việc phát hành mô hình này đánh dấu bước chuyển chiến lược hướng tới hiệu quả của DeepSeek, mẫu R2 hàng đầu của nó đã bị trì hoãn vô thời hạn vào đầu năm nay trong bối cảnh những thách thức về phần cứng liên quan đến cuộc chiến công nghệ Mỹ-Trung.
Có sẵn công khai trên nền tảng dành cho nhà phát triển Hugging Face, mô hình mới và mã của nó báo hiệu một cam kết mạnh mẽ đối với cộng đồng nguồn mở.
Phản ứng ban đầu đặc biệt tích cực, với những người theo dõi trong ngành cho rằng ý nghĩa của công nghệ này vượt xa việc xử lý tài liệu tiêu chuẩn.
Giải quyết vấn đề tài liệu dài bằng’Nén quang học’
Về cốt lõi, DeepSeek-OCR giới thiệu một kỹ thuật mà công ty gọi là “nén quang.”
Thay vì xử lý mã thông báo văn bản kỹ thuật số theo mã thông báo, hệ thống sẽ phân tích hình ảnh của tài liệu và chuyển đổi nội dung của nó thành một bộ”mã thông báo tầm nhìn”hiệu quả cao.
Phương pháp như vậy làm giảm đáng kể dữ liệu mà mô hình ngôn ngữ phải xử lý, một thách thức nghiêm trọng đối với các ứng dụng AI xử lý nội dung dạng dài như tài liệu nghiên cứu, báo cáo tài chính và hợp đồng pháp lý.
Theo theo tài liệu kỹ thuật chính thức, hệ thống này có hiệu quả rõ rệt. “Các thử nghiệm cho thấy rằng khi số lượng mã thông báo văn bản gấp 10 lần số lượng mã thông báo thị giác… thì mô hình có thể đạt được độ chính xác giải mã (OCR) là 97%.”
Hiệu quả của nó đạt được thông qua một kiến trúc phức tạp. “DeepEncode” mạnh mẽ trước tiên xử lý hình ảnh có độ phân giải cao bằng cách sử dụng các thành phần từ Mô hình bất kỳ phân đoạn (SAM) của Meta để phân tích cục bộ và CLIP của OpenAI cho bối cảnh toàn cầu.
A 16x Sau đó, máy nén sẽ giảm đáng kể số lượng mã thông báo trước khi cung cấp dữ liệu cho mô hình ngôn ngữ DeepSeek-3B-MoE chuyên dụng để giải mã.
Hiệu suất đạt được từ phương pháp này là rất đáng kể. Trong các bài kiểm tra điểm chuẩn, DeepSeek-OCR vượt qua các đối thủ như GOT-OCR2.0 khi chỉ sử dụng 100 mã thông báo tầm nhìn so với 256 của GOT-OCR2.0. Nó cũng vượt trội so với MinerU 2.0, vốn yêu cầu gần 7.000 mã thông báo, sử dụng ít hơn 800.
Đối với các ứng dụng trong thế giới thực, thông lượng rất ấn tượng: DeepSeek tuyên bố rằng một GPU Nvidia A100 duy nhất có thể xử lý hơn 200.000 trang mỗi lần ngày, biến nó thành một công cụ mạnh mẽ để xây dựng các bộ dữ liệu khổng lồ cần thiết để đào tạo AI thế hệ tiếp theo.
Một bước ngoặt chiến lược sau khi mô hình R2 bị đình trệ về phần cứng
Việc tập trung vào hiệu quả và khả năng truy cập nguồn mở đánh dấu một sự thay đổi chiến lược quan trọng đối với DeepSeek. Việc phát hành nó diễn ra sau một giai đoạn hỗn loạn đối với công ty sau khi mô hình lý luận R2 rất được mong đợi của nó bị đình trệ vô thời hạn vào giữa năm 2025.
Mặc dù các báo cáo ban đầu rất khác nhau nhưng sau đó người ta xác nhận rằng vấn đề cốt lõi là lỗi kỹ thuật dai dẳng trong giai đoạn đào tạo.
DeepSeek đã không thể hoàn thành quá trình đào tạo thành công cho mẫu R2 sử dụng chip Ascend nội địa của Huawei. Thất bại đó thể hiện một bước thụt lùi lớn đối với tham vọng đạt được chủ quyền công nghệ của Trung Quốc, nêu bật khó khăn to lớn trong việc xây dựng một hệ thống phần mềm cạnh tranh trên phần cứng nội địa mới nổi.
Công ty buộc phải quay trở lại với các chip Nvidia đã được kiểm chứng, một động thái phức tạp do cuộc chiến công nghệ Mỹ-Trung đầy biến động.
Thêm vào áp lực, cuộc khủng hoảng phần cứng đã khiến DeepSeek rơi vào tình thế khó khăn vị thế cạnh tranh, tạo cơ hội cho các đối thủ trong nước như Z.ai và Alibaba giành lấy chỗ đứng.
Nó cũng phải đối mặt với sự giám sát chặt chẽ về địa chính trị. Một báo cáo gay gắt của Ủy ban Hạ viện Hoa Kỳ từ tháng 4 đã coi công ty này là một mối đe dọa an ninh, trong đó Chủ tịch John Moolenaar tuyên bố: “DeepSeek không chỉ là một ứng dụng AI khác — nó là một vũ khí trong kho vũ khí của Đảng Cộng sản Trung Quốc, được thiết kế để theo dõi người Mỹ, đánh cắp công nghệ của chúng tôi và phá hoại luật pháp Hoa Kỳ”. DeepSeek-OCR, với tư cách là một công cụ nguồn mở mạnh mẽ, công ty dường như đang thực hiện một chiến lược đa hướng để lấy lại động lực.
Động thái như vậy thu hút trực tiếp cộng đồng nhà phát triển toàn cầu, thúc đẩy việc áp dụng và đổi mới xung quanh kiến trúc mới của nó. Nó cũng đóng vai trò như một minh chứng thực tế về khả năng nghiên cứu đang diễn ra của mình, ngay cả khi mẫu hàng đầu của nó vẫn còn trong tình trạng lấp lửng.
Việc phát hành nó diễn ra sau một động thái mạnh mẽ khác vào tháng 9, khi DeepSeek giảm giá API hơn 50% để cạnh tranh trong cuộc chiến giá AI khốc liệt của Trung Quốc.
Trong khi các đối thủ phương Tây như Mistral AI cũng đã bước vào không gian OCR với các API thương mại mạnh mẽ, DeepSeek tập trung vào Khả năng nén cực cao và mô hình nguồn mở mang đến một tuyên bố giá trị khác biệt.
Nó cung cấp giải pháp thay thế hiệu quả về mặt chi phí cho các nhà phát triển và nhà nghiên cứu cần xử lý tài liệu trên quy mô lớn.
Đối với một công ty đang vượt qua thực tế khắc nghiệt của cuộc chiến chip toàn cầu, việc cung cấp nguồn mở cho một công nghệ tập trung vào hiệu quả là một bước đi khôn ngoan.
Nó cho phép DeepSeek lấy lại lợi thế cạnh tranh về chi phí và sự đổi mới, báo hiệu rằng lộ trình phát triển của nó đang hoạt động và thích ứng với bối cảnh địa chính trị đầy thách thức.