Chińska firma DeepSeek zajmująca się sztuczną inteligencją wypuściła w poniedziałek nowy system o otwartym kodzie źródłowym, zaprojektowany w celu rozwiązania głównego wąskiego gardła sztucznej inteligencji: przetwarzania ogromnych dokumentów.
Jej zespół z siedzibą w Hangzhou opracował DeepSeek-OCR, narzędzie wykorzystujące nowatorską technikę „kompresji optycznej” do konwertowania tekstu z obrazów i plików PDF do wysoce skompresowanego formatu.
Ta metoda umożliwia modelom językowym analizowanie długich plików przy znacznie mniejszym obciążeniu obliczeniowym moc, podobno utrzymując dokładność na poziomie 97% przy dziesięciokrotnym zmniejszeniu ilości danych.
Wypuszczenie modelu oznacza strategiczny zwrot w stronę wydajności firmy DeepSeek, której flagowy model R2 został bezterminowo opóźniony na początku tego roku ze względu na wyzwania sprzętowe związane z wojną technologiczną między USA a Chinami.
Publicznie dostępne na platformie programistów Przytulanie Face, nowy model i jego kod sygnalizują silne zaangażowanie na rzecz społeczności open source.
Wstępne reakcje były szczególnie pozytywne, a obserwatorzy branży sugerują, że implikacje tej technologii wykraczają daleko poza standardowe przetwarzanie dokumentów.
Rozwiązywanie problemu długich dokumentów za pomocą „kompresji optycznej”
W swej istocie DeepSeek-OCR wprowadza technikę, którą firma nazywa „optyczną” kompresji.”
Zamiast przetwarzać cyfrowy tekst token po tonie, system analizuje obraz dokumentu i konwertuje jego zawartość na wysoce wydajny zestaw „tokenów wizji”.
Taka metoda radykalnie zmniejsza ilość danych, które musi obsłużyć model językowy, co stanowi krytyczne wyzwanie dla aplikacji AI zajmujących się długimi treściami, takimi jak artykuły naukowe, raporty finansowe i umowy prawne.
Według oficjalny dokument techniczny, system jest niezwykle skuteczny. „Eksperymenty pokazują, że gdy liczba tokenów tekstowych jest 10 razy większa od liczby tokenów wizji… model może osiągnąć precyzję dekodowania (OCR) na poziomie 97%.”
Jego wydajność osiąga się dzięki wyrafinowanej architekturze. Potężny „DeepEncoder” najpierw przetwarza obrazy w wysokiej rozdzielczości, korzystając z komponentów z Segment Everything Model (SAM) firmy Meta do analizy lokalnej i CLIP firmy OpenAI w kontekście globalnym.
A 16x Następnie kompresor drastycznie zmniejsza liczbę tokenów przed przesłaniem danych do wyspecjalizowanego modelu języka DeepSeek-3B-MoE w celu dekodowania.
Wzrost wydajności dzięki temu podejściu jest znaczny. W testach porównawczych DeepSeek-OCR przewyższa konkurentów, takich jak GOT-OCR2.0, używając zaledwie 100 tokenów wizji w porównaniu do 256 tokenów tego ostatniego. Przewyższa także MinerU 2.0, który wymaga prawie 7000 tokenów, wykorzystując mniej niż 800.
W zastosowaniach w świecie rzeczywistym przepustowość jest uderzająca: DeepSeek twierdzi, że pojedynczy procesor graficzny Nvidia A100 może przetworzyć ponad 200 000 stron dziennie, co czyni go potężnym narzędziem do tworzenia ogromnych zbiorów danych potrzebnych do szkolenia sztucznej inteligencji nowej generacji.
Strategiczny zwrot po problemach sprzętowych, które utknęły w martwym punkcie Model R2
Skoncentrowanie się na wydajności i dostępności open source oznacza znaczącą zmianę strategiczną dla DeepSeek. Jego wydanie następuje po burzliwym okresie dla firmy, po tym jak długo oczekiwany model rozumowania R2 utknął w martwym punkcie w połowie 2025 r.
Chociaż wstępne raporty były różne, później potwierdzono, że głównym problemem była utrzymująca się awaria techniczna na etapie szkolenia.
DeepSeek nie był w stanie pomyślnie ukończyć cyklu szkoleniowego dla modelu R2 przy użyciu krajowych chipów Ascend firmy Huawei. Ta porażka stanowiła poważną porażkę dla ambicji Chin związanych z osiągnięciem suwerenności technologicznej, uwypuklając ogromną trudność w zbudowaniu konkurencyjnego stosu oprogramowania na wschodzącym sprzęcie krajowym.
Firma została zmuszona do powrotu do sprawdzonych chipów Nvidia, co skomplikowało niestabilną wojnę technologiczną między USA a Chinami.
Dodatkową presję stanowi kryzys sprzętowy, który postawił DeepSeek w trudnej sytuacji pozycję konkurencyjną, tworząc szansę na zdobycie pozycji dla krajowych rywali, takich jak Z.ai i Alibaba.
Firma spotyka się również z intensywną analizą geopolityczną. Zjadliwy raport komisji Izby Reprezentantów Stanów Zjednoczonych z kwietnia uznał tę firmę za zagrożenie dla bezpieczeństwa, a przewodniczący John Moolenaar stwierdził: „DeepSeek to nie tylko kolejna aplikacja oparta na sztucznej inteligencji — to broń w arsenale Komunistycznej Partii Chin, zaprojektowana do szpiegowania Amerykanów, kradzieży naszej technologii i obalenia amerykańskiego prawa”.
Open-sourcing ścieżką naprzód na konkurencyjnym rynku
Przez uwalnianie Wydaje się, że DeepSeek-OCR to potężne narzędzie typu open source i realizuje wielostronną strategię, aby odzyskać dynamikę.
Takie posunięcie bezpośrednio angażuje globalną społeczność programistów, wspierając przyjęcie i innowacje wokół nowej architektury. Służy także jako praktyczna demonstracja jego bieżących możliwości badawczych, nawet jeśli jego flagowy model pozostaje w zawieszeniu.
Jego premiera nastąpiła po kolejnym agresywnym posunięciu we wrześniu, kiedy DeepSeek obniżył ceny API o ponad 50%, aby konkurować w zaciekłej wojnie cenowej sztucznej inteligencji w Chinach.
Podczas gdy zachodni konkurenci, tacy jak Mistral AI, również weszli do przestrzeni OCR dzięki potężnym komercyjnym interfejsom API, DeepSeek koncentruje się na ekstremalnej kompresji i model open source oferuje wyraźną propozycję wartości.
Zapewnia opłacalną alternatywę dla programistów i badaczy, którzy muszą przetwarzać dokumenty na dużą skalę.
Dla firmy poruszającej się w trudnych realiach globalnej wojny chipowej, opensourcing technologii zorientowanej na wydajność jest sprytnym posunięciem.
Pozwala DeepSeek odzyskać przewagę konkurencyjną w zakresie kosztów i innowacji, sygnalizując, że plany rozwoju są już zakończone. aktywne i dostosowujące się do wymagającego krajobrazu geopolitycznego.