DeepSeek AI wypuściło DeepSeek-VL2, rodzinę modeli języka wizyjnego (VLM), które są teraz dostępne na licencjach typu open source. Seria wprowadza trzy warianty – Tiny, Small i standard VL2 – charakteryzujące się aktywowanymi parametrami o rozmiarach odpowiednio 1,0 miliarda, 2,8 miliarda i 4,5 miliarda.
Modele są dostępne w GitHub iPrzytulająca twarz. Obiecują rozwój kluczowych zastosowań sztucznej inteligencji, w tym wizualnego odpowiadania na pytania (VQA), optycznego rozpoznawania znaków (OCR) oraz analizy dokumentów i wykresów w wysokiej rozdzielczości.
Według oficjalnej dokumentacji GitHub „DeepSeek-VL2 wykazuje doskonałe możliwości w przypadku różnych zadań, w tym między innymi wizualnego odpowiadania na pytania, zrozumienia dokumentów/tabel/wykresów i uziemienia wizualnego.”
Moment wydania tej wersji stawia DeepSeek AI w bezpośredniej konkurencji z głównymi graczami, takimi jak OpenAI i Google, z których oba dominują w domenie sztucznej inteligencji opartej na wizji dzięki zastrzeżonym modele takie jak GPT-4V i Gemini-Exp
DeepSeek nacisk na współpracę typu open source w połączeniu z zaawansowanymi funkcjami technicznymi rodziny VL2 sprawia, że jest to bezpłatna opcja dla badaczy.
Dynamiczne kafelkowanie: zaawansowane przetwarzanie obrazu w wysokiej rozdzielczości
Jednym z najbardziej znaczących osiągnięć w DeepSeek-VL2 jest strategia dynamicznego kodowania obrazu metodą kafelkowania, która rewolucjonizuje sposób, w jaki modele przetwarzają dane wizualne o wysokiej rozdzielczości.
W przeciwieństwie do tradycyjnych W podejściu opartym na stałej rozdzielczości dynamiczne kafelkowanie dzieli obrazy na mniejsze, elastyczne kafelki, które dostosowują się do różnych współczynników proporcji. Metoda ta zapewnia szczegółową ekstrakcję cech przy zachowaniu wydajności obliczeniowej.
W swoim repozytorium GitHub firma DeepSeek opisuje to jako sposób „efektywnego przetwarzania obrazów o wysokiej rozdzielczości i różnych proporcjach, unikając skalowania obliczeniowego zwykle związanego ze wzrostem rozdzielczości obrazów”.
Dzięki tej możliwości DeepSeek-VL2 doskonale sprawdza się w zastosowaniach takich jak uziemienie wizualne, gdzie wysoka precyzja jest niezbędna do identyfikacji obiektów na złożonych obrazach, oraz gęste zadania OCR, które wymagają przetwarzania tekstu w szczegółowych dokumentach lub wykresach
Dzięki dynamicznemu dostosowywaniu się do różnych rozdzielczości obrazu i współczynników proporcji modele pokonują ograniczenia metod kodowania statycznego, dzięki czemu nadają się do zastosowań wymagających zarówno elastyczności, jak i dokładności.
Mieszanka-Eksperci i wielogłowicowi ukryci uwaga na wydajność
Wzrost wydajności DeepSeek-VL2 jest dodatkowo wspierany przez integrację Struktura Mixture-of-Experts (MoE) i mechanizm wielogłowicowej uwagi utajonej (MLA).
Architektura MoE selektywnie aktywuje określone podzbiory, czyli „ekspertów” w modelu, aby efektywniej wykonywać zadania. Konstrukcja ta zmniejsza narzut obliczeniowy, angażując tylko niezbędne parametry dla każdej operacji, co jest funkcją szczególnie przydatną w środowiskach o ograniczonych zasobach.
Mechanizm MLA uzupełnia strukturę MoE poprzez kompresję pamięci podręcznej klucz-wartość do postaci ukrytej wektory podczas wnioskowania. Ta optymalizacja minimalizuje zużycie pamięci i zwiększa prędkość przetwarzania bez utraty dokładności modelu.
Zgodnie z dokumentacją techniczną „Architektura MoE w połączeniu z MLA pozwala DeepSeek-VL2 osiągnąć konkurencyjną lub lepszą wydajność niż gęste modele z mniejszą liczbą aktywowanych parametrów.”
Trzyetapowy proces szkolenia
Rozwój DeepSeek-VL2 obejmował rygorystyczny, trzyetapowy proces szkolenia, którego celem było zoptymalizowanie multimodalnych możliwości modelu. Pierwszy etap skupiał się na nim dopasowanie obrazu do języka, w ramach którego modele zostały przeszkolone w zakresie integrowania cech wizualnych z informacjami tekstowymi
Uzyskano to przy użyciu zbiorów danych takich jak ShareGPT4V, które dostarczają sparowanych przykładów obrazu i tekstu do wstępnego dopasowania. wstępne szkolenie językowe, które obejmowało różnorodny zakres zbiorów danych, w tym dane WIT, WikiHow i wielojęzyczne dane OCR, w celu zwiększenia możliwości generalizacji modelu w wielu domenach.
Na koniec trzeci etap obejmował nadzorowane dostrajanie (SFT), podczas którego zestawy danych specyficzne dla zadania zostały wykorzystane do udoskonalenia wydajności modelu w takich obszarach, jak podstawy wizualne, zrozumienie graficznego interfejsu użytkownika (GUI) i gęste napisy.
Te etapy szkoleniowe pozwoliły DeepSeek-VL2 zbudować solidne podstawy do zrozumienia multimodalności, umożliwiając jednocześnie dostosowanie modeli do specjalistycznych zadań. Włączenie wielojęzycznych zbiorów danych jeszcze bardziej zwiększyło zastosowanie modeli w globalnych badaniach i warunkach przemysłowych.
Powiązane: Chiński model DeepSeek R1-Lite w wersji zapoznawczej jest liderem OpenAI w zakresie automatycznego wnioskowania
Wyniki testów porównawczych
Modele DeepSeek-VL2, w tym warianty Tiny, Small i standardowe, wyróżniały się pod względem krytyczne punkty odniesienia dla ogólnych zadań związanych z odpowiadaniem na pytania (QA) i zadań multimodalnych związanych z matematyką.
DeepSeek-VL2-Small, dzięki 2,8 miliardom aktywowanych parametrów, uzyskał wynik MMStar na poziomie 57,0 i uzyskał lepsze wyniki niż modele o podobnej wielkości, takie jak InternVL2-2B (49,8) i Qwen2-VL-2B (48,0). Ściśle rywalizował także ze znacznie większymi modelami, takimi jak 4.1B InternVL2-4B (54,3) i 8.3B Qwen2-VL-7B (60,7), demonstrując swoją konkurencyjną wydajność.
W teście AI2D pod kątem obrazu rozumując, DeepSeek-VL2-Small uzyskał wynik 80,0, przewyższając InternVL2-2B (74,1) i MM 1,5-3B (nie podano). Nawet w porównaniu z większymi konkurentami, takimi jak InternVL2-4B (78,9) i MiniCPM-V2.6 (82,1), DeepSeek-VL2 wykazał dobre wyniki przy mniejszej liczbie aktywowanych parametrów.
Źródło: DeepSeek
Okręt flagowy Model DeepSeek-VL2 (4,5 miliarda aktywowanych parametrów) zapewnił wyjątkowe wyniki, zdobywając 61,3 punktów w MMStar i 81,4 na AI2D. Przewyższył konkurentów, takich jak Molmo-7B-O (parametry aktywowane 7,6B, 39,3) i MiniCPM-V2.6 (8,0B, 57,5), jeszcze bardziej potwierdzając swoją wyższość techniczną.
Doskonałość w OCR-Powiązane testy porównawcze
Możliwości DeepSeek-VL2 obejmują przede wszystkim funkcje OCR (optyczne rozpoznawanie znaków) zadań, co stanowi kluczowy obszar rozumienia dokumentów i ekstrakcji tekstu w sztucznej inteligencji. W teście DocVQA DeepSeek-VL2-Small osiągnął imponującą dokładność 92,3%, przewyższając wszystkie inne modele open source o podobnej skali, w tym InternVL2-4B (89,2%) i MiniCPM-V2.6 (90,8%). Jego dokładność była tuż za modelami zamkniętymi, takimi jak GPT-4o (92,8) i Claude 3,5 Sonnet (95,2).
Model DeepSeek-VL2 również zwyciężył w teście ChartQA z wynikiem 86,0, przewyższając InternVL2-4B (81,5) i MiniCPM-V2.6 (82,4). Wynik ten odzwierciedla zaawansowaną zdolność DeepSeek-VL2 do przetwarzania wykresów i wydobywania spostrzeżeń ze złożonych danych wizualnych.
Źródło: DeepSeek
W OCRBench, wysoce konkurencyjny metryka precyzyjnego rozpoznawania tekstu, DeepSeek-VL2 osiągnął 811, deklasując 7.6B Qwen2-VL-7B (845) i MiniCPM-V2.6 (852 z CoT) i podkreślając jego siłę w gęstych zadaniach OCR.
Porównanie z wiodącymi modelami wizualno-językowymi
W przypadku umieszczenia obok liderów branży, takich jak modele GPT-4V firmy OpenAI i modele Gemini-1.5-Pro i DeepSeek-VL2 firmy Google oferują przekonującą równowagę wydajności i efektywności. Na przykład GPT-4V uzyskał 87,2 w DocVQA, co tylko nieznacznie przewyższa DeepSeek-VL2 (93,3), mimo że ten ostatni działa w środowisku open source z mniejszą liczbą aktywowanych parametrów.
W TextVQA, DeepSeek-VL2-Small osiągnął 83,4, znacznie przewyższając podobne modele typu open source, takie jak InternVL2-2B (73,4) i MiniCPM-V2.0 (74.1). Nawet znacznie większy MiniCPM-V2.6 (8.0B) osiągnął jedynie 80,4, co dodatkowo podkreśla skalowalność i wydajność architektury DeepSeek-VL2.
W przypadku ChartQA wynik DeepSeek-VL2 wynoszący 86,0 przewyższał wynik Pixtral-12B (81,8) i InternVL2-8B (83,3), demonstrując swoją zdolność do doskonałości w specjalistycznych zadaniach wymagających precyzyjnego zrozumienia wizualno-tekstowego.
Powiązane: Mistral AI debiutuje Pixtral 12B do przetwarzania tekstu i obrazu
Rozszerzanie zastosowań: Od Ugruntowane rozmowy w wizualnym opowiadaniu historii
Jedną godną uwagi cechą modeli DeepSeek-VL2 jest ich zdolność do prowadzenia ugruntowanych rozmów, podczas których model może identyfikować obiekty na obrazach i włączyć je do dyskusji kontekstowych.
Na przykład za pomocą wyspecjalizowanego tokena model może udostępniać szczegółowe informacje dotyczące obiektu, takie jak lokalizacja i opis, w celu odpowiadania na zapytania dotyczące obrazów. Otwiera to możliwości zastosowań w robotyce, rzeczywistości rozszerzonej i asystentach cyfrowych, gdzie wymagane jest precyzyjne rozumowanie wizualne.
Kolejnym obszarem zastosowań jest wizualne opowiadanie historii. DeepSeek-VL2 może generować spójne narracje w oparciu o sekwencję obrazów, łącząc zaawansowane możliwości rozpoznawania wizualnego i językowego.
Jest to szczególnie cenne w takich dziedzinach, jak edukacja, media i rozrywka, gdzie priorytetem jest dynamiczne tworzenie treści. Modele wykorzystują silne zrozumienie multimodalne, aby tworzyć szczegółowe i odpowiednie kontekstowo historie, płynnie integrując elementy wizualne, takie jak punkty orientacyjne i tekst, z narracją.
Zdolność modeli w zakresie podstaw wizualnych jest równie duża. W testach obejmujących złożone obrazy DeepSeek-VL2 wykazał zdolność do dokładnego lokalizowania i opisywania obiektów w oparciu o podpowiedzi opisowe.
Na przykład, gdy zostaniesz poproszony o zidentyfikowanie „samochodu zaparkowanego po lewej stronie ulicy”, model może wskazać dokładny obiekt na obrazie i wygenerować współrzędne ramki ograniczającej, aby zilustrować jego reakcję. Funkcje te sprawiają, że ma duże zastosowanie w systemach autonomicznych i monitoringu, gdzie szczegółowa analiza wizualna ma kluczowe znaczenie.
Dostępność i skalowalność typu open source
Decyzja DeepSeek AI o wydaniu DeepSeek-VL2 jako oprogramowanie typu open source ostro kontrastuje z zastrzeżonym charakterem konkurentów, takich jak GPT-4V OpenAI i Gemini-Exp firmy Google, które są zamkniętymi systemami przeznaczonymi do ograniczonego dostępu publicznego.
Zgodnie z dokumentacją techniczną, „Udostępniając publicznie nasze wstępnie wytrenowane modele i kod, naszym celem jest przyspieszenie postępu w modelowaniu języka wizyjnego i promowanie wspólnych innowacji w społeczności badawczej”.
Skalowalność DeepSeek-VL2 jeszcze bardziej zwiększa ich atrakcyjność. Modele są zoptymalizowane pod kątem wdrażania w szerokiej gamie konfiguracji sprzętowych, od pojedynczych procesorów graficznych z 10 GB pamięci po konfiguracje z wieloma procesorami graficznymi, które są w stanie obsłużyć obciążenia na dużą skalę.
Ta elastyczność gwarantuje, że DeepSeek-VL2 może być używany przez organizacje każdej wielkości, od start-upów po duże przedsiębiorstwa, bez potrzeby posiadania specjalistycznej infrastruktury.
Innowacje w zakresie danych i Szkolenie
Głównym czynnikiem sukcesu DeepSeek-VL2 są jego obszerne i różnorodne dane szkoleniowe. Faza wstępnego szkolenia obejmowała zbiory danych, takie jak WIT, WikiHow i OBELICS, które zapewniły mieszankę przeplatanych par obraz-tekst na potrzeby uogólnienia.
Dodatkowe dane dotyczące konkretnych zadań, takich jak OCR i wizualne odpowiadanie na pytania, pochodziły ze źródeł takich jak LaTeX OCR i PubTabNet, dzięki czemu modele mogły z dużą dokładnością obsługiwać zarówno zadania ogólne, jak i specjalistyczne.
Włączenie wielojęzycznych zbiorów danych odzwierciedla także cel DeepSeek AI, jakim jest globalne zastosowanie. Zbiory danych w języku chińskim, takie jak Wanjuan, zintegrowano ze zbiorami danych w języku angielskim, aby zapewnić skuteczne działanie modeli w środowiskach wielojęzycznych.
To podejście zwiększa użyteczność DeepSeek-VL2 w regionach, w których dominują dane w języku innym niż angielski, znacznie poszerzając potencjalną bazę użytkowników.
Faza nadzorowanego dostrajania jeszcze bardziej udoskonaliła modele możliwości, koncentrując się na konkretnych zadaniach, takich jak zrozumienie GUI i analiza wykresów. Łącząc wewnętrzne zbiory danych z wysokiej jakości zasobami typu open source, DeepSeek-VL2 osiągnął najnowocześniejszą wydajność w kilku testach porównawczych, potwierdzając skuteczność swojej metodologii szkoleniowej.
Staranny dobór DeepSeek AI danych i innowacyjny proces szkoleniowy pozwoliły modelom VL2 wyróżnić się w szerokim zakresie zadań, zachowując jednocześnie wydajność i skalowalność. Czynniki te czynią je cennym uzupełnieniem dziedziny multimodalnej sztucznej inteligencji.
Zdolność modeli do obsługi złożonych zadań przetwarzania obrazu, takich jak uziemienie wizualne i gęsty OCR, czyni je idealnymi dla branż takich jak logistyka i bezpieczeństwo. W logistyce mogą zautomatyzować śledzenie zapasów, analizując obrazy zapasów magazynowych, identyfikując pozycje i integrując ustalenia z systemami zarządzania zapasami.
W obszarze bezpieczeństwa DeepSeek-VL2 może pomóc w nadzorze, identyfikując obiekty lub osoby w czasie rzeczywistym na podstawie zapytań opisowych i dostarczając operatorom szczegółowe informacje kontekstowe.
DeepSeek-Ugruntowane możliwości konwersacji VL2 oferują także możliwości w robotyce i rzeczywistości rozszerzonej. Na przykład robot wyposażony w ten model mógłby wizualnie interpretować swoje otoczenie, odpowiadać na zapytania ludzi dotyczące konkretnych obiektów i wykonywać czynności w oparciu o zrozumienie bodźców wizualnych.
Podobnie urządzenia rzeczywistości rozszerzonej mogą wykorzystywać wizualne podstawy modelu i funkcje opowiadania historii, aby zapewnić interaktywne, wciągające doświadczenia, takie jak wycieczki z przewodnikiem lub nakładki kontekstowe w środowiskach czasu rzeczywistego.
Wyzwania i perspektywy na przyszłość
Pomimo swoich licznych mocnych stron, DeepSeek-VL2 stoi przed kilkoma wyzwaniami. Jednym z kluczowych ograniczeń jest rozmiar okna kontekstowego, które obecnie ogranicza liczbę obrazów, które można przetworzyć w ramach pojedynczej interakcji.
Rozszerzenie tego okna kontekstowego w przyszłych iteracjach umożliwiłoby bogatsze interakcje obejmujące wiele obrazów i zwiększyło użyteczność modelu w zadaniach wymagających szerszego zrozumienia kontekstu.
Kolejnym wyzwaniem jest radzenie sobie z nie—domeny lub dane wizualne o niskiej jakości, takie jak rozmyte obrazy lub obiekty, których nie ma w danych szkoleniowych. Chociaż DeepSeek-VL2 wykazał niezwykłe możliwości uogólniania, poprawa odporności na takie dane wejściowe jeszcze bardziej zwiększy jego zastosowanie w rzeczywistych scenariuszach.
Patrząc w przyszłość, DeepSeek AI planuje wzmocnić możliwości wnioskowania swoich modeli, umożliwiając im obsługę coraz bardziej złożonych zadań multimodalnych. Integrując ulepszone procesy szkoleniowe i rozszerzając zbiory danych, aby uwzględnić bardziej zróżnicowane scenariusze, przyszłe wersje DeepSeek-VL2 mogą ustanowić nowe standardy wydajności sztucznej inteligencji opartej na języku wizyjnym.