A kínai DeepSeek mesterségesintelligencia-cég hétfőn kiadott egy új nyílt forráskódú rendszert, amely egy jelentős mesterségesintelligencia-szűk keresztmetszet megoldására szolgál: hatalmas dokumentumok feldolgozására.
A hangcsoui székhelyű csapata kifejlesztette a DeepSeek-OCR-t, egy új „optikai tömörítési” technikát használó eszközt, amellyel képekből és PDF-ekből szöveget erősen tömörített formátumba konvertálhat.
Ez a módszer lehetővé teszi a nyelvi modellek rövidebb elemzését. állítólag 97%-os pontosságot tart fenn az adatok tízszeres csökkenésével.
A modell kiadása a hatékonyság felé vezető stratégiai fordulatot jelent a DeepSeek számára, amelynek zászlóshajója, R2 modellje az év elején határozatlan időre késett az amerikai-kínai technológiai háborúhoz kapcsolódó hardverkihívások közepette.
Nyilvánosan elérhető a fejlesztői platformon OCR”uggingSeek-H A Face, az új modell és kódja a nyílt forráskódú közösség iránti erős elkötelezettséget jelzi.
A kezdeti reakciók kifejezetten pozitívak voltak, és az iparági megfigyelők azt sugallták, hogy a technológia hatásai messze túlmutatnak a szabványos dokumentumfeldolgozáson.
A hosszú dokumentumok problémájának megoldása az „optikai tömörítéssel”
, a DeCREPS bemutatja a technikáját, „optikai tömörítés.”
A digitális szöveg tokenenkénti feldolgozása helyett a rendszer egy dokumentum képét elemzi, és annak tartalmát rendkívül hatékony „látási tokenek”készletévé alakítja át.
Ez a módszer drámaian csökkenti a nyelvi modellnek kezelendő adatmennyiséget, ami kritikus kihívás a hosszú formátumú tartalmakkal, például kutatási dokumentumokkal, pénzügyi jelentésekkel és jogi szerződésekkel foglalkozó mesterséges intelligencia alkalmazások számára. href=”https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf”target=”_blank”>hivatalos műszaki papír szerint a rendszer rendkívül hatékony. „Kísérletek azt mutatják, hogy ha a szöveges tokenek száma a látás tokenek tízszeresén belül van, akkor a modell 97%-os dekódolási (OCR) pontosságot érhet el.”
Hatékonyságát egy kifinomult architektúra éri el. A nagy teljesítményű „DeepEncoder” először a Meta Segment Anything Model (SAM) összetevőivel dolgozza fel a nagy felbontású képeket a helyi elemzéshez és az OpenAI CLIP elemeit a globális kontextushoz.
xx. A tömörítő ezután drasztikusan csökkenti a tokenek számát, mielőtt az adatokat egy speciális DeepSeek-3B-MoE nyelvi modellbe dekódolás céljából betáplálja.
Ez a megközelítés jelentős teljesítménynövekedést eredményez. A benchmark tesztekben a DeepSeek-OCR felülmúlja az olyan versenytársakat, mint a GOT-OCR2.0, mindössze 100 látás tokent használva az utóbbi 256-hoz képest. A MinerU 2.0 teljesítményét is felülmúlja, amelyhez közel 7000 token szükséges, és kevesebb mint 800-at használ. azt állítja, hogy egyetlen Nvidia A100 GPU több mint 200 000 oldalt képes feldolgozni naponta, hatékony eszközzé teszi a következő generációs mesterséges intelligencia betanításához szükséges hatalmas adatkészletek felépítéséhez.
Stratégiai fordulat a hardvergondok után elakadt R2-modell
A hatékonyságra és a nyílt forráskódú hozzáférhetőségre való összpontosítás jelentős stratégiai váltást jelent a DeepSeek számára. Megjelenése egy viharos időszakot követ a vállalat számára, miután a várva várt R2-es gondolkodási modell 2025 közepén határozatlan időre leállt.
Bár a kezdeti jelentések változatosak voltak, később bebizonyosodott, hogy az alapvető probléma egy tartós technikai hiba volt a képzési szakaszban.
A DeepSeek nem tudott sikeresen befejezni egy hazai, A Huawes2-es Accensd modellt használó modellt. Ez a kudarc jelentős visszalépést jelentett Kína technológiai szuverenitás elérésére irányuló ambíciói számára, és rávilágított a feltörekvő hazai hardvereken versenyképes szoftvercsomag felépítésének óriási nehézségeire.
A vállalat kénytelen volt visszatérni a bevált Nvidia chipekhez, ezt a lépést bonyolítja az ingatag amerikai válság, a hardverek nyomást gyakoroltak a technológiai háborúra. tedd a DeepSeeket a nehéz versenyhelyzet, ami lehetőséget teremt a hazai riválisok, például a Z.ai és az Alibaba térnyerésére.
Ezenkívül intenzív geopolitikai vizsgálatnak kell alávetni. Az Egyesült Államok képviselőházi bizottságának egy éles áprilisi jelentése biztonsági fenyegetésnek minősítette a céget, és John Moolenaar elnök kijelentette: „A DeepSeek nem csak egy újabb mesterséges intelligencia-alkalmazás – ez egy fegyver a Kínai Kommunista Párt fegyvertárában, amelyet arra terveztek, hogy kémkedjen az amerikaiak után, ellopja a technológiánkat, és felforgatja az Egyesült Államok törvényeit.”
O a Competitive Forwardth3. Piac
Kibocsátással A DeepSeek-OCR hatékony, nyílt forráskódú eszközként úgy tűnik, hogy a vállalat többlépcsős stratégiát hajt végre a lendület visszanyerése érdekében.
Ez a lépés közvetlenül bevonja a globális fejlesztői közösséget, elősegítve az új architektúra alkalmazását és innovációját. Folyamatos kutatási képességeinek gyakorlati demonstrációjaként is szolgál, még akkor is, ha zászlóshajója továbbra is bizonytalan.
Kibocsátása egy újabb agresszív lépést követett szeptemberben, amikor a DeepSeek több mint 50%-kal csökkentette API-árait, hogy felvegye a versenyt a kínai heves mesterségesintelligencia-árháborúban.
Míg a nyugati CR-ek beszálltak a kereskedelmi API-kba. A DeepSeek az extrémre összpontosít a tömörítés és a nyílt forráskódú modell külön értékajánlatot kínál.
Költséghatékony alternatívát kínál azoknak a fejlesztőknek és kutatóknak, akiknek nagy méretekben kell feldolgozniuk a dokumentumokat.
A globális chipháború zord valóságában navigáló vállalat számára a hatékonyságra összpontosító technológia nyílt forráskódú beszerzése ravasz lépés.
Lehetővé teszi a költség-és versenyelőny visszaszerzését. A fejlesztési folyamat aktív, és alkalmazkodik a kihívásokkal teli geopolitikai környezethez.