Kiinalainen tekoälyyritys DeepSeek julkaisi maanantaina uuden avoimen lähdekoodin järjestelmän, joka on suunniteltu ratkaisemaan merkittävä tekoälyn pullonkaula: käsittelemään massiivisia asiakirjoja.

Sen Hangzhoussa sijaitseva tiimi kehitti DeepSeek-OCR:n, työkalun, joka käyttää uutta optista pakkaustekniikkaa tekstin muuntamiseen kuvista ja PDF-tiedostoista huomattavasti pakattuun muotoon. Tämä menetelmä mahdollistaa kielimallien tehokkuuden analysointia pienemmillä tiedostoilla.

kerrotaan säilyttävän 97 % tarkkuuden ja kymmenkertaisen määrän dataa.

Mallin julkaisu merkitsee strategista käännekohtaa tehokkuuteen DeepSeekille, jonka lippulaiva R2-malli viivästyi määrittelemättömäksi ajaksi aiemmin tänä vuonna Yhdysvaltojen ja Kiinan väliseen teknologiasotaan liittyvien laitteistohaasteiden vuoksi.

Julkisesti saatavilla kehittäjäalustalla Face, uusi malli ja sen koodi osoittavat vahvaa sitoutumista avoimen lähdekoodin yhteisöön.

Alkureaktiot ovat olleet erityisen myönteisiä, ja alan tarkkailijat ovat ehdottaneet, että tekniikan vaikutukset ulottuvat paljon tavallista asiakirjankäsittelyä pidemmälle.

Pitkän asiakirjan ongelman ratkaiseminen”Optical Compression”-tekniikalla

Tutki sen yrityksen,

Atk-OCR kutsuu”optiseksi”. pakkaus.”

Digitaalisen tekstin tunniste kerrallaan käsittelyn sijaan järjestelmä analysoi asiakirjan kuvan ja muuntaa sen sisällön erittäin tehokkaaksi joukoksi”näkemätunnisteita”.

Tällainen menetelmä vähentää dramaattisesti dataa, jota kielimallin on käsiteltävä, mikä on kriittinen haaste tekoälysovelluksille, jotka käsittelevät pitkää sisältöä, kuten tutkimuspapereita, talousraportteja ja oikeudellisia sopimuksia.

href=”https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf”target=”_blank”>virallisessa teknisessä asiakirjassa, järjestelmä on erittäin tehokas.”Kokeet osoittavat, että kun tekstitunnisteiden määrä on 10 kertaa enemmän kuin visiotunnisteet… malli voi saavuttaa 97 %:n dekoodauksen (OCR) tarkkuuden.”

Sen tehokkuus saavutetaan hienostuneen arkkitehtuurin avulla. Tehokas”DeepEncoder”käsittelee ensin korkearesoluutioisia kuvia Metan Segment Anything Model (SAM) komponenttien avulla paikalliseen analyysiin ja OpenAI:n CLIP:n globaaliin kontekstiin.

kompressori vähentää sitten rajusti merkkien määrää ennen kuin syöttää tiedot erikoistuneeseen DeepSeek-3B-MoE-kielimalliin dekoodausta varten.

Tämä lähestymistapa parantaa suorituskykyä merkittävästi. Vertailutesteissä DeepSeek-OCR ohittaa kilpailijat, kuten GOT-OCR2.0, käyttämällä vain 100 visiomerkkiä verrattuna jälkimmäisen 256:een. Se myös ylittää MinerU 2.0:n, joka vaatii lähes 7 000 merkkiä, käyttämällä alle 800:ta.

Katso todellisia sovelluksia. väittää, että yksi Nvidia A100 GPU pystyy käsittelemään yli 200 000 sivua päivässä, mikä tekee Se on tehokas työkalu seuraavan sukupolven tekoälyn kouluttamiseen tarvittavien massiivisten tietojoukkojen rakentamiseen.

Strateginen käänne laitteistoongelmien jälkeen pysähtyneen R2-mallin jälkeen

Tehokkuuteen ja avoimen lähdekoodin saavutettavuuteen keskittyminen merkitsee merkittävää strategista muutosta DeepSeekille. Sen julkaisu seuraa yritykselle myrskyisää ajanjaksoa sen jälkeen, kun sen erittäin odotettu R2-päättelymalli pysähtyi lopullisesti vuoden 2025 puolivälissä.

Vaikka alustavat raportit vaihtelivat, myöhemmin vahvistettiin, että ydinongelma oli jatkuva tekninen vika koulutusvaiheen aikana.

DeepSeek ei pystynyt suorittamaan onnistunutta kotimaista harjoitusajoa Huawes2:n Acensed-sirumallilla R.Cenis2:lle. Epäonnistuminen oli suuri takaisku Kiinan pyrkimyksille saavuttaa teknologinen itsemääräämisoikeus, mikä korosti valtavia vaikeuksia rakentaa kilpailukykyinen ohjelmistopino nouseville kotimaisille laitteille.

Yhtiö joutui kääntymään takaisin todistettuihin Nvidia-siruihin, jota vaikeutti epävakaa USA:n kriisi. asetti DeepSeekin vaikeaan kilpailuun asema, mikä luo paikan kotimaisille kilpailijoille, kuten Z.ai ja Alibaba, nousta jalansijaa.

Se on myös tiukka geopoliittinen valvonta. Yhdysvaltain edustajainhuoneen komitean huutava raportti huhtikuussa leimaa yritystä turvallisuusuhkaksi, ja puheenjohtaja John Moolenaar totesi:”DeepSeek ei ole vain yksi tekoälysovellus-se on Kiinan kommunistisen puolueen arsenaalissa oleva ase, joka on suunniteltu vakoilemaan amerikkalaisia, varastamaan teknologiaamme ja kumoamaan Yhdysvaltain lakia.”

O a Competitive Forwardth3. Markkinoi

Julkaisemalla DeepSeek-OCR on tehokas, avoimen lähdekoodin työkalu, ja se näyttää toteuttavan monitahoista strategiaa saadakseen vauhtia takaisin.

Tällainen siirto sitoo suoraan maailmanlaajuisen kehittäjäyhteisön ja edistää sen uuden arkkitehtuurin omaksumista ja innovointia. Se toimii myös käytännön osoituksena sen jatkuvasta tutkimuskyvystä, vaikka sen lippulaivamalli pysyy hämärässä.

Sen julkaisu seuraa toista aggressiivista liikettä syyskuussa, kun DeepSeek alensi API-hintojaan yli 50 % kilpaillakseen Kiinan rajussa tekoälyn hintasodassa.

Vaikka länsimaiset kilpailijat ovat myös astuneet kaupalliseen API-avaruuteen. DeepSeek keskittyy äärimmäiseen pakkaukseen ja avoimen lähdekoodin malli tarjoaa selkeän arvolupauksen.

Se tarjoaa kustannustehokkaan vaihtoehdon kehittäjille ja tutkijoille, jotka tarvitsevat asiakirjojen laajamittaista käsittelyä.

Yritykselle, joka navigoi globaalin sirusodan ankarissa todellisuuksissa, tehokkuuteen keskittyvän teknologian avoimen lähdekoodin hankinta on ovela askel.

Se mahdollistaa DeepSeek-kehityksen ja sen kilpailukykyisen kehityksen. putki on aktiivinen ja mukautuu haastavaan geopoliittiseen maisemaan.

Categories: IT Info