A empresa chinesa de IA DeepSeek lançou na segunda-feira um novo sistema de código aberto projetado para resolver um grande gargalo de IA: o processamento de documentos massivos.
Sua equipe baseada em Hangzhou desenvolveu o DeepSeek-OCR, uma ferramenta que usa uma nova técnica de “compressão óptica” para converter texto de imagens e PDFs em um formato altamente compactado.
Esse método permite que modelos de linguagem analisem arquivos longos com significativamente menos computação. potência, supostamente mantendo 97% de precisão com uma redução de dez vezes nos dados.
O lançamento do modelo marca um pivô estratégico em direção à eficiência da DeepSeek, cujo principal modelo R2 foi adiado indefinidamente no início deste ano em meio a desafios de hardware ligados à guerra tecnológica EUA-China.
Disponível publicamente na plataforma do desenvolvedor Hugging Face, o novo modelo e seu código sinalizam um forte compromisso com a comunidade de código aberto.
As reações iniciais foram notavelmente positivas, com observadores da indústria sugerindo que as implicações da tecnologia vão muito além do processamento padrão de documentos.
Resolvendo o problema de documentos longos com’compressão óptica’
Em sua essência, DeepSeek-OCR introduz uma técnica que a empresa chama “compressão óptica.”
Em vez de processar token de texto digital por token, o sistema analisa uma imagem de um documento e converte seu conteúdo em um conjunto altamente eficiente de “tokens de visão.”
Tal método reduz drasticamente os dados que um modelo de linguagem deve manipular, um desafio crítico para aplicações de IA que lidam com conteúdo de formato longo, como artigos de pesquisa, relatórios financeiros e contratos legais.
De acordo com de acordo com o documento técnico oficial, o sistema é extremamente eficaz. “Experiências mostram que quando o número de tokens de texto é 10 vezes maior que o de tokens de visão… o modelo pode atingir uma precisão de decodificação (OCR) de 97%.”
Sua eficiência é alcançada por meio de uma arquitetura sofisticada. Um poderoso “DeepEncoder” primeiro processa imagens de alta resolução usando componentes do Segment Anything Model (SAM) para análise local e do OpenAI’s CLIP para contexto global.
A O compressor 16x reduz drasticamente a contagem de tokens antes de alimentar os dados em um modelo de linguagem DeepSeek-3B-MoE especializado para decodificação.
Os ganhos de desempenho com essa abordagem são substanciais. Em testes de benchmark, o DeepSeek-OCR supera concorrentes como o GOT-OCR2.0 usando apenas 100 tokens de visão em comparação com os 256 deste último. Ele também supera o MinerU 2.0, que requer quase 7.000 tokens, usando menos de 800.
Para aplicações do mundo real, o rendimento é impressionante: DeepSeek afirma que uma única GPU Nvidia A100 pode processar mais de 200.000 páginas por hoje, tornando-o uma ferramenta poderosa para construir os enormes conjuntos de dados necessários para treinar a IA da próxima geração.
Um pivô estratégico após problemas de hardware estagnados Modelo R2
O foco na eficiência e na acessibilidade de código aberto marca uma mudança estratégica significativa para o DeepSeek. Seu lançamento segue um período turbulento para a empresa depois que seu tão aguardado modelo de raciocínio R2 foi paralisado indefinidamente em meados de 2025.
Embora os relatórios iniciais tenham variado, foi posteriormente confirmado que o problema principal era uma falha técnica persistente durante a fase de treinamento.
A DeepSeek não conseguiu concluir uma execução de treinamento bem-sucedida para o modelo R2 usando os chips domésticos Ascend da Huawei. Esse fracasso representou um grande revés para as ambições da China de alcançar a soberania tecnológica, destacando a imensa dificuldade de construir uma pilha de software competitiva em hardware doméstico emergente.
A empresa foi forçada a voltar aos comprovados chips Nvidia, um movimento complicado pela volátil guerra tecnológica EUA-China.
Aumentando a pressão, a crise de hardware colocou a DeepSeek numa situação difícil. posição competitiva, criando uma abertura para rivais nacionais como Z.ai e Alibaba ganharem terreno.
Também enfrenta um intenso escrutínio geopolítico. Um relatório contundente do Comitê da Câmara dos EUA de abril classificou a empresa como uma ameaça à segurança, com o presidente John Moolenaar afirmando: “O DeepSeek não é apenas mais um aplicativo de IA – é uma arma no arsenal do Partido Comunista Chinês, projetada para espionar os americanos, roubar nossa tecnologia e subverter a lei dos EUA”. Sendo o DeepSeek-OCR uma ferramenta poderosa e de código aberto, a empresa parece estar executando uma estratégia multifacetada para recuperar o impulso.
Tal movimento envolve diretamente a comunidade global de desenvolvedores, promovendo a adoção e a inovação em torno de sua nova arquitetura. Ele também serve como uma demonstração prática de suas capacidades de pesquisa contínuas, mesmo que seu modelo principal permaneça no limbo.
Seu lançamento segue outro movimento agressivo em setembro, quando a DeepSeek reduziu os preços de suas APIs em mais de 50% para competir na feroz guerra de preços de IA da China.
Embora concorrentes ocidentais como a Mistral AI também tenham entrado no espaço de OCR com APIs comerciais poderosas, o foco da DeepSeek em soluções extremas a compactação e um modelo de código aberto oferecem uma proposta de valor distinta.
Ele fornece uma alternativa econômica para desenvolvedores e pesquisadores que precisam processar documentos em escala.
Para uma empresa que navega pelas duras realidades da guerra global de chips, o código aberto de uma tecnologia focada na eficiência é uma medida astuta.
Isso permite que a DeepSeek recupere sua vantagem competitiva em custo e inovação, sinalizando que seu pipeline de desenvolvimento esteja ativo e se adaptando ao cenário geopolítico desafiador.