中国の AI 企業 DeepSeek は月曜日、大量のドキュメントの処理という AI の主要なボトルネックを解決するために設計された新しいオープンソース システムをリリースしました。

杭州を拠点とする同社のチームは、画像や PDF のテキストを高度に圧縮された形式に変換する新しい「光学圧縮」技術を使用するツール、DeepSeek-OCR を開発しました。

この方法により、言語モデルは大幅に少ないコンピューティングで長いファイルを分析できます。 報告によると、データ量は 10 分の 1 に削減されますが、97% の精度が維持されます。

このモデルのリリースは、DeepSeek にとって効率化への戦略的転換を示すものであり、その主力モデルである R2 モデルは、米中技術戦争に関連したハードウェア問題のさなか、今年初めに無期限に延期されました。

開発者プラットフォームで一般公開されています Hugging 顔、新しいモデルとそのコードは、オープンソース コミュニティへの強い取り組みを示しています。

最初の反応は特に好意的で、業界関係者は、このテクノロジーの影響が標準的な文書処理をはるかに超えていることを示唆しています。

「光学圧縮」による長い文書の問題の解決

DeepSeek-OCR の核心では、同社が「光学圧縮」と呼ぶ技術を導入しています。

デジタル テキスト トークンをトークンごとに処理する代わりに、システムはドキュメントの画像を分析し、そのコンテンツを非常に効率的な「ビジョン トークン」のセットに変換します。

このような方法により、言語モデルが処理する必要があるデータが大幅に削減されます。これは、研究論文、財務報告書、法律契約などの長い形式のコンテンツを扱う AI アプリケーションにとって重大な課題です。

によると、公式技術文書を参照すると、このシステムは非常に効果的です。 「実験の結果、テキスト トークンの数がビジョン トークンの 10 倍以内の場合、モデルは 97% のデコード (OCR) 精度を達成できることがわかりました。」

その効率は、洗練されたアーキテクチャによって達成されます。強力な「DeepEncoder」は、まずローカル分析用に Meta の セグメント エニシング モデル (SAM) のコンポーネントを使用し、グローバル コンテキスト用に OpenAI の CLIP のコンポーネントを使用して高解像度画像を処理します。

A 16x コンプレッサーは、デコードのために専用の DeepSeek-3B-MoE 言語モデルにデータを供給する前に、トークン数を大幅に削減します。

このアプローチによるパフォーマンスの向上は大幅です。ベンチマーク テストでは、DeepSeek-OCR は、GOT-OCR2.0 のビジョン トークンが 256 個であるのに対し、わずか 100 個のビジョン トークンを使用して、GOT-OCR2.0 などの競合他社を上回っています。また、7,000 個近くのトークンを必要とする MinerU 2.0 を、800 個未満のトークンを使用して上回っています。

実際のアプリケーションの場合、スループットは驚くべきものです。DeepSeek は、単一の Nvidia A100 GPU で処理できると主張しています。 200,000 ページ以上

ハードウェア問題による R2 モデルの停滞後の戦略的転換

効率性とオープンソースのアクセシビリティに重点を置くことは、DeepSeek にとって重要な戦略的転換を示しています。このリリースは、期待されていた R2 推論モデルが 2025 年半ばに無期限に停止されて以来、同社にとって激動の時期を経たものです。

当初の報告はさまざまでしたが、後に核心的な問題はトレーニング段階での持続的な技術的障害であることが確認されました。

DeepSeek は、ファーウェイの国産 Ascend チップを使用した R2 モデルのトレーニング実行を成功裏に完了することができませんでした。この失敗は、技術主権を達成するという中国の野望にとって大きな挫折を意味し、国内の新興ハードウェア上で競争力のあるソフトウェアスタックを構築することの計り知れない困難を浮き彫りにした。

同社は実績のある Nvidia チップへの回帰を余儀なくされたが、その動きは不安定な米中技術戦争によって複雑化した。

プレッシャーに加え、ハードウェア危機により DeepSeek は厳しい競争にさらされている。

また、地政学的な厳しい監視にも直面しています。 4月の米国下院委員会の痛烈な報告書は同社に安全保障上の脅威のレッテルを貼り、ジョン・ムーレナー委員長は「ディープシークは単なるAIアプリではない。米国人をスパイし、我が国の技術を盗み、米国の法律を破壊するために設計された中国共産党の武器だ」と述べた。

競争で前進する道をオープンソース化するマーケット

リリースすることで DeepSeek-OCR は強力なオープンソース ツールであり、同社は勢いを取り戻すために多角的な戦略を実行しているようです。

このような動きは世界の開発者コミュニティに直接関与し、新しいアーキテクチャの採用とイノベーションを促進します。これは、同社の主力モデルがまだ行き詰まったままであるにもかかわらず、進行中の研究能力を実際に実証するものでもあります。

このリリースは、中国の熾烈な AI 価格競争に対抗するために DeepSeek が API 価格を 50% 以上値下げした 9 月のさらなる積極的な動きに続いてのリリースです。

Mistral AI のような欧米の競合他社も強力な商用 API で OCR 分野に参入していますが、DeepSeek は極度の圧縮と オープンソース モデルは、明確な価値提案を提供します。

ドキュメントを大規模に処理する必要がある開発者や研究者にとって、コスト効率の高い代替手段を提供します。

世界的なチップ戦争の厳しい現実を乗り越える企業にとって、効率重視のテクノロジーをオープンソース化することは賢明な行動です。

これにより、DeepSeek はコストとイノベーションにおける競争力を取り戻すことができ、開発の重要性を示しています。 パイプラインはアクティブであり、困難な地政学的な状況に適応しています。

Categories: IT Info