Mistral AI uruchomił API OCR, narzędzie zaprojektowane do konwersji złożonych dokumentów PDF na strukturę, usprawniając integrację z przepływami pracy AI.
Wydanie zwiększa automatyzację programistów i firm zajmujących się procesami wyceniania dokumentów, oferując strukturę wydajną, która eliminuje zapotrzebowanie na ręczne formatowanie.
wykonywanie procesów Google i otwartej wersji i otwartej produkcji i otwartej wydajności. OCR
Według testów porównawczych udostępnionych przez Mistral IT Model OCR wykazał najwyższą ogólną dokładność wśród wiodących modeli OCR w testach porównawczych, przewyższając konkurentów, takich jak dokument Google AI, Azure OCR, Gemini-1.5-Flash-002, i OpenAI GPT-4O w wielu kategoriach wydajności. src=”https://winbuzzer.com/wp-content/uploads/2024/07/mistral-ai-home-own.jpg”>
Prowadzi to w rozpoznawaniu matematyki z dokładnością 94,29, przewyższając Gemini-1.5-flash-002, który następuje na 89,11. W wsparciu wielojęzycznym Mistral OCR 2503 wyniki 89,55, ranking powyżej Azure OCR na 87,52 i GPT-4O przy 86,00.
Model dominuje również w skanowanej dokładności dokumentów, osiągając 98,96, na czele Gemini-1.5-Pro-002 w 96.15 i Gemini-2,0-001 w 95.11. Jeśli chodzi o ekstrakcję tabeli, Mistral OCR osiąga 96,12, znacznie przekraczając GPT-4O przy 91,70 i Gemini-2,0-Flash-001 przy 91,46. Z ogólną dokładnością 94,89, prowadzi wszystkie inne modele, przewyższając jego najbliższego konkurentów, Gemini-1.5-Flash-002, który uzyskał 90.23.
Te wyniki wskazują, że błąd OCR 2503 jest najbardziej zaawansowanym rozwiązaniem w swojej kategorii, doskonałości w przekazywaniu kompleksowych struktur dokumentów, treści matematycznej, wieloskładnikowej i strukturalnej wersji. Ustawia nowy standard dla wydajności OCR z napędem AI, oferując wyższą dokładność i bardziej niezawodną konwersję tekstu w porównaniu z innymi modelami w terenie.
Acoording do firmy, „będąc mniejszą wagą niż większość modeli w kategorii, Mistral OCR działa znacznie szybciej niż jej rówieśnicy, przetwarzając do 2000 stron na minutę na jednej klamrze. Zdolność do szybkiego przetwarzania dokumentów zapewnia ciągłe uczenie się i ulepszanie nawet w środowiskach o wysokiej przepustowości. „
Poza tradycyjnymi OCR: AI-gotowe Markdown
Niezależnie od standardowych narzędzi OCR, które wyodrębniają nieoformowany tekst, API Mistrala bezpośrednio struktury struktury marki. href=”https://mistral.ai/fr/news/mistral-ocr”> Ogłoszenie Podkreśla, że API dokładnie interpretuje tabele, formuły i złożone elementy dokumentów, co nadaje się do automatyzacji AI-Periven. Ewolucja platformy LE CHAT, która otrzymała poważne aktualizacje w listopadzie 2024 r. Obejmowały one integrację wyszukiwania w czasie rzeczywistym i edytowanie dokumentów współpracy za pośrednictwem Canvas, pozycjonując ją jako konkurenta w pakiecie produktywności napędzanych przez AI.
Asystent zintegrowany Flux Pro, model generowania obrazu z Black Forest Labs, wzmacniając swoje kreatywne możliwości. Droga do zaawansowanego przetwarzania dokumentów
Wpychanie Mistral do dokumentu AI utwardzono przez jego prace nad Pixtral 12B, modelem multimodalnym wydanym we wrześniu 2024 r. Po tym, jak w listopadzie, wspierał parsowanie o dużej skali, które wspierało parsowanie o dużej skali. Modele te ustanowiły podstawę strukturalnej interpretacji danych, obecnie wykorzystanych w nowym interfejsie API OCR.
Przed osiągnięciem możliwości OCR, Mistral już przeniósł ostrość na mniejsze, bardziej wydajne modele do lokalnej przetwarzania AI. W październiku 2024 r. Wprowadził Ministral 3B i Ministral 8B, zoptymalizowane pod kątem świadomości prywatności, offline AI. Modele te zyskały przyczepność w branżach wymagających wnioskowania na urządzenie, takie jak instytucje finansowe i świadczeniodawcy opieki zdrowotnej obsługujące wrażliwe dane.
Rozszerzając ten skupienie, Mistral uruchomił Mistral Small 3 w styczniu, LLM open source zaprojektowany w celu rywalizacji z Mini GPT-4O Openai. Firma poinformowała, że osiągnęła „ponad 81% w odniesieniu MMLU”, „wykazując silną dokładność z niższymi wymaganiami obliczeniowymi. W przeciwieństwie do większych modeli zależnych od chmury, małe 3 może działać wydajnie na sprzęcie konsumowym, wzmacniając nacisk Mistrala na temat dostępnych rozwiązań AI.