COHERE for AI wprowadził AYA Vision, multimodalny model sztucznej inteligencji, zaprojektowany do przetwarzania zarówno tekstu, jak i obrazów podczas obsługi wielu języków.

W przeciwieństwie do zastrzeżonych systemów AI, takich jak GPT-4O Openai i Google’s Gemini, Aya Vision to modelka otwartego, umożliwiająca pełne dostosowanie przez deweloperów i badaczy bez ograniczających umów licencyjnych. COHERE wypuszcza wizję Aya jako zarówno 8 i 32 Modele o wartości otwartych dostępnych na kaggle i przytulanie twarzy .

Dewelopusterzy i badacze mogą dobrze jeździć i adaptować wizję bez rekompensaty. Jest to zgodne z rosnącym naciskiem na przejrzystość sztucznej inteligencji, ponieważ firmy takie jak Alibaba, Meta i Mistral Release konkurujące multimodalne modele AI o różnych podejściach do otwartości.

COHERE sformułował wydanie AYA Vision jako wkład w sztuczną inteligencję opartą na badaniach. „Aya Vision jest zbudowana w celu rozwoju wielojęzycznych i multimodalnych badań AI, oferując programistom i badaczom otwarty dostęp do modelu, który rozszerza sposób, w jaki AI rozumie obrazy i tekst w różnych językach.”

, podczas gdy model nie jest ustawiany jako bezpośrednie konkurenta do gpt-4o lub Gemini w zakresie surowej mocy przetwarzania, a jego struktura otwartej, którą można dostosować do różnych specjalnych modeli użytkowania poza tym, co nie jest wypowiedziane modele. Zezwalaj.

Modele AI z otwartą wagę pozwalają na większą elastyczność, szczególnie w obszarach takich jak narzędzia dostępności, globalne modele językowe i niezależne badania AI, w których zastrzeżone modele często nakładają ograniczenia.

Postępowanie multimodalne AI z naciskiem na dostępność

Jedną z kluczowych stron wizji AYA jest jego zdolność do przetwarzania i interpretacji zdjęć i zdjęć. Model. Zestawy danych.

To pozycjonuje model jako zasób dla instytucji i programistów pracujących nad edukacją, mediami i treścią opartą na AI.

Wyniki porównawcze: Jak Aya Vision działa przeciwko modelom konkurentów

Aby ocenić jego możliwości, aya Vision 8b zostało przetestowane w stosunku do modeli AI AI, obie i opery. Wyniki pochodzą z dwóch głównych zestawów oceny: AyavisionBench i m-ildvision , które mierzą zdolność modeli do obsługi zadań wizji. w rozumowaniu w języku wizji, utrzymując własne z modelem otwartych, takich jak LAMA 3.2 i QWEN2.5.

Źródło: Cohere

Inni konkurenci

Aya Vision wchodzi na szybko rozwijający się multimodalny rynek AI, na którym zarówno deweloperzy z otwartą, jak i zastrzeżonych AI konkurują o dominację. Kilka modeli wyróżnia się w obecnym krajobrazie:

QWEN2.5 Alibaba obsługuje długim kontekście multimodal AI z nawet 1 milion tokenów do zaawansowanego przetwarzania dokumentów i wideo. Pixtral 12B Mistral oferuje open source alternatywę dla multimodalnej sztucznej inteligencji, konkurując z AYA Vision pod względem przejrzystości i dostępności. Pixtral na ten temat z OCR i narzędziami do analizy dokumentów, mających na celu konkurowanie z wysokiej klasy własną sztuczną inteligencją. lama 3.2 meta

W listopadzie 2024 r. Chińscy badacze wprowadzili LLAVA-O1, model AI w języku wizji zaprojektowany w celu zwiększenia ustrukturyzowanego rozumowania.

Niezależnie od tradycyjnych modeli AI, które generują odpowiedzi w jednym przejściu, Llava-O1 stosuje podejście wieloetapowe, zrywające zadania w fazie kapitału, analizy i wniosków, aby poprawić logiczne dążenie. Porównania porównawcze wykazały, że LLAVA-O1 przewyższyło GPT-4O Mini GPT-4O Openai i Google’s Gemini w zadaniach w języku wizji.

Po tym Deepseek AI wprowadził Deepseek VL2 w grudniu 2024 r., Co dodatkowo wzmacniają ruch w kierunku otwartego rozwoju AI. Model wprowadził dynamiczne kafelki, technikę, która umożliwia AI przetwarzanie obrazów o wysokiej rozdzielczości poprzez przełamanie ich na mniejsze sekcje adaptacyjne.

Pozwala to na bardziej wydajną analizę złożonych wizualnych danych wejściowych, takich jak dokumenty, wykresy i rozpoznawanie obiektów. Przejrzystość. Jednak Cohere nie opublikowało jeszcze porównawczych wyników porównawczych, pozostawiając otwarte pytanie, w jaki sposób AYA Vision działa w stosunku do istniejących otwartych modeli, takich jak LLAVA-O1 i Deepseek VL2.

Wydanie AYA Vision przyczynia się do szerszego trendu modeli AI zaprojektowanych z myślą o elastyczności badań. Instytucje badawcze AI stanęły przed rosnącymi wyzwaniami w ostatnich latach z powodu braku dostępu do najnowocześniejszych modeli. Podczas gdy firmy takie jak OpenAI i Google publikują dokumenty techniczne opisujące ich postęp, naukowcy często nie mają możliwości testowania i udoskonalania tych systemów niezależnie z powodu ograniczeń dostępu.

Modele otwarte, takie jak AYA Vision, Llava-O1 i Deepseek VL2, stanowią alternatywną dla instytucji pracujących nad projektami, które wymagają dostosowania AI. Na przykład w regionach, w których angielski nie jest dominującym językiem, modele AI na otwartym masie oferują możliwości szkolenia i udoskonalania systemów AI w celu lepszego zrozumienia regionalnych dialektów i języków. Podobnie, badacze medyczni mogą dostosowywać modele AI do pomocy w zadaniach takich jak analiza obrazu medycznego, automatyzacja dokumentacji klinicznej i diagnostyka wspomagana przez AI.

Zastrzeżone modele AI utrzymują dominację rynku

, podczas gdy modele AI z otwartym we-figurze, takie jak widzenie AYA, które zapewniają alternatywne modele AI, proporcjonalne modele, aby dominować w stosunku i konsumpcji AI i konsumpcji. Aplikacje.

GPT-4O Openai i Google’s Gemini reprezentują wiodące multimodalne modele AI, ale dostęp do ich możliwości pozostaje ograniczony. W przeciwieństwie do systemów otwartych modele te są zoptymalizowane do użytku komercyjnego, często zapewniając wyższe poziomy wydajności przy jednoczesnym utrzymaniu ograniczonego dostępu.

Multimodal AI rozszerza się również poza tekstem i obrazami w aplikacje AI oparte na akcji. W lutym 2025 r. Microsoft wprowadził Magma AI, model zaprojektowany do obsługi automatyzacji i robotyki przedsiębiorstwa. W przeciwieństwie do tradycyjnych modeli AI koncentrujących się na wkładach tekstowych lub wizualnych, Magma AI integruje wizję, język i przetwarzanie oparte na akcji, umożliwiając analizę interfejsów cyfrowych, kontrolowanie ruchów robotycznych i interakcja z ustrukturyzowanymi środowiskami.

Jednocześnie figura z obiektami AI ujawniona helx AI, wizja (VLA) włączają humaningi, a interakcje z obiektami realistycznymi. Helix AI wyróżnia się poprzez niezależnie funkcjonowanie od przetwarzania opartego na chmurze, zmniejszając opóźnienie i poprawę czasów reakcji dla zadań automatyzacji fizycznej.

Chociaż Aya Vision nie jest ukierunkowana na robotykę lub automatyzację, jego struktura otwartej wbudowanej z modelem właściwymi, takimi jak Magma AI i Helix AI, wzmacniają podział między AI zaprojektowaną dla niezależnych badania wdrożenie.

otwarte vs. własne AI: rozwijający się podział branży

Wprowadzenie wizji Aya podkreśla ciągłą zmianę w badaniach sztucznej inteligencji. Debata na temat AI open source w porównaniu z zastrzeżoną AI zintensyfikowała się jako firmy takie jak Openai, Google i Microsoft na modele o zamkniętym dostępie, podczas gdy inni, w tym koera i głębokie AI, opowiadają się za przejrzystością i dostępnością badawczą.

Zwolennicy właścicieli właścicieli argumentującej, że zachowują modele zamykane w zakresie kontroli jakości. Na przykład Openai utrzymywał, że ograniczenie dostępu do GPT-4O jest niezbędne do zarządzania ryzykiem związanym z niewłaściwym użyciem i dezinformacją AI.

Microsoft i Google przyjęły podobne podejścia, ograniczając dostęp do ich modeli AI za pośrednictwem systemów opartych na interfejsach API, które wymagają umowy licencyjnej.

po drugiej stronie debaty, organizując organizacje opracowując modele Open-Weight, które nie powinny być programy AI, które nie powinny być kontrolowane przez AI. kilka korporacji. Udostępniając modele takie jak wizja AYA dla społeczności badawczej, Cohere pozycjonuje się w opozycji do rosnącej prywatyzacji rozwoju AI.

Modele otwarte zezwalają naukowcom i deweloperom na udoskonalenie i modyfikowanie systemów AI do wyspecjalizowanych zastosowań, szczególnie w środowiskach niekomercyjnych, takich jak edukacja, badania medyczne i rozwiązania AI. AI?

Rosnąca dostępność modeli AI w otwartym masie sugeruje, że badacze i programiści mogą odgrywać większą rolę w kształtowaniu przyszłości sztucznej inteligencji, a nie poleganie na systemach kontrolowanych korporacyjnymi.

Pomimo wzrostu otwartego AI, właściwościowe modele zastrzeżone nadal utrzymują najwyższą pozycję w przedsiębiorstwie. Wiele firm priorytetowo traktuje wydajność, stabilność i wsparcie klasy korporacyjnej, które są zazwyczaj oferowane przez dostawców AI zamkniętych źródeł AI.

Jednak organizacje i programiści, którzy wymagają większej kontroli nad dostosowywaniem AI, prawdopodobnie zbadają alternatywy otwarte, szczególnie w przypadkach, w których modele właścicieli nakładają wysokie koszty lub ograniczające warunki. Wpływ określi, czy otwarte modele AI mogą uznać się za realne alternatywy dla systemów kontrolowanych przez korporację.