Cohere for AI har introdusert Aya Vision, en åpen multimodal kunstig intelligensmodell designet for å behandle både tekst og bilder mens du støtter flere språk.
I motsetning til proprietære AI-systemer som Openais GPT-4O og Googles Gemini, er AYA Vision en åpen vektmodell, noe som tillater full tilpasning av utviklere og forskere uten begrensende lisensavtaler. Cohere slipper Aya Vision som både 8 og 32 milliarder open-weights-modeller tilgjengelig på kaggle og Hugging . Dette stemmer overens med et voksende press for AI-gjennomsiktighet, som selskaper som Alibaba, Meta og Mistral Release konkurrerende multimodale AI-modeller med varierende tilnærminger til åpenhet.
Cohere har innrammet utgivelsen av Aya Vision som et bidrag til forskningsdrevet AI.”AYA Vision er bygget for å fremme flerspråklig og multimodal AI-forskning, og tilbyr utviklere og forskere åpen tilgang til en modell som utvider hvordan AI forstår bilder og tekst på forskjellige språk.”
Mens modellen ikke er plassert som en direkte konkurrent til GPT-4O eller Gemini i termer for rå prosessering, er det en åpen konkurrent til å ene cape caps capecy cape for å adapt for å være en annen tillate. Samtidig er det å gjøre det multimodalt. Diverse språklige datasett.
Dette posisjonerer modellen som en ressurs for institusjoner og utviklere som jobber med AI-drevet utdanning, media og innholdsanalyse.
Benchmark-resultater: Hvordan AYA-synet oppfører seg mot konkurrenter
for å vurdere dets evner som er en rekkevidde mot en rekkevidde mot en rekkevidde, har Aya Visions mot konkurrenter med å vurdere en rekkevidde mot en rekkevidde mot en rekkevidde mot en rekkevidde mot en rekkevidde mot en rekkevidde mot konkurrenter, proprietær. Resultatene kommer fra to store evalueringssett: ayavisionbench og m-wildvision , som måler modellenes evne til å håndtere visjonen som viser at de viser at disse resultatene viser at de viser at de viser at de viser at de viser at de viser at de viser at de er i ferd. Gemini-flash i synsspråklig resonnement mens han holder sin egen mot open-vekt-modeller som Llama 3.2 og Qwen2.5.
kilde: Cohere
Andre konkurrenter
AYA-visjon går inn i et raskt ekspanderende multimodalt AI-marked, der både åpen vekt og proprietære AI-utviklere konkurrerer om dominans. Flere modeller skiller seg ut i det nåværende landskapet:
Alibabas Qwen2.5 støtter langkontekst multimodal AI med opptil 1 million symboler for avansert dokument-og videobehandling. Mistrals PixTral 12B tilbyr et open source-alternativ for multimodal AI, og konkurrerer med AYA-synet i åpenhet og tilgjengelighet. Mistral’s PixTral store bygger på dette med OCR-og dokumentanalyseverktøy, med sikte på å konkurrere med high-end proprietær AI. metas lama 3.2 fokuserer på å optimalisere visjonsspillet AI for på-evice og kant.
I november 2024 introduserte kinesiske forskere Llava-O1, en visjonsspråk AI-modell designet for å forbedre strukturert resonnement.
I motsetning til tradisjonelle AI-modeller som genererer svar i en enkelt passering, bruker Llava-O1 en multimularisk tilnærming. Benchmark-sammenligninger viste at LLAVA-O1 overgikk Openais GPT-4O Mini og Googles Gemini i synspråklige oppgaver.
Etter dette introduserte DeepSeek AI DeepSeek VL2 i desember 2024, noe som forsterket bevegelsen mot åpen AI-utvikling. Modellen introduserte dynamisk flislegging, en teknikk som gjør at AI kan behandle bilder med høy oppløsning ved å dele dem inn i mindre adaptive seksjoner.
Dette gjør det mulig åpenhet. Imidlertid har Cohere ennå ikke gitt ut komparative benchmark-resultater, og etterlater å åpne spørsmålet om hvordan AYA-synet presterer i forhold til eksisterende åpne modeller som LLAVA-O1 og DeepSeek VL2.
Utgivelsen av AYA-visjonen bidrar til en bredere trend med AI-modeller som er designet med forskningsfleksibilitet i tankene. AI-forskningsinstitusjoner har møtt økende utfordringer de siste årene på grunn av mangelen på tilgang til nyskapende modeller. Mens selskaper som Openai og Google publiserer tekniske artikler som beskriver sine fremskritt, mangler forskere ofte evnen til å teste og avgrense disse systemene uavhengig på grunn av tilgangsbegrensninger.
Open-Weight-modeller som AYA Vision, LLAVA-O1 og Deepseek VL2 gir et alternativ for institusjoner som jobber med prosjekter som krever en tilpasning. For eksempel, i regioner der engelsk ikke er det dominerende språket, tilbyr AI-modeller med åpne vekt muligheter til å trene og avgrense AI-systemer for bedre å forstå regionale dialekter og språk. Tilsvarende kan medisinske forskere tilpasse AI-modeller for å hjelpe deg med oppgaver som medisinsk bildeanalyse, klinisk dokumentasjonsautomasjon og AI-assistert diagnostikk.
Proprietære AI-modeller opprettholder markedsdominans
Mens Open-Weight Ai Models som Aya Visjon til et alternativ til CorporS-modeller som ASP CorporSe CorporSe CorporSe CorporSy CorporSe CorporSy CorporSe AsspiCer CorporSy CorporSe AsspiCer AsspiCer AsspiTy Corpory CorporSe AsspiCer AsspiCer AssporSy CorporSy CorporSy Corpory CorporSe AsspiCer. AI-applikasjoner.
Openais GPT-4O og Googles Gemini representerer de ledende multimodale AI-modellene, men tilgangen til deres evner er fortsatt begrenset. I motsetning til åpne systemer, er disse modellene optimalisert for kommersiell bruk, og gir ofte høyere ytelsesnivåer mens de opprettholder begrenset tilgang.
Multimodal AI utvides også utover tekst og bilder til handlingsbaserte AI-applikasjoner. I februar 2025 introduserte Microsoft Magma AI, en modell designet for å håndtere bedriftsautomatisering og robotikk. I motsetning til tradisjonelle AI-modeller fokusert på tekstlige eller visuelle innspill, integrerer Magma AI syn, språk og handlingsbasert prosessering, slik at den kan analysere digitale grensesnitt, kontrollere robotbevegelser og samhandle med strukturerte miljøer. /p>
Selv om AYA-synet ikke er rettet mot robotikk eller automatisering, er dens åpne vektstruktur som er i kontrast til proprietære modeller som MAGMA AI og Helix AI, foretar det å forske på DIVINT-forforskningen for å gjøre det viktige for å Distribusjon.
Open vs. Proprietary AI: Et voksende bransjeskillet
Innføringen av AYA-synet fremhever et pågående skifte i kunstig intelligensforskning. Debatten om åpen kildekode AI versus proprietær AI har intensivert som selskaper som Openai, Google og Microsoft Push for lukkede tilgangsmodeller, mens andre, inkludert Cohere og DeepSeek AI, tar til orde for åpenhet og forsknings tilgjengelighet. /p>
Talsmenn for å gjøre proprietiske AI-argumenter. Openai har for eksempel fastholdt at å begrense tilgangen til GPT-4O er nødvendig for å håndtere risikoer relatert til AI-misbruk og feilinformasjon.
Microsoft og Google har tatt i bruk lignende tilnærminger, og begrenset tilgang til AI-modeller som ikke skal være lisensavtaler. /P>
på den andre siden av debatten.
på den andre siden av debatten.
-modeller som ikke skal være lisenser.
-modeller som ikke er en av AI-modeller som ikke er lisenser. kontrollert av noen få selskaper. Ved å gjøre modeller som AYA-visjon tilgjengelig for forskersamfunnet, posisjonerer Cohere seg selv i opposisjon til den økende privatiseringen av AI-utvikling.
Open-vekt-modeller lar forskere og utviklere avgrense og endre AI for spesialiserte applikasjoner, spesielt ikke-løsninger. AI?
Den økende tilgjengeligheten av AI-modeller med åpen vekt antyder at forskere og utviklere kan spille en større rolle i utformingen av AI-fremtiden i stedet for å stole på bedriftskontrollerte systemer.
Til tross for å øke applikasjonen. Mange virksomheter prioriterer ytelse, stabilitet og støtte for bedrifter, som vanligvis tilbys av AI-leverandører Effekten vil avgjøre om åpne AI-modeller kan etablere seg som levedyktige alternativer til bedriftskontrollerte systemer.