CONE AI: lle on tuonut AYA-visiota, avoimen multimodaalisen tekoälyn mallin, joka on suunniteltu käsittelemään sekä tekstiä että kuvia tukemaan useita kieliä.
Toisin kuin Openain GPT-4O: n ja Googlen Gemini-kaltaiset AI-järjestelmät, Aya Vision on avoin paino, joka mahdollistaa kehittäjien ja tutkijoiden täydellisen räätälöinnin ilman rajoittavia lisensointisopimuksia. Cohere vapauttaa aya-vision sekä 8 ja 32 miljardia avoimen weights-malleja, jotka ovat saatavilla kaggle ja kasvojen halaaminen . Tämä kohdistuu AI-läpinäkyvyyden kasvavaan pyrkimyksen kanssa, kuten Alibaban, meta-ja mistral-julkaisun kilpailevat multimodaaliset AI-mallit, joilla on vaihtelevat avoimuuden lähestymistavat. src=”data: kuva/svg+xml; nitro-namty-id=mtcwmzoxmjm4-1; base64, phn2zyb2awv3qm94psiwidagmtayncaznd AIIHDPZHROPSIXMDI0IIBOZWLNAHQ9IJM0MCIGEG1SBNM9IMH0DHA6LY93D3CUDZMUB3JNLZIWMDAVC3ZNIJ48L3N2ZZ4=”>
Cohere on laatinut AYA-vision vapautumisen panoksena tutkimusvetoiseen AI: hen. “Aya Vision on rakennettu edistämään monikielistä ja multimodaalista AI-tutkimusta, joka tarjoaa kehittäjille ja tutkijoille avoimen pääsyn malliin, joka laajentaa kuinka AI ymmärtää kuvia ja tekstiä eri kielillä.”
Vaikka mallia ei ole sijoitettu suoraan GPT-4O: n tai Geminin suoran kilpailijan kanssa, sen avoimien rakenteiden varmistamisen ulkopuolella, joka voi varmistaa tällä hetkellä, että se voi olla edullinen, mikä on edistänyt sitä, että se voi olla edistynyt erityiskäyttötapauksien tapauksia, joita se voi varmistaa, että se voi olla sopeutettua sellaista Salli.
Open-paino-AI-mallit mahdollistavat suuremman joustavuuden, etenkin muun muassa esteettömyyden työkalut, globaalit kielimallit ja riippumattomat AI-tutkimukset, joilla omistusoikeuden mallit asettavat usein rajoituksia.
multimodaalisen AI: n edistävää Ay-näyttöä. Multimodaalinen.
Tämä asettaa mallin resurssiksi laitoksille ja kehittäjille, jotka työskentelevät AI-ohjaamassa koulutus-, media-ja sisältöanalyysissä.
Vertausarvon tulokset: Kuinka AYA-visio suorittaa kilpailijoita
Arvioidakseen sen ominaisuuksia, Aya Vision 8B on testattu joukko monimuotoisia AI-mallia. Tulokset tulevat kahdesta suuresta arviointisarjasta: ayavisionbench ja m-wildvision , jotka mittaavat mallien kykyä käsitellä visio-kielisiä tehtäviä. Näön kielen päättelyssä pitäen omaa avointa painoa vastaan, kuten Llaama 3.2 ja Qwen2.5. src=”data: kuva/svg+xml; nitro-namty-id=mtcxmtoxntiy-1; base64, phn2zyb2awv3qm94psiwidagmtaynca3njgiiih dpzhropsixmdi0iiibozwlnahq9ijc2ocigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”> Lähde: Cohere
Muut kilpailijat
aya-visio on tulossa nopeasti kasvaviin multimodaalisiin AI-markkinoihin, jos sekä avoimen ja omistajan AI-kehittäjät kilpailevat hallitsevuudesta. Useat mallit erottuvat nykyisessä maisemassa:
Alibaban Qwen2.5 tukee pitkän kontekstin multimodaalista AI: tä jopa miljoonalla rahakkeella edistyneelle asiakirjan ja videoiden käsittelyyn. Mistral’s Pixtral 12B tarjoaa avoimen lähdekoodin vaihtoehdon multimodaaliselle AI: lle, joka kilpailee Aya-vision kanssa läpinäkyvyydestä ja saavutettavuudesta. Mistral’s Pixtral Suuri rakentuu tähän OCR: llä ja dokumenttianalyysityökaluilla, joiden tavoitteena on kilpailla huippuluokan omistusoikeuden AI: n kanssa. Meta-LAMA 3.2 Keskittyy näkökanta-kielen AI optimoimiseen levitys-ja reunanlaskentasovelluksiin.
Marraskuussa 2024 kiinalaiset tutkijat ottivat käyttöön Llava-O1: n, visio-kielen AI-mallin, joka on suunniteltu parantamaan jäsennellyt päättelyt.
Toisin kuin perinteiset AI-mallit, jotka tuottavat vastauksia yhdessä passissa, Llava-O1 käyttää monivaiheista lähestymistapaa, jakavat tehtävät kuvatekstiin, analyysiin ja johtopäätösfaaseihin loogisen tarkkuuden parantamiseksi. Vertailuarvojen vertailu osoitti, että Llava-O1 ylitti Openain GPT-4O-mini ja Googlen Kaksoset visio-kielisissä tehtävissä.
Tämän jälkeen Deepseek AI esitteli Deepseek VL2: n joulukuussa 2024, mikä vahvistaa edelleen liikettä avoimen AI-kehityksen suhteen. Malli esitteli dynaamisen laatoituksen, tekniikan, jonka avulla AI voi käsitellä korkearesoluutioisia kuvia jakamalla ne pienempiin adaptiivisiin osiin.
Tämä mahdollistaa tehokkaamman analyysin monimutkaisista visuaalisista tuloista, kuten asiakirjoista, kaavioista ja esineiden tunnistustehtävistä. Cohere ei kuitenkaan ole vielä julkaissut vertailevia vertailutuloksia, jättäen avaamaan kysymyksen siitä, kuinka Aya Vision toimii suhteessa olemassa oleviin avoimiin malleihin, kuten Llava-O1 ja DeepSek VL2.
AYA-vision julkaiseminen edistää laajempaa AI-malleja, jotka on suunniteltu tutkimuksen joustavuudella mielessä. AI: n tutkimuslaitokset ovat viime vuosina kohdanneet kasvavia haasteita, koska huippuluokan malleja ei ole saatavana. Vaikka Openain ja Googlen kaltaiset yritykset julkaisevat teknisiä asiakirjoja, jotka kuvaavat heidän edistymistään, tutkijoilla ei usein ole kykyä testata ja tarkentaa näitä järjestelmiä itsenäisesti pääsyrajoitusten vuoksi.
avoimen painon mallit, kuten Aya Vision, Llava-O1, ja Deepseek VL2, tarjoavat vaihtoehdon instituutioille, jotka työskentelevät projekteissa, jotka vaativat AI-sopeutumista. Esimerkiksi alueilla, joilla englanti ei ole hallitseva kieli, avoimien AI-mallien tarjoaminen tarjoaa mahdollisuuksia kouluttaa ja tarkentaa AI-järjestelmiä alueellisten murteiden ja kielten ymmärtämiseksi paremmin. Samoin lääketieteelliset tutkijat voivat mukauttaa AI-malleja avuksi tehtävissä, kuten lääketieteellisen kuvan analyysissä, kliinisen dokumentoinnin automatisoinnissa ja AI-avusteisissa diagnostiikassa.
omistettu AI-mallit ylläpitävät markkinoiden määräämistä Sovellukset.
Openain GPT-4O ja Googlen Kaksoset edustavat johtavia multimodaalisia AI-malleja, mutta pääsy niiden ominaisuuksiin on edelleen rajoitettua. Päinvastoin kuin avoimet järjestelmät, nämä mallit on optimoitu kaupalliseen käyttöön, tarjoamalla usein korkeammat suorituskykytasot säilyttäen samalla rajoitetun pääsyn.
multimodaalinen AI laajenee myös tekstin ja kuvien ulkopuolelle toimintapohjaisiin AI-sovelluksiin. Helmikuussa 2025 Microsoft esitteli Magma AI: n, mallin, joka on suunniteltu käsittelemään yrityksen automaatiota ja robotiikkaa. Toisin kuin perinteiset AI-mallit, jotka keskittyvät tekstimuotoiseen tai visuaaliseen sisääntuloon, magma AI integroi vision, kielen ja toimintapohjaisen käsittelyn, jolloin se voi analysoida digitaalisia rajapintoja, hallita robottisia liikkeitä ja olla vuorovaikutuksessa jäsenneltyjen ympäristöjen kanssa. Helix AI erottaa itsensä toimimalla pilvipohjaisesta käsittelystä riippumatta, vähentämällä viivettä ja parantamalla fyysisten automaatiotehtävien vasteaikoja.
avoin vs. omistusoikeuden AI: Kasvava teollisuusjako
AYA-vision käyttöönotto korostaa jatkuvaa muutosta tekoälyn tutkimuksessa. Keskustelu avoimen lähdekoodin AI: sta verrattuna omaan AI: stä on lisääntynyt yrityksillä, kuten Openai, Google ja Microsoft, työntävät suljetut pääsymallit, kun taas toiset, mukaan lukien Cohere ja Deepekek AI, kannattavuus avoimuudesta ja tutkimuksen saatavuudesta. Esimerkiksi Openai on väittänyt, että GPT-4O: n pääsyn rajoittaminen on välttämätöntä AI-väärinkäytökseen ja väärinkäytöksiin liittyviin väärinkäytöksiin liittyviin riskien hallintaan.
Microsoft ja Google ovat ottaneet käyttöön samanlaisia lähestymistapoja, rajoittaen pääsyä AI-malleihinsa API-pohjaisten järjestelmien kautta, jotka vaativat lisensointisopimuksia. Harvat yritykset. Tekemällä malleja, kuten AYA-visio, tutkimusyhteisön saataville, Cohere on asettamassa AI-kehityksen lisääntyvää yksityistämistä. AI? Monet yritykset priorisoivat suorituskyvyn, vakauden ja yritysluokan tuen, joita tyypillisesti suljetun lähdekoodin tarjoajat tarjoavat.
Organisaatiot ja kehittäjät, jotka vaativat enemmän hallintaa AI-räätälöinnissä Selvitä, voivatko avoimet AI-mallit vakiinnuttaa itsensä elinkelpoisiksi vaihtoehdoiksi yrityskontrolloiduille järjestelmille.
Openain GPT-4O ja Googlen Kaksoset edustavat johtavia multimodaalisia AI-malleja, mutta pääsy niiden ominaisuuksiin on edelleen rajoitettua. Päinvastoin kuin avoimet järjestelmät, nämä mallit on optimoitu kaupalliseen käyttöön, tarjoamalla usein korkeammat suorituskykytasot säilyttäen samalla rajoitetun pääsyn.
multimodaalinen AI laajenee myös tekstin ja kuvien ulkopuolelle toimintapohjaisiin AI-sovelluksiin. Helmikuussa 2025 Microsoft esitteli Magma AI: n, mallin, joka on suunniteltu käsittelemään yrityksen automaatiota ja robotiikkaa. Toisin kuin perinteiset AI-mallit, jotka keskittyvät tekstimuotoiseen tai visuaaliseen sisääntuloon, magma AI integroi vision, kielen ja toimintapohjaisen käsittelyn, jolloin se voi analysoida digitaalisia rajapintoja, hallita robottisia liikkeitä ja olla vuorovaikutuksessa jäsenneltyjen ympäristöjen kanssa. Helix AI erottaa itsensä toimimalla pilvipohjaisesta käsittelystä riippumatta, vähentämällä viivettä ja parantamalla fyysisten automaatiotehtävien vasteaikoja.
avoin vs. omistusoikeuden AI: Kasvava teollisuusjako
AYA-vision käyttöönotto korostaa jatkuvaa muutosta tekoälyn tutkimuksessa. Keskustelu avoimen lähdekoodin AI: sta verrattuna omaan AI: stä on lisääntynyt yrityksillä, kuten Openai, Google ja Microsoft, työntävät suljetut pääsymallit, kun taas toiset, mukaan lukien Cohere ja Deepekek AI, kannattavuus avoimuudesta ja tutkimuksen saatavuudesta. Esimerkiksi Openai on väittänyt, että GPT-4O: n pääsyn rajoittaminen on välttämätöntä AI-väärinkäytökseen ja väärinkäytöksiin liittyviin väärinkäytöksiin liittyviin riskien hallintaan.
Microsoft ja Google ovat ottaneet käyttöön samanlaisia lähestymistapoja, rajoittaen pääsyä AI-malleihinsa API-pohjaisten järjestelmien kautta, jotka vaativat lisensointisopimuksia. Harvat yritykset. Tekemällä malleja, kuten AYA-visio, tutkimusyhteisön saataville, Cohere on asettamassa AI-kehityksen lisääntyvää yksityistämistä. AI? Monet yritykset priorisoivat suorituskyvyn, vakauden ja yritysluokan tuen, joita tyypillisesti suljetun lähdekoodin tarjoajat tarjoavat.
Organisaatiot ja kehittäjät, jotka vaativat enemmän hallintaa AI-räätälöinnissä Selvitä, voivatko avoimet AI-mallit vakiinnuttaa itsensä elinkelpoisiksi vaihtoehdoiksi yrityskontrolloiduille järjestelmille.