Cohere wprowadza Aya Vision jako model Vision z otwartą ai

COHERE for AI wprowadził AYA Vision, multimodalny model sztucznej inteligencji, zaprojektowany do przetwarzania zarówno tekstu, jak i obrazów podczas obsługi wielu języków.

W przeciwieństwie do zastrzeżonych systemów AI, takich jak GPT-4O Openai i Google’s Gemini, Aya Vision to modelka otwartego, umożliwiająca pełne dostosowanie przez deweloperów i badaczy bez ograniczających umów licencyjnych. COHERE wypuszcza wizję Aya jako zarówno 8 i 32 Modele o wartości otwartych dostępnych na kaggle i przytulanie twarzy .

Dewelopusterzy i badacze mogą dobrze jeździć i adaptować wizję bez rekompensaty. Jest to zgodne z rosnącym naciskiem na przejrzystość sztucznej inteligencji, ponieważ firmy takie jak Alibaba, Meta i Mistral Release konkurujące multimodalne modele AI o różnych podejściach do otwartości.

COHERE sformułował wydanie AYA Vision jako wkład w sztuczną inteligencję opartą na badaniach. „Aya Vision jest zbudowana w celu rozwoju wielojęzycznych i multimodalnych badań AI, oferując programistom i badaczom otwarty dostęp do modelu, który rozszerza sposób, w jaki AI rozumie obrazy i tekst w różnych językach.”

, podczas gdy model nie jest ustawiany jako bezpośrednie konkurenta do gpt-4o lub Gemini w zakresie surowej mocy przetwarzania, a jego struktura otwartej, którą można dostosować do różnych specjalnych modeli użytkowania poza tym, co nie jest wypowiedziane modele. Zezwalaj.

Modele AI z otwartą wagę pozwalają na większą elastyczność, szczególnie w obszarach takich jak narzędzia dostępności, globalne modele językowe i niezależne badania AI, w których zastrzeżone modele często nakładają ograniczenia.

Postępowanie multimodalne AI z naciskiem na dostępność

Jedną z kluczowych stron wizji AYA jest jego zdolność do przetwarzania i interpretacji zdjęć i zdjęć. Model. Zestawy danych.

To pozycjonuje model jako zasób dla instytucji i programistów pracujących nad edukacją, mediami i treścią opartą na AI.

Wyniki porównawcze: Jak Aya Vision działa przeciwko modelom konkurentów

Aby ocenić jego możliwości, aya Vision 8b zostało przetestowane w stosunku do modeli AI AI, obie i opery. Wyniki pochodzą z dwóch głównych zestawów oceny: AyavisionBench i m-ildvision , które mierzą zdolność modeli do obsługi zadań wizji. w rozumowaniu w języku wizji, utrzymując własne z modelem otwartych, takich jak LAMA 3.2 i QWEN2.5.

Źródło: Cohere

Inni konkurenci

Aya Vision wchodzi na szybko rozwijający się multimodalny rynek AI, na którym zarówno deweloperzy z otwartą, jak i zastrzeżonych AI konkurują o dominację. Kilka modeli wyróżnia się w obecnym krajobrazie:

QWEN2.5 Alibaba obsługuje długim kontekście multimodal AI z nawet 1 milion tokenów do zaawansowanego przetwarzania dokumentów i wideo. Pixtral 12B Mistral oferuje open source alternatywę dla multimodalnej sztucznej inteligencji, konkurując z AYA Vision pod względem przejrzystości i dostępności. Pixtral na ten temat z OCR i narzędziami do analizy dokumentów, mających na celu konkurowanie z wysokiej klasy własną sztuczną inteligencją. lama 3.2 meta

W listopadzie 2024 r. Chińscy badacze wprowadzili LLAVA-O1, model AI w języku wizji zaprojektowany w celu zwiększenia ustrukturyzowanego rozumowania.

Niezależnie od tradycyjnych modeli AI, które generują odpowiedzi w jednym przejściu, Llava-O1 stosuje podejście wieloetapowe, zrywające zadania w fazie kapitału, analizy i wniosków, aby poprawić logiczne dążenie. Porównania porównawcze wykazały, że LLAVA-O1 przewyższyło GPT-4O Mini GPT-4O Openai i Google’s Gemini w zadaniach w języku wizji.

Po tym Deepseek AI wprowadził Deepseek VL2 w grudniu 2024 r., Co dodatkowo wzmacniają ruch w kierunku otwartego rozwoju AI. Model wprowadził dynamiczne kafelki, technikę, która umożliwia AI przetwarzanie obrazów o wysokiej rozdzielczości poprzez przełamanie ich na mniejsze sekcje adaptacyjne.

Pozwala to na bardziej wydajną analizę złożonych wizualnych danych wejściowych, takich jak dokumenty, wykresy i rozpoznawanie obiektów. Przejrzystość. Jednak Cohere nie opublikowało jeszcze porównawczych wyników porównawczych, pozostawiając otwarte pytanie, w jaki sposób AYA Vision działa w stosunku do istniejących otwartych modeli, takich jak LLAVA-O1 i Deepseek VL2.

Wydanie AYA Vision przyczynia się do szerszego trendu modeli AI zaprojektowanych z myślą o elastyczności badań. Instytucje badawcze AI stanęły przed rosnącymi wyzwaniami w ostatnich latach z powodu braku dostępu do najnowocześniejszych modeli. Podczas gdy firmy takie jak OpenAI i Google publikują dokumenty techniczne opisujące ich postęp, naukowcy często nie mają możliwości testowania i udoskonalania tych systemów niezależnie z powodu ograniczeń dostępu.

Modele otwarte, takie jak AYA Vision, Llava-O1 i Deepseek VL2, stanowią alternatywną dla instytucji pracujących nad projektami, które wymagają dostosowania AI. Na przykład w regionach, w których angielski nie jest dominującym językiem, modele AI na otwartym masie oferują możliwości szkolenia i udoskonalania systemów AI w celu lepszego zrozumienia regionalnych dialektów i języków. Podobnie, badacze medyczni mogą dostosowywać modele AI do pomocy w zadaniach takich jak analiza obrazu medycznego, automatyzacja dokumentacji klinicznej i diagnostyka wspomagana przez AI.

Zastrzeżone modele AI utrzymują dominację rynku

, podczas gdy modele AI z otwartym we-figurze, takie jak widzenie AYA, które zapewniają alternatywne modele AI, proporcjonalne modele, aby dominować w stosunku i konsumpcji AI i konsumpcji. Aplikacje.

GPT-4O Openai i Google’s Gemini reprezentują wiodące multimodalne modele AI, ale dostęp do ich możliwości pozostaje ograniczony. W przeciwieństwie do systemów otwartych modele te są zoptymalizowane do użytku komercyjnego, często zapewniając wyższe poziomy wydajności przy jednoczesnym utrzymaniu ograniczonego dostępu.

Multimodal AI rozszerza się również poza tekstem i obrazami w aplikacje AI oparte na akcji. W lutym 2025 r. Microsoft wprowadził Magma AI, model zaprojektowany do obsługi automatyzacji i robotyki przedsiębiorstwa. W przeciwieństwie do tradycyjnych modeli AI koncentrujących się na wkładach tekstowych lub wizualnych, Magma AI integruje wizję, język i przetwarzanie oparte na akcji, umożliwiając analizę interfejsów cyfrowych, kontrolowanie ruchów robotycznych i interakcja z ustrukturyzowanymi środowiskami.

Jednocześnie figura z obiektami AI ujawniona helx AI, wizja (VLA) włączają humaningi, a interakcje z obiektami realistycznymi. Helix AI wyróżnia się poprzez niezależnie funkcjonowanie od przetwarzania opartego na chmurze, zmniejszając opóźnienie i poprawę czasów reakcji dla zadań automatyzacji fizycznej.

Chociaż Aya Vision nie jest ukierunkowana na robotykę lub automatyzację, jego struktura otwartej wbudowanej z modelem właściwymi, takimi jak Magma AI i Helix AI, wzmacniają podział między AI zaprojektowaną dla niezależnych badania wdrożenie.

otwarte vs. własne AI: rozwijający się podział branży

Wprowadzenie wizji Aya podkreśla ciągłą zmianę w badaniach sztucznej inteligencji. Debata na temat AI open source w porównaniu z zastrzeżoną AI zintensyfikowała się jako firmy takie jak Openai, Google i Microsoft na modele o zamkniętym dostępie, podczas gdy inni, w tym koera i głębokie AI, opowiadają się za przejrzystością i dostępnością badawczą.

Zwolennicy właścicieli właścicieli argumentującej, że zachowują modele zamykane w zakresie kontroli jakości. Na przykład Openai utrzymywał, że ograniczenie dostępu do GPT-4O jest niezbędne do zarządzania ryzykiem związanym z niewłaściwym użyciem i dezinformacją AI.

Microsoft i Google przyjęły podobne podejścia, ograniczając dostęp do ich modeli AI za pośrednictwem systemów opartych na interfejsach API, które wymagają umowy licencyjnej.

po drugiej stronie debaty, organizując organizacje opracowując modele Open-Weight, które nie powinny być programy AI, które nie powinny być kontrolowane przez AI. kilka korporacji. Udostępniając modele takie jak wizja AYA dla społeczności badawczej, Cohere pozycjonuje się w opozycji do rosnącej prywatyzacji rozwoju AI.

Modele otwarte zezwalają naukowcom i deweloperom na udoskonalenie i modyfikowanie systemów AI do wyspecjalizowanych zastosowań, szczególnie w środowiskach niekomercyjnych, takich jak edukacja, badania medyczne i rozwiązania AI. AI?

Rosnąca dostępność modeli AI w otwartym masie sugeruje, że badacze i programiści mogą odgrywać większą rolę w kształtowaniu przyszłości sztucznej inteligencji, a nie poleganie na systemach kontrolowanych korporacyjnymi.

Pomimo wzrostu otwartego AI, właściwościowe modele zastrzeżone nadal utrzymują najwyższą pozycję w przedsiębiorstwie. Wiele firm priorytetowo traktuje wydajność, stabilność i wsparcie klasy korporacyjnej, które są zazwyczaj oferowane przez dostawców AI zamkniętych źródeł AI.

Jednak organizacje i programiści, którzy wymagają większej kontroli nad dostosowywaniem AI, prawdopodobnie zbadają alternatywy otwarte, szczególnie w przypadkach, w których modele właścicieli nakładają wysokie koszty lub ograniczające warunki. Wpływ określi, czy otwarte modele AI mogą uznać się za realne alternatywy dla systemów kontrolowanych przez korporację.

Cohere wprowadza Aya Vision jako model Vision z otwartą ai

Published by All Things Windows on March 5, 2025

Postępowanie multimodalne AI z naciskiem na dostępność

Wyniki porównawcze: Jak Aya Vision działa przeciwko modelom konkurentów

Inni konkurenci

Zastrzeżone modele AI utrzymują dominację rynku

otwarte vs. własne AI: rozwijający się podział branży

IT Info

Apple zaprezentuje M3 Ultra Mac Studio, ustanawiając nowe punkty odniesienia do wydajności stacji roboczej

IT Info

Jak Ruby on Rails 7 na Ubuntu 24.04

IT Info

UK Regulatorzy wyczyść partnerstwo Microsoft w wysokości 13 mld USD

Cohere wprowadza Aya Vision jako model Vision z otwartą ai

Published by All Things Windows on March 5, 2025

Postępowanie multimodalne AI z naciskiem na dostępność

Wyniki porównawcze: Jak Aya Vision działa przeciwko modelom konkurentów

Inni konkurenci

Zastrzeżone modele AI utrzymują dominację rynku

otwarte vs. własne AI: rozwijający się podział branży

Related Posts

IT Info

Apple zaprezentuje M3 Ultra Mac Studio, ustanawiając nowe punkty odniesienia do wydajności stacji roboczej

IT Info

Jak Ruby on Rails 7 na Ubuntu 24.04

IT Info

UK Regulatorzy wyczyść partnerstwo Microsoft w wysokości 13 mld USD