Cohere untuk AI telah memperkenalkan AYA Vision, model kecerdasan buatan multimodal terbuka yang dirancang untuk memproses teks dan gambar sambil mendukung berbagai bahasa.

Tidak seperti sistem AI berpemilik seperti Openai GPT-4O dan Google Gemini, Aya Vision adalah model dengan berat terbuka, yang memungkinkan penyesuaian penuh oleh pengembang dan peneliti tanpa perjanjian lisensi yang terbatas. Cohere merilis visi aya sebagai 8 dan 32 miliar model weight terbuka yang tersedia di kaggle dan

Cohere telah membingkai pelepasan AYA Vision sebagai kontribusi untuk AI yang digerakkan oleh penelitian. AYA Visi dibangun untuk memajukan penelitian AI multibahasa dan multimodal, menawarkan pengembang dan peneliti akses terbuka ke model yang memperluas bagaimana AI memahami gambar dan teks di berbagai bahasa.”

Sementara model tidak diposisikan sebagai pesaing langsung untuk berbagai kasus yang dapat diatasi dengan berbagai kasus yang dapat diposisikan dengan berbagai hal yang dapat diproses, GPT-4O dalam hal berbagai hal yang dapat diproses, allow.

Open-weight AI models allow for greater flexibility, particularly in areas such as accessibility tools, global language models, and independent AI research, where proprietary models often impose limitations.

Advancing Multimodal AI With a Focus on Accessibility

One of Aya Vision’s key strengths is its ability to process and interpret both text and images simultaneously, making it Multimodal. Dataset.

Ini memposisikan model ini sebagai sumber daya untuk lembaga dan pengembang yang bekerja pada pendidikan, media, dan analisis konten yang digerakkan oleh AI.

hasil benchmark: Bagaimana visi AYA berkinerja terhadap kompetitor

untuk menilai kapabilitasnya, aya 8b telah menjadi visi 8B. Hasilnya berasal dari dua set evaluasi utama: ayavisionBench dan M-wildvision , yang mengukur kemampuan model-model yang sama seperti ini. Gemini-flash dalam penalaran bahasa penglihatan sambil bertahan melawan model-model dengan berat terbuka seperti Llama 3.2 dan Qwen2.5.

Sumber: COHERE

Pesaing lain

AYA Visi memasuki pasar AI multimodal yang berkembang pesat, di mana baik pengembang AI terbuka dan kepemilikan bersaing untuk mendominasi. Beberapa model menonjol di lanskap saat ini:

QWEN2.5 Alibaba mendukung AI multimodal konteks panjang dengan hingga 1 juta token untuk pemrosesan dokumen dan video canggih. Pixtral 12B Mistral menawarkan alternatif open-source untuk AI multimodal, bersaing dengan AYA Vision dalam transparansi dan aksesibilitas. Pixtral besar Mistral dibangun di atas ini dengan OCR dan alat analisis dokumen, yang bertujuan untuk bersaing dengan AI berpemilik kelas atas. Meta Llama 3.2 berfokus pada pengoptimalan AI-Language AI untuk aplikasi komputasi-perangkat dan tepi.

Pada bulan November 2024, para peneliti Tiongkok memperkenalkan LLAVA-O1, model AI-bahasa penglihatan yang dirancang untuk meningkatkan penalaran terstruktur.

Tidak seperti model AI tradisional yang menghasilkan jawaban dalam satu pass tunggal, LLAVA-O1 menggunakan pendekatan multi-langkah, memecah tugas ke dalam cap kecil, analisis, dan fase kesimpulan. Perbandingan benchmark menunjukkan bahwa LLAVA-O1 mengungguli Mini GPT-4O Openai dan Gemini Google dalam tugas-tugas penglihatan-bahasa.

Mengikuti ini, Deepseek AI memperkenalkan Deepseek VL2 pada Desember 2024, yang semakin memperkuat pergerakan menuju pengembangan AI terbuka. Model ini memperkenalkan ubin dinamis, sebuah teknik yang memungkinkan AI untuk memproses gambar resolusi tinggi dengan memecahnya menjadi bagian adaptif yang lebih kecil.

Ini memungkinkan analisis yang lebih efisien dari input visual yang kompleks seperti dokumen, grafik, dan tugas pengenalan objek. transparansi. Namun, Cohere belum merilis hasil tolok ukur komparatif, membiarkan pertanyaan terbuka tentang bagaimana AYA Vision berkinerja relatif terhadap model terbuka yang ada seperti LLAVA-O1 dan Deepseek VL2.

Pelepasan visi AYA berkontribusi pada tren model AI yang lebih luas yang dirancang dengan pemikiran penelitian. Lembaga penelitian AI telah menghadapi tantangan yang berkembang dalam beberapa tahun terakhir karena kurangnya akses ke model mutakhir. Sementara perusahaan seperti OpenAi dan Google menerbitkan makalah teknis yang menggambarkan kemajuan mereka, para peneliti seringkali tidak memiliki kemampuan untuk menguji dan memperbaiki sistem ini secara independen karena pembatasan akses.

Model dengan berat terbuka seperti AYA Vision, LLAVA-O1, dan Deepseek VL2 menyediakan alternatif untuk institusi yang bekerja pada proyek yang memerlukan adaptabilitas AI. Misalnya, di daerah di mana bahasa Inggris bukan bahasa yang dominan, model AI terbuka menawarkan peluang untuk melatih dan memperbaiki sistem AI untuk lebih memahami dialek dan bahasa regional. Similarly, medical researchers can customize AI models to assist with tasks such as medical image analysis, clinical documentation automation, and AI-assisted diagnostics.

Proprietary AI Models Maintain Market Dominance

While open-weight AI models such as Aya Vision provide an alternative to corporate AI, proprietary models continue to dominate enterprise and consumer AI Aplikasi.

Openai’s GPT-4O dan Google Gemini mewakili model AI multimodal terkemuka, tetapi akses ke kemampuan mereka tetap terbatas. Berbeda dengan sistem terbuka, model ini dioptimalkan untuk penggunaan komersial, seringkali memberikan tingkat kinerja yang lebih tinggi sambil mempertahankan akses terbatas.

AI multimodal juga berkembang di luar teks dan gambar ke dalam aplikasi AI berbasis aksi. Pada bulan Februari 2025, Microsoft memperkenalkan Magma AI, model yang dirancang untuk menangani otomatisasi dan robotika perusahaan. Tidak seperti model AI tradisional yang difokuskan pada input tekstual atau visual, MAGMA AI mengintegrasikan visi, bahasa, dan pemrosesan berbasis tindakan, memungkinkannya untuk menganalisis antarmuka digital, mengontrol gerakan robot, dan berinteraksi dengan lingkungan terstruktur.

Pada saat yang sama, gambar AI meluncurkan Helix AI, sebuah objek-penglihatan yang ada di humanooid, sebuah objek-objek yang ada di humanoid, sebuah Object-Action-Action (VLA) Model. Helix AI distinguishes itself by functioning independently of cloud-based processing, reducing latency and improving response times for physical automation tasks.

Although Aya Vision does not target robotics or automation, its open-weight structure contrasts with proprietary models like Magma AI and Helix AI, reinforcing the divide between AI systems designed for independent research and those built for corporate-controlled Penyebaran.

terbuka vs AI berpemilik: Perbedaan industri yang berkembang

Pengenalan visi AYA menyoroti perubahan berkelanjutan dalam penelitian kecerdasan buatan. Debat tentang AI open-source versus AI berpemilik telah meningkat sebagai perusahaan seperti OpenAi, Google, dan Microsoft Push untuk model akses tertutup sementara yang lain, termasuk cohere dan deepseek AI, advokat untuk transparansi dan aksesibilitas penelitian.

Para pendukung AI berpendapat bahwa Model Penggunaan Model yang Menutup Kontrol Kualitas Menutup, mencabut malurat. OpenAI, for example, has maintained that restricting access to GPT-4o is necessary to manage risks related to AI misuse and misinformation.

Microsoft and Google have adopted similar approaches, limiting access to their AI models through API-based systems that require licensing agreements.

On the other side of the debate, organizations developing open-weight models believe that AI advancements should not be controlled by a Beberapa perusahaan. Dengan membuat model seperti AYA Visi yang tersedia untuk komunitas penelitian, Cohere memposisikan dirinya yang bertentangan dengan peningkatan privatisasi pengembangan AI.

Model dengan berat terbuka memungkinkan para peneliti dan pengembang untuk memperbaiki dan memodifikasi sistem AI untuk aplikasi khusus, khususnya

Meningkatnya ketersediaan model AI dengan berat terbuka menunjukkan bahwa para peneliti dan pengembang dapat memainkan peran yang lebih besar dalam membentuk masa depan AI daripada mengandalkan sistem yang dikendalikan perusahaan.

Meskipun ada penambahan AI yang terbuka, model proprietary yang terkuat. Banyak bisnis memprioritaskan kinerja, stabilitas, dan dukungan tingkat perusahaan, yang biasanya ditawarkan oleh penyedia AI-sumber tertutup.

Namun, organisasi dan pengembang yang membutuhkan kontrol lebih besar atas kustomisasi AI cenderung mengeksplorasi alternatif terbuka, khususnya dalam kasus-kasus di mana sebuah model kepemilikannya menyatakan biaya tinggi atau istilah ketat. Dampak Praktis akan menentukan apakah model AI terbuka dapat menjadikan diri mereka sebagai alternatif yang layak untuk sistem yang dikendalikan perusahaan.

Categories: IT Info