Cohere untuk AI telah memperkenalkan AYA Vision, model kecerdasan buatan multimodal terbuka yang direka untuk memproses kedua-dua teks dan imej sambil menyokong pelbagai bahasa.

Tidak seperti sistem AI proprietari seperti GPT-4O OpenAI dan Gemini Google, AYA Vision adalah model berat terbuka, yang membolehkan penyesuaian penuh oleh pemaju dan penyelidik tanpa perjanjian pelesenan yang ketat. Cohere melepaskan penglihatan Aya sebagai kedua href=”https://huggingface.co/cohereforai/aya-vision-32b?ref=cohere-ai.ghost.io”> 32 Billion Open-Weights Model yang tersedia di kaggle dan

Cohere telah membingkai pelepasan AYA Visi sebagai sumbangan kepada AI yang didorong oleh penyelidikan.”Visi Aya dibina untuk memajukan penyelidikan AI berbilang bahasa dan multimodal, yang menawarkan pemaju dan penyelidik membuka akses kepada model yang memperluaskan bagaimana AI memahami imej dan teks di seluruh bahasa yang berbeza.”

Benarkan.

Model AI terbuka terbuka membolehkan fleksibiliti yang lebih besar, terutamanya dalam bidang seperti alat kebolehaksesan, model bahasa global, dan penyelidikan AI yang bebas, di mana model proprietari sering mengenakan batasan.

Pada masa yang sama, menjadikannya multimodal. dataset linguistik yang pelbagai.

proprietari. Hasilnya datang dari dua set penilaian utama:
Ayavisionebench dan m-wildvision , yang mengukur keupayaan model untuk menangani tugas-tugas yang sama. Gemini-flash dalam penalaran bahasa penglihatan sambil memegang sendiri terhadap model berat terbuka seperti llama 3.2 dan qwen2.5.

Sumber: Cohere

Pesaing Lain

Visi AYA memasuki pasaran AI multimodal yang berkembang pesat, di mana pemaju AI terbuka dan proprietari bersaing untuk menguasai. Beberapa model menonjol dalam landskap semasa:

Alibaba QWEN.5 menyokong AI multimodal konteks panjang dengan sehingga 1 juta token untuk dokumen lanjutan dan pemprosesan video. Mistral’s Pixtral 12B menawarkan alternatif sumber terbuka untuk AI multimodal, bersaing dengan Visi AYA dalam ketelusan dan kebolehaksesan. Mistral’s Pixtral Besar membina ini dengan OCR dan alat analisis dokumen, yang bertujuan untuk bersaing dengan AI proprietari mewah. Meta’s llama 3.2 memberi tumpuan kepada mengoptimumkan visi-bahasa AI untuk pengkomputeran dan pengkomputeran kelebihan meta.

Pada bulan November 2024, penyelidik Cina memperkenalkan Llava-O1, model AI bahasa penglihatan yang direka untuk meningkatkan penalaran berstruktur. Perbandingan penanda aras menunjukkan bahawa Llava-O1 mengatasi GPT-4O Mini OpenAI dan Gemini Google dalam tugas-tugas bahasa penglihatan.

Model ini memperkenalkan jubin dinamik, teknik yang membolehkan AI memproses imej resolusi tinggi dengan memecahkannya ke dalam bahagian penyesuaian yang lebih kecil. ketelusan. Walau bagaimanapun, Cohere belum lagi mengeluarkan hasil penanda aras perbandingan, meninggalkan persoalan bagaimana penglihatan AYA melakukan relatif kepada model terbuka yang sedia ada seperti Llava-O1 dan Deepseek VL2.

Institusi penyelidikan AI telah menghadapi cabaran yang semakin meningkat pada tahun-tahun kebelakangan ini kerana kekurangan akses kepada model canggih. Walaupun syarikat-syarikat seperti OpenAI dan Google menerbitkan kertas teknikal yang menggambarkan kemajuan mereka, para penyelidik sering tidak mempunyai keupayaan untuk menguji dan memperbaiki sistem ini secara bebas kerana sekatan akses. Sebagai contoh, di kawasan di mana bahasa Inggeris bukan bahasa dominan, model AI terbuka terbuka menawarkan peluang untuk melatih dan memperbaiki sistem AI untuk lebih memahami dialek dan bahasa serantau. Begitu juga, penyelidik perubatan boleh menyesuaikan model AI untuk membantu tugas-tugas seperti analisis imej perubatan, automasi dokumentasi klinikal, dan diagnostik AI yang dibantu. Aplikasi AI.

GPT-4O OpenAI dan Gemini Google mewakili model AI multimodal terkemuka, tetapi akses kepada keupayaan mereka tetap terhad. Berbeza dengan sistem terbuka, model-model ini dioptimumkan untuk kegunaan komersil, sering menyediakan tahap prestasi yang lebih tinggi sambil mengekalkan akses terhad.

Multimodal AI juga berkembang di luar teks dan imej ke dalam aplikasi AI berasaskan tindakan. Pada bulan Februari 2025, Microsoft memperkenalkan Magma AI, model yang direka untuk mengendalikan automasi perusahaan dan robotik. Tidak seperti model AI tradisional yang memberi tumpuan kepada input teks atau visual, magma AI mengintegrasikan visi, bahasa, dan pemprosesan berasaskan tindakan, yang membolehkannya menganalisis antara muka digital, mengawal pergerakan robotik, dan berinteraksi dengan persekitaran berstruktur. masa nyata. Helix AI membezakan dirinya dengan berfungsi secara bebas daripada pemprosesan berasaskan awan, mengurangkan latensi dan meningkatkan masa tindak balas untuk tugas automasi fizikal.

Penyebaran. Perdebatan mengenai sumber terbuka AI berbanding proprietari AI telah dipergiatkan sebagai syarikat-syarikat seperti OpenAI, Google, dan Microsoft menolak untuk model akses tertutup manakala yang lain, termasuk Cohere dan Deepseek AI, menganjurkan ketelusan dan kebolehcapaian penyelidikan. Openai, sebagai contoh, telah mengekalkan bahawa menyekat akses kepada GPT-4O adalah perlu untuk menguruskan risiko yang berkaitan dengan penyalahgunaan dan maklumat salah. oleh beberapa syarikat. Dengan membuat model seperti Visi Aya yang tersedia untuk komuniti penyelidikan, Cohere meletakkan dirinya sebagai menentang penswastaan ​​pembangunan AI yang semakin meningkat. AI? Banyak perniagaan mengutamakan prestasi, kestabilan, dan sokongan gred perusahaan, yang biasanya ditawarkan oleh penyedia AI yang tertutup. akan menentukan sama ada model AI terbuka boleh mewujudkan diri mereka sebagai alternatif yang berdaya maju kepada sistem kawalan korporat.

Categories: IT Info