Ang koponan ng QWEN ng Alibaba ay naglunsad ng QWEN3-VL, ang pinakamalakas na serye ng modelo ng wikang pangitain hanggang ngayon. Ang malaking sukat nito (471 GB) ay ginagawang isang tool para sa mahusay na resourced na mga koponan. src=”https://winbuzzer.com/wp-content/uploads/2025/09/qwen3-vl-235b-a22b-instruct-benchmark Mga video. Ang paglabas ay isang pangunahing hakbang sa diskarte ng Alibaba upang mamuno sa open-source na patlang ng AI. mga stack ng mga karibal nito sa kanluran. Ang pag-angkin ng pagganap nito ay state-of-the-art.”Ang bersyon ng pagtuturo ay tumutugma o kahit na lumampas sa Gemini 2.5 Pro sa mga pangunahing benchmark ng visual na pang-unawa. Ang bersyon ng pag-iisip ay nakamit ang mga resulta ng state-of-the-art sa maraming mga benchmark ng multimodal na pangangatuwiran,”ang koponan ay nakasaad sa anunsyo nito. href=”https://qwen.ai/blog?id=99F0335C4AD9FF6153E517418D48535AB6D8AFEF&from=research.latest-advancement-STIST”TARGET=”_ BLANK”> KEY INNOVATION SA QWEN3-VL Ay”Visual Agent”Kapasyang Kakayahan. Ang tampok na ito ay gumagalaw na lampas sa simpleng pagkilala sa imahe, na nagpapahintulot sa modelo na mapatakbo ang mga interface ng computer at mobile graphical user (GUIs). Saklaw ang mga potensyal na aplikasyon mula sa pag-automate ng paulit-ulit na mga gawain ng software at pagtulong sa mga gumagamit na may kumplikadong mga daloy ng trabaho sa paglikha ng mas madaling intuitive na mga tool sa pag-access para sa pag-navigate ng mga aplikasyon.

Ang praktikal na utility ng modelo ay karagdagang pinahusay ng napakalaking window ng konteksto. Ito ay katutubong sumusuporta sa 256,000 mga token, mapapalawak hanggang sa isang milyon. Ang mga bagong kakayahan ng QWEN3-VL ay pinalakas ng isang makabuluhang pag-overhaul ng arkitektura na idinisenyo upang itulak ang mga hangganan ng visual at temporal na pag-unawa. target=”_ blangko”> detalyado sa teknikal na papel nito . Pinalitan nito ang nakaraang diskarte kung saan ang temporal na impormasyon ay puro sa mga sukat na may mataas na dalas. Ang bagong pamamaraan ay namamahagi ng data, taas, at lapad na data sa lahat ng mga frequency, na makabuluhang pagpapabuti ng pag-unawa sa mahabang video habang pinapanatili ang pag-unawa sa imahe. Sa halip na mag-iniksyon ng mga visual na token sa isang solong layer ng modelo ng wika, iniksyon ng DeepStack ang mga ito sa maraming mga layer. Pinapayagan nito para sa isang finer-grained fusion ng mga tampok na multi-level mula sa Vision Transformer (VIT), patalasin ang katumpakan ng pag-align ng imahe ng modelo ng modelo. Ang sistemang ito ay gumagamit ng isang magkakaugnay na format ng pag-input ng mga timestamp at mga frame ng video, na nagpapagana ng tumpak, pag-align ng antas ng frame sa pagitan ng temporal na data at visual na nilalaman. Malaki ang pinalalaki nito ang kakayahan ng modelo na ma-localize ang mga kaganapan at kilos sa loob ng mga kumplikadong pagkakasunud-sunod ng video. Kamakailan lamang ay inilunsad ng kumpanya ang mga makapangyarihang open-source na modelo para sa advanced na pangangatuwiran at henerasyon ng imahe ng high-fidelity. Ang paglipat na ito ay nagpapatibay din ng isang madiskarteng pivot na malayo sa mode ng’Hybrid Thinking’ng mga naunang modelo, na hinihiling ng mga developer na lumiko sa pagitan ng mga mode. Ang open-source na sugal sa isang dalubhasang patlang

Dominance.

Ang patlang ay mabilis na pag-iba-iba, kasama ang mga modelo tulad ng Microsoft’s Florence-2 na hinahabol din ang isang pinag-isang, prompt-based na diskarte upang mahawakan ang maraming mga gawain sa paningin tulad ng captioning at object detection sa loob ng isang solong, cohesive architecture. Ang magaan na modelong ito ay na-optimize para sa pagtuklas ng object sa mga aparato sa gilid, na inuuna ang mababang latency at pagtugon sa pag-stream ng pangangatuwiran ng mas malaking sistema. Halimbawa, ang pangitain ng Cohere ay isang bukas na timbang na modelo na sadyang idinisenyo upang isulong ang pananaliksik ng multilingual at multimodal AI, na itinampok ang pokus nito sa pagbibigay kapangyarihan sa mga proyekto na nakatuon sa pag-access at pag-access. Kamakailan lamang ay inilabas ng mga mananaliksik ang all-topographic neural network (All-TNN), isang modelo na gayahin ang istraktura ng utak ng tao para sa mahusay na kahusayan ng enerhiya. Ipinaliwanag ng Coauthor Zejin Lu ang konsepto:”Para sa mga tao, kapag nakita mo ang ilang mga bagay, mayroon silang isang pangkaraniwang posisyon. Alam mo na ang mga sapatos ay karaniwang nasa ilalim, sa lupa. Ang eroplano, nasa tuktok ito.”href=”https://en.wikipedia.org/wiki/convolutional_neural_network”target=”_ blangko”> Ang pag-uugali ng neural na network (CNN) . Ginagawa nitong isang nakakahimok na alternatibo para sa mga aparato na may mababang lakas na kung saan ang kahusayan ay pinakamahalaga, na nagpapatunay na ang matikas na disenyo ay maaaring maging mas epektibo kaysa sa pagkalkula ng lakas ng loob.

Categories: IT Info