Alibaba lëshon familjen me burim të hapur QWEN3 AI me mënyra të të menduarit hibrid

Alibaba ka lëshuar QWEN3, një familje e re e modeleve të gjuhëve të mëdha që synojnë të konkurrojnë me ofertat më të larta të AI nga Openai dhe Google përmes veçorive dalluese si mënyrat e”mendimit hibrid”dhe mbështetja e gjerë shumëgjuhëshe. Në një veprim në përputhje me lëshimet e tij të mëparshme me burim të hapur si WAN 2.1, gjigandi kinez i teknologjisë bëri shumicën e modeleve në serinë QWEN3 të disponueshme nën një licencë Apache 2.0 përmes platformave, duke përfshirë , github , , dhe Kaggle .

hybrid mendimi dhe aftësitë shumëgjuhëshe

Qendrore në Qwen3 është e saj. Një”modalitet i të menduarit”i paracaktuar lejon modelet të kryejnë arsyetim hap pas hapi për detyra komplekse si matematikë ose kodim, shpesh duke nxjerrë këto hapa të ndërmjetëm brenda etiketave para përgjigjes përfundimtare. Zhvilluesit mund ta ndryshojnë këtë sjellje duke përdorur një parametër aktivizues ose etiketa specifike/mendime dhe/no_think brenda udhëzimeve. njoftimi i ekipit Qwen theksoi këtë fleksibilitet:”Ky dizajn u mundëson përdoruesve të konfigurojnë buxhetet specifike të detyrave me lehtësi më të madhe, duke arritur një ekuilibër më optimal midis efikasitetit të kostos dhe cilësisë së konkluzionit.”lartësia=”576″src=”të dhëna: imazh/svg+xml; nitro-empty-id=mty2otoxnje4-1; base64, phn2zyb2awv3qm94psiwidagmtaynca1nz YiiHDPZHROPSIXMDI0IIBOZWLNAHQ9iJU3niigeg1Sbnm9imH0Dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

Dokumentacioni i Praktikave më të mira në duke përqafuar kartën e modelit të fytyrës për Mënyra e të menduarit. Gjithashtu mbështesni 119 gjuhë dhe dialekte, duke synuar udhëzime të forta shumëgjuhëshe në vijim. Modelet trajtojnë gjatësi të ndryshme të kontekstit; Modelet më të vogla si varianti 0.6B kanë një dritare të shenjës amtare 32k, ndërsa modelet më të mëdha raportohet se mund të mbështesin deri në 128k ose 131k shenja përmes teknikave si shkallëzimi i fijeve. Modelet e përzierjes së ekspertëve (MOE): QWEN3-30B-A3B dhe flamuri QWEN3-235B-A22B (i cili ende nuk mund të shkarkohet). Këto modele MOE përdorin 128 ekspertë totalë, por aktivizojnë vetëm 8 për shenjë (rreth 3B parametra aktivë për modelin 30B, 22B për variantin 235B), një teknikë e krijuar për efikasitetin llogaritës, ndoshta i nxitur nga sanksionet e SHBA që kufizojnë qasjen në çipa me performancë të lartë. Modeli i flamurit 235B pretendohet se rivalizon modele si Openai’s O3-Mini dhe Google’s Gemini 2.5 Pro në standardet specifike të kodimit dhe matematikës. Qwen2.5-72b-instrukt. QWEN3-32B i disponueshëm publikisht pretendohet gjithashtu të tejkalojë modelin O1 të Openai në testet e kodimit si LiveCodeBench. Këto pretendime pasojnë raportet e mëparshme ku Alibaba krahasoi modelin e saj QWEN 2.5-Max në mënyrë të favorshme kundër Deepseek V3. src=”të dhëna: imazh/svg+xml; nitro-impty-id=mty3njoxmju1-1; base64, phn2zyb2awv3qm94psiwidagmtaynca1nz YiiHDPZHROPSIXMDI0IIBOZWLNAHQ9iJU3niigeg1Sbnm9imH0Dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

Trajnimi, arkitektura dhe përdorimi

Modelet u trajnuan paraprakisht në një bazë të dhënash të raportuar të jenë rreth 36 trilion shenja, duke përfshirë tekstin në internet, kodin, tekstin e nxjerrë nga PDFS (duke përdorur QWEN2.5-VL), dhe të dhëna sintetike të gjeneruara përmes modeleve të mëparshme Qwen të specializuara në matematikë dhe kod. Procesi pas trajnimit përfshinte katër faza, duke përfshirë mësimin e përforcimit dhe hapat specifike për të bashkuar aftësitë e të menduarit dhe jo-mendimit. Për detyrat agjentike, QWEN3 mbështet protokollin e kontekstit të modelit (MCP), me Alibaba duke rekomanduar qwen-Agent Framework . Kornizat e vendosjes si Sglang dhe VLLM, ose mjete lokale si Ollama dhe Lmstudio. Një fp8-kuantizuar modelin 0.6b për efikasitet, megjithëse rregullimet e mundshme mund të jenë të nevojshme për korniza të caktuara si VLLM. Alibaba sqaroi gjithashtu skemën e saj të re të emërtimit, duke hequr”-Nstruktin”nga modelet pas trajnimit dhe duke shtuar”-Base”në modelet bazë.

QWEN3 hyn në një peizazh dinamik të AI. Alibaba pretendon se familja Qwen përbën ekosistemin më të madh në botë me burim të hapur AI nga modelet derivative, duke përmendur mbi 100,000 në fytyrën e përqafimit. QWEN3 tashmë është integruar në asistentin e AI të Alibaba, i cili drejtoi chatbots kineze në përdoruesit mujorë aktivë në Mars 2025. Lëshimi pason modelet e mëparshme të Alibaba-s. Tregu konkurrues i brendshëm i AI. Deepseek AI bëri valë të konsiderueshme me Deepseek V3 efikase të tij (Dhjetor 2024) dhe modelin e fuqishëm të arsyetimit Deepseek R1 (Jan 2025). Sidoqoftë, DeepSeek që nga ajo kohë është përballur me një kontroll të konsiderueshëm ndërkombëtar, përfshirë hetimet e intimitetit të të dhënave në Itali, një përmbledhje e brendshme nga Microsoft dhe Openai për të dyshuar për qasje të pahijshme të të dhënave, dhe një kritik Vjedhjet e IP. Kohët e fundit, DeepSeek është zhvendosur drejt infrastrukturës me burim të hapur si sistemi i skedarëve 3FS dhe hulumtimi si akordimi i kritikës së vetë-paramenduar (SPCT), ndërsa lojtarët e tjerë përdorin të dhëna me burim të hapur Deepseek për të krijuar versione të modifikuara, të tilla si modeli Deepseek-R1t-Chimera, i cili po bashkon komponentët R1 dhe V3. Baidu kohët e fundit përshkallëzoi luftën e çmimeve me modelet e saj Ernie Turbo (25 Prill 2025), duke ofruar ulje të konsiderueshme të kostos pasi filloi modelet e afta Ernie 4.5 dhe X1 në Mars dhe duke e bërë Ernie Bot Free në shkurt. Përdorimi i tij i modeleve Deepseek për efikasitet. Ndërkohë, Zhipu AI, i mbështetur pjesërisht nga Alibaba, lëshoi agjentin e saj falas AutoGLM (Mars 2025) dhe po ndjek një IPO. Vetë Alibaba integroi modele të mëparshme QWEN në asistentin e saj të kuarkut AI.

Alibaba lëshon familjen me burim të hapur QWEN3 AI me mënyra të të menduarit hibrid

Published by All Things Windows on April 29, 2025

hybrid mendimi dhe aftësitë shumëgjuhëshe

Trajnimi, arkitektura dhe përdorimi

IT Info

Një vështrim në koston e karbonit të AI: Ndikimi i përdoruesit kundrejt realitetit të sektorit

IT Info

Mistral synon vlera me modelin e ri të mesëm 3 AI, Le Chat Enterprise

IT Info

Microsoft: First Windows 11 Enterprise Hotpatch tokat në mes të majit

Alibaba lëshon familjen me burim të hapur QWEN3 AI me mënyra të të menduarit hibrid

Published by All Things Windows on April 29, 2025

hybrid mendimi dhe aftësitë shumëgjuhëshe

Trajnimi, arkitektura dhe përdorimi

Related Posts

IT Info

Një vështrim në koston e karbonit të AI: Ndikimi i përdoruesit kundrejt realitetit të sektorit

IT Info

Mistral synon vlera me modelin e ri të mesëm 3 AI, Le Chat Enterprise

IT Info

Microsoft: First Windows 11 Enterprise Hotpatch tokat në mes të majit