Alibaba ha lanzado QWEN3, una nueva familia de modelos de idiomas grandes que buscan competir con las principales ofertas de IA de OpenAI y Google a través de características distintivas como modos de”pensamiento híbrido”y amplio soporte multilingüe. En un movimiento consistente con sus versiones anteriores de código abierto como WAN 2.1, el gigante tecnológico chino hizo la mayoría de los modelos en la serie Qwen3 disponible bajo una licencia Apache 2.0 a través de plataformas que incluyen , kaggle .
pensamiento híbrido y capacidades multilingüe
Central a Qwen3 es un enfoque de operación dual. Un”modo de pensamiento”predeterminado permite que los modelos realicen un razonamiento paso a paso para tareas complejas como las matemáticas o la codificación, a menudo produciendo estos pasos intermedios dentro de las etiquetas antes de la respuesta final.
Por el contrario, un”modo no pensativo”proporciona respuestas más rápidas y directas para interacciones más simples. Los desarrolladores pueden alternar este comportamiento utilizando un parámetro Enable_Thinking o etiquetas específicas/thill y no_think dentro de las indicaciones. anuncio del equipo de qwen Destacó esta flexibilidad:”Este diseño permite a los usuarios configurar presupuestos específicos de tareas con mayor facilidad, logrando un equilibrio más óptimo entre el costo y la calidad de influencia”. altura=”576″src=”datos: imagen/svg+xml; nitro-tempy-id=mty2otoxnje4-1; base64, phn2zyb2awv3qm94psiwidagmtaynca1nz Yiihdpzhropsixmdi0iibozwlnahq9iju3niigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>>
Las mejores prácticas documentan en abrazando la tarjeta del modelo facial para Qwen3-0.6b-FP8 Asesora los parámetros de muestreo distintos para cada modo y las velas contra el modo de decodia de pensamiento. También admite 119 idiomas y dialectos, con el objetivo de seguir la instrucción multilingüe robusta. Los modelos manejan varias longitudes de contexto; Los modelos más pequeños como la variante 0.6b tienen una ventana de token 32k nativa, mientras que los modelos más grandes pueden admitir hasta 128k o 131k tokens a través de técnicas como la escala de hilo.
reclamos de rendimiento y variantes de modelos
La serie QWEN3 incluye varios modelos de peso abierto, como los versiones densas de 0.6b a 32b, y los dos modelos de 32b, y los dos modelos de peso abierto, tales como densas de modelos. Modelos de mezcla de expertos (MOE): QWEN3-30B-A3B y el buque insignia QWEN3-235B-A22B (que aún no se puede descargar). Estos modelos MOE usan 128 expertos totales, pero solo activan 8 por token (alrededor de 3B de parámetros activos para el modelo 30B, 22B para la variante 235b), una técnica diseñada para la eficiencia computacional, posiblemente estimulada por las sanciones de EE. UU. Limitando el acceso a chips de alto rendimiento.
Alibaba posiciona el rendimiento de Qwen3 agresivamente. Se afirma que el modelo insignia 235B rivaliza modelos como O3-Mini de OpenAi y Gemini 2.5 Pro de Google en Benchings y Benchmars de Benchings. QWEN2.5-72B-Instructo. También se afirma que el QWEN3-32B disponible públicamente supera el modelo O1 de OpenAI en pruebas de codificación como LivecodeBench. Estas afirmaciones siguen informes anteriores en los que Alibaba comparó su modelo QWEN 2.5-Max favorablemente contra Deepseek V3.
>
capacitación, arquitectura y uso
Los modelos se entrenaron previamente en un conjunto de datos que se informa que son de 36 billones de tokens, que incorporan texto web, código, texto extraído de PDF (utilizando Qwen2.5-VL) y datos sintéticos generados a través de modelos QWen anteriores especializados en matemáticas y código. El proceso posterior a la capacitación involucró cuatro etapas, incluido el aprendizaje de refuerzo y pasos específicos para fusionar las capacidades de pensamiento y no pensamiento. For agentic tasks, Qwen3 supports the Model Context Protocol (MCP), with Alibaba recommending its Qwen-Agent framework.
Developers can use Qwen3 via standard Hugging Face `transformers` (latest version advised), Marcos de implementación como SGLANG y VLLM, o herramientas locales como Ollama y LMStudio. An modelo 0.6b cuantizado de FP8 se ofrece para obtener eficiencia, aunque se pueden necesitar ajustes potenciales para ciertos marco como VLLM. Alibaba también aclaró su nuevo esquema de nomenclatura, eliminando el”instructo”de los modelos posttrados y agregando”-base”a modelos base.
QWEN3 ingresa a un panorama de IA dinámico. Alibaba afirma que la familia Qwen constituye el ecosistema de IA de código abierto más grande del mundo mediante modelos derivados, citando más de 100,000 en la cara abrazada. QWEN3 ya está integrado en el Asistente de AI Quark AI de Alibaba, que lideró los chatbots chinos en los usuarios activos mensuales en marzo de 2025. El lanzamiento sigue a los modelos Qwen 2.5 de enero de 2025) y QWQ (febrero de 2025). mercado interno de IA. Deepseek AI hizo ondas significativas con su eficiente Deepseek V3 (diciembre de 2024) y el potente modelo de razonamiento Deepseek R1 (enero de 2025). Sin embargo, Deepseek se ha enfrentado desde entonces a un considerable escrutinio internacional, incluidas las investigaciones de privacidad de los datos en Italia, una revisión interna de Microsoft y OpenAI sobre presunto acceso de datos incorrecto, y un crítico Informe del comité de la casa de la casa en el CCP (16 de abril, 2025) y el robo de IP.
CEO de escala AI Alexandr Wang también afirmó a fines de enero que”Deepseek tiene alrededor de 50,000 GPU NVIDIA H100. No pueden hablar de ello porque viola los controles de exportación de los Estados Unidos… la realidad es que se acumulan antes de que las sanciones completas se activen…”Deepseek sostiene oficialmente que utiliza el GPU H800 de cumplimiento. Recientemente, Deepseek ha cambiado hacia la infraestructura de código abierto como el sistema de archivos 3FS y la investigación como la sintonización de crítica autoinserlicada (SPCT), mientras que otros jugadores usan los datos de código abierto de Deepseek para crear versiones modificadas como los actores principales lanzados recientemente, también empujan a DeepSeek-Chimera, que está fusionando los componentes R1 y V3. Baidu recientemente intensificó la guerra de precios con sus modelos Ernie Turbo (25 de abril de 2025), ofreciendo reducciones de costos significativas después de lanzar los modelos Ernie 4.5 y X1 capaces en marzo y hacer su Ernie Bot gratis en febrero. Confirmando su uso de modelos Deepseek para la eficiencia. Mientras tanto, Zhipu Ai, respaldado en parte por Alibaba, lanzó su agente de autoglm gratuito (marzo de 2025) y está persiguiendo una OPI. Alibaba en sí integró los modelos Qwen anteriores en su Asistente de AI Quark.
.