Alibaba hat QWEN3 veröffentlicht, eine neue Familie von großsprachigen Modellen, die darauf abzielen, mit Top-KI-Angeboten von OpenAI und Google durch unverwechselbare Funktionen wie „Hybrid Thinking“-Modi und breite mehrsprachige Unterstützung zu konkurrieren. In einem Schritt, der mit seinen früheren Open-Source-Veröffentlichungen wie Wan 2.1 übereinstimmt, machte der chinesische Tech-Riese die meisten Modelle in der QWEN3-Serie unter einer Apache 2.0-Lizenz über Plattformen, einschließlich github , kaggle . Mit einem Standard-„Denkmodus“ können die Modelle Schritt-für-Schritt-Argumentation für komplexe Aufgaben wie Mathematik oder Codierung durchführen und diese Zwischenschritte häufig vor der endgültigen Antwort ausgeben. Entwickler können dieses Verhalten mithilfe eines Parameters enable_tinking oder spezifisch/Think und/no_think-Tags innerhalb der Eingabeaufforderungen umschalten. Das QWEN-Team-Ankündigung hob diese Flexibilität hervor: „Dieses Design ermöglicht den Benutzern die Konfiguration von Aufgabenspezifischen Budgets mit einer optimalen Ausballung zwischen Kosteneffizienz und Inferenzqualität. height=”576″ src=”https://winbuzzer.com/wp-content/uploads/2025/04/Alibaba-Qwen3-benchmarks-vs-OpenAI-o1-DeepSeek-R1-Grok-3-Beta-Gemini-2.5-Pro-Openai-o3-mini-1024×576.jpg”>

Best practices Dokumentation auf dem Umarmende Gesichtsmodellkarte für QWEN3-0.6B-FP8 rät für jeden Modus mit unterschiedlichen MODELS. Dialekte, die nach robusten mehrsprachigen Anweisungen streben. Die Modelle verarbeiten verschiedene Kontextlängen; Kleinere Modelle wie die 0,6B-Variante haben ein natives 32K-Token-Fenster, während größere Modelle Berichten zufolge bis zu 128K-oder 131-K-Token durch Techniken wie Garnskalierung unterstützen können. Modelle der Mischung aus Experten: Diese MOE-Modelle verwenden 128 Gesamtexperten, aktivieren jedoch nur 8 pro Token (etwa 3B aktive Parameter für das 30B-Modell, 22B für die 235B-Variante), eine Technik, die für die Recheneffizienz entwickelt wurde und möglicherweise durch US-Sanktionen, die den Zugriff auf Hochleistungs-Chips einschränken, ausgelöst werden. Das Flaggschiff 235b-Modell wird behauptet, mit den OpenAI-O3-Mini-Modellen und dem Google-Gemini 2.5 Pro für spezifische Codierung und Mathematik-Benchmarks konkurrieren. QWEN2.5-72B-Instruktur. Das öffentlich verfügbare QWEN3-32B wird auch behauptet, das O1-Modell von OpenAI für Codierungstests wie LiveCodeBench zu übertreffen. Diese Ansprüche folgen früheren Berichten, in denen Alibaba sein QWEN 2,5-Max-Modell gegen Deepseek v3 bewertet hat. src=”https://winbuzzer.com/wp-content/uploads/2025/04/Alibaba-Qwen3-benchmarks-vs-Gemma3-DeepSeek-V3-GPT-4o-1024×576.jpg”>

Training, Architecture, and Usage

The models were pre-trained on a Der Datensatz berichtete über 36 Billionen Token, wobei Webtext, Code, Text aus PDFs (unter Verwendung von QWEN2.5-VL) und synthetische Daten über frühere QWEN-Modelle generiert sind, die auf Mathematik und Code spezialisiert sind. Der Prozess nach dem Training umfasste vier Stufen, einschließlich Verstärkungslernen und spezifische Schritte, um das Denken und die nicht denkenden Funktionen zu verschmelzen. Für agentenische Aufgaben unterstützt Qwen3 das Modellkontextprotokoll (MCP), wobei Alibaba seinen qwen-Agent-Framework agent agent agent agent agent agent agent agest ad. Bereitstellungsrahmen wie Sglang und VLLM oder lokale Tools wie Ollama und LMSTUDIO. An fp8-quantisiertes 0.6b-Modell wird für Effizienz angeboten, obwohl potenzielle Anpassungen für bestimmte Rahmenbedingungen wie Vllm erforderlich sind. Alibaba hat auch sein neues Namensschema klargestellt, das”-struktur”aus post-trainierten Modellen entfernt und”-base”zu Basismodellen hinzugefügt. Alibaba behauptet, die Familie Qwen sei das weltweit größte Open-Source-AI-Ökosystem durch Derivatmodelle und zitiert über 100.000 auf dem Umarmungsgesicht. QWEN3 ist bereits in Alibabas Quark AI-Assistent in Alibaba integriert, das im März 2025 chinesische Chatbots in monatlichen aktiven Nutzern führte. Die Veröffentlichung folgt Alibabas früherem Qwen 2.5 (Januar 2025) und QWQ-Modellen von QWQ (FEB/März 2025). Inländischer KI-Markt. Deepseek AI machte mit ihrem effizienten Deepseek V3 (Dez. 2024) und dem potenten Deepseek R1-Argumentationsmodell (Januar 2025) bedeutende Wellen. Seitdem hat Deepseek jedoch eine beträchtliche internationale Prüfung ausgesetzt, einschließlich Datenschutzuntersuchungen in Italien, einer internen Überprüfung von Microsoft und OpenAI über angeblichen unsachgemäßen Datenzugriff und eine kritische Bericht des US-amerikanischen Häuser-Auswahlkomitees und dem National Security-Diagramm und dem nationalen Sicherheitsrisiko und dem Nationalen Sicherheitsrisiko und dem CCP-Diagramm und dem CCP-Diagramm von April 16, 2025) AF) AT AT AF AT AID AF AT AF AF AF AF AF AT AF AF AF AF AF DE CCP-LAGE UND CCP (2025). Spionage-und IP-Diebstahl.

skalieren AI-CEO Alexandr Wang auch Ende Januar, dass”Deepseek etwa 50.000 Nvidia H100 GPUs hat. Sie können nicht darüber sprechen, weil sie gegen die US-Exportkontrollen verstoßen. Die Realität ist, dass sie vor dem vollständigen Sanktion wirksam wurden. In letzter Zeit hat sich Deepseek wie das 3FS-Dateisystem und die Forschung wie selbstgeprägte Kritik-Tuning (SPCT) in Richtung Open-Sourcing-Infrastruktur verlagert, während andere Spieler Deepseeks Open-Source-Daten verwenden, um modifizierte Versionen wie das kürzlich veröffentlichte Deepseek-R1T-Chimera-Modell zu erstellen, das auch auf R1-und V3-Komponenten zusammenfasst. Baidu eskalierte kürzlich den Preiskrieg mit seinen Ernie Turbo-Modellen (25. April 2025) und bietet nach dem Start der fähigen Modelle von Ernie 4,5 und X1 im März erhebliche Kostenreduzierungen und machte seinen Ernie Bot im Februar frei. Die Verwendung von Deekseek-Modellen zur Effizienz. In der Zwischenzeit veröffentlichte Zhipu AI, das teilweise von Alibaba unterstützt wurde, seinen kostenlosen Autoglm-Agenten (März 2025) und verfolgt einen Börsengang. Alibaba selbst integrierte frühere QWEN-Modelle in seinen Quark AI-Assistenten.

Categories: IT Info