อาลีบาบาได้เปิดตัว QWEN3 ซึ่งเป็นตระกูลใหม่ของรุ่นภาษาขนาดใหญ่ที่มีจุดประสงค์เพื่อแข่งขันกับข้อเสนอ AI ชั้นนำจาก OpenAI และ Google ผ่านคุณสมบัติที่โดดเด่นเช่นโหมด”Hybrid Thinking”และการสนับสนุนหลายภาษา ในการย้ายที่สอดคล้องกับการเปิดตัวโอเพ่นซอร์สก่อนหน้านี้เช่น WAN 2.1 ยักษ์ใหญ่ด้านเทคโนโลยีจีนทำโมเดลส่วนใหญ่ในซีรี่ส์ QWEN3 ที่มีอยู่ภายใต้ใบอนุญาต Apache 2.0 ผ่านแพลตฟอร์มรวมถึง github , kaggle .
การคิดแบบไฮบริด”โหมดการคิด”เริ่มต้นอนุญาตให้โมเดลดำเนินการตามขั้นตอนการใช้งานทีละขั้นตอนสำหรับงานที่ซับซ้อนเช่นคณิตศาสตร์หรือการเข้ารหัสซึ่งมักจะส่งออกขั้นตอนกลางเหล่านี้ภายในแท็กก่อนการตอบสนองสุดท้าย
ในทางกลับกัน นักพัฒนาสามารถสลับพฤติกรรมนี้โดยใช้พารามิเตอร์ enable_thinking หรือแท็กเฉพาะ/คิดและ/no_think ภายในพรอมต์ การประกาศของทีม qwen เน้นความยืดหยุ่นนี้:”การออกแบบนี้ช่วยให้ผู้ใช้สามารถกำหนดค่างบประมาณที่เฉพาะเจาะจงมากขึ้น ความสูง=”576″src=”ข้อมูล: image/svg+xml; nitro-empy-id=mty2otoxnje4-1; base64, phn2zyb2awv3qm94psiwidagmtaynca1nz yiihdpzhropsixmdi0iibozwlnahq9iju3niigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>>
เอกสารแนวทางปฏิบัติที่ดีที่สุดใน การกอดการ์ดหน้าสำหรับ qwen3-0.6b-fp8 นอกจากนี้ยังสนับสนุน 119 ภาษาและภาษาถิ่นโดยมีจุดประสงค์สำหรับการเรียนการสอนหลายภาษาที่มีประสิทธิภาพต่อไปนี้ แบบจำลองจัดการความยาวบริบทที่หลากหลาย รุ่นที่เล็กกว่าเช่นตัวแปร 0.6B มีหน้าต่างโทเค็น 32K ดั้งเดิมในขณะที่โมเดลขนาดใหญ่สามารถรองรับโทเค็นได้สูงถึง 128K หรือ 131K ผ่านเทคนิคต่าง ๆ เช่นการปรับขนาดเส้นด้าย
การอ้างประสิทธิภาพและรุ่นที่สอง รุ่นผสมของ Experts (MOE): QWEN3-30B-A3B และเรือธง QWEN3-235B-A22B (ซึ่งยังไม่สามารถดาวน์โหลดได้) โมเดล MOE เหล่านี้ใช้ผู้เชี่ยวชาญทั้งหมด 128 คน แต่เปิดใช้งาน 8 โทเค็น (ประมาณ 3B พารามิเตอร์ที่ใช้งานอยู่สำหรับรุ่น 30B, 22B สำหรับตัวแปร 235B) ซึ่งเป็นเทคนิคที่ออกแบบมาสำหรับประสิทธิภาพการคำนวณ โมเดลเรือธง 235B อ้างว่าเป็นรุ่นของคู่แข่งเช่น O3AI ของ Openai และ Gemini 2.5 Pro ของ OpenAI ในการเข้ารหัสและเกณฑ์มาตรฐานทางคณิตศาสตร์ที่เฉพาะเจาะจง
ทีม Qwen ระบุว่ารุ่น QWEN3-30B-A3B ของพวกเขา QWEN2.5-72B-Instruct QWEN3-32B ที่เปิดเผยต่อสาธารณะนั้นอ้างว่าเหนือกว่าโมเดล O1 ของ OpenAI ในการทดสอบการเข้ารหัสเช่น LiveCodeBench การเรียกร้องเหล่านี้ติดตามรายงานก่อนหน้านี้ที่อาลีบาบาเปรียบเทียบโมเดล Qwen 2.5-max ที่ดีกับ Deepseek V3.
>
การฝึกอบรมสถาปัตยกรรมและการใช้งาน
รุ่นได้รับการฝึกอบรมล่วงหน้าบนชุดข้อมูลที่รายงานว่ามีโทเค็นประมาณ 36 ล้านล้านโทเค็นรวมข้อความเว็บรหัสข้อความที่สกัดจาก PDFs (โดยใช้คณิตศาสตร์ QWEN2.5-VL) กระบวนการโพสต์การฝึกอบรมเกี่ยวข้องกับสี่ขั้นตอนรวมถึงการเรียนรู้การเสริมแรงและขั้นตอนเฉพาะเพื่อหลอมรวมความคิดและความสามารถที่ไม่คิด สำหรับงานตัวแทน QWEN3 รองรับโปรโตคอลบริบทแบบจำลอง (MCP) โดย Alibaba แนะนำ qwen แนะนำ) กรอบการปรับใช้เช่น Sglang และ Vllm หรือเครื่องมือในท้องถิ่นเช่น Ollama และ Lmstudio fp8-quantized 0.6b รุ่น มีประสิทธิภาพ อาลีบาบายังชี้แจงรูปแบบการตั้งชื่อใหม่โดยลบ“-Instruct” ออกจากโมเดลที่ผ่านการฝึกอบรมหลังการฝึกอบรมและเพิ่ม“-Base” ลงในโมเดลพื้นฐาน
QWEN3 เข้าสู่ภูมิทัศน์ AI แบบไดนามิก อาลีบาบาอ้างว่าตระกูล Qwen ถือเป็นระบบนิเวศ AI โอเพ่นซอร์สที่ใหญ่ที่สุดในโลกโดยโมเดลอนุพันธ์โดยอ้างถึงมากกว่า 100,000 คนในการกอดใบหน้า QWEN3 ได้ถูกรวมเข้ากับผู้ช่วย Quark AI ของอาลีบาบาซึ่งนำไปสู่การแชทชาวจีนในผู้ใช้รายเดือนในเดือนมีนาคม 2568 การเปิดตัวดังต่อไปนี้ Qwen 2.5 ก่อนหน้านี้ของอาลีบาบา (มกราคม 2568) และ QWQ (ก.พ./มีนาคม 2025) ตลาด AI ในประเทศที่แข่งขันได้ Deepseek AI สร้างคลื่นที่สำคัญด้วย Deepseek V3 ที่มีประสิทธิภาพ (ธ.ค. 2024) และรูปแบบการใช้เหตุผล R1 Deepseek ที่มีศักยภาพ (ม.ค. 2025) อย่างไรก็ตาม Deepseek ได้เผชิญกับการตรวจสอบระหว่างประเทศอย่างมากรวมถึงการตรวจสอบความเป็นส่วนตัวของข้อมูลในอิตาลีการตรวจสอบภายในโดย Microsoft และ OpenAI เกี่ยวกับการเข้าถึงข้อมูลที่ไม่เหมาะสมที่ถูกกล่าวหา href=”https://selectcommitteeonthecccp.house.gov/media/press-releases/moolenaar-krishnamoorthi-unveil-explosive-report-chinese-ai-firmseek”ความเสี่ยง”การจารกรรมและการขโมย IP
สเกลซีอีโอ AI Alexandr Wang ยังอ้างว่าในช่วงปลายเดือนมกราคมว่า“ Deepseek มีประมาณ 50,000 Nvidia H100 GPUs พวกเขาไม่สามารถพูดคุยเกี่ยวกับเรื่องนี้ได้ เมื่อเร็ว ๆ นี้ Deepseek ได้เปลี่ยนไปสู่โครงสร้างพื้นฐานแบบเปิดโล่งเช่นระบบไฟล์ 3FS และการวิจัยเช่นการวิพากษ์วิจารณ์การปรับแต่ง (SPCT) ในขณะที่ผู้เล่นคนอื่น ๆ ใช้ข้อมูลโอเพนซอร์ซของ Deepseek เพื่อสร้างรุ่นที่ได้รับการดัดแปลง เมื่อไม่นานมานี้ Baidu ได้เพิ่มราคาสงครามด้วยเออร์นี่เทอร์โบ (25 เมษายน 2568) เสนอการลดต้นทุนอย่างมีนัยสำคัญหลังจากเปิดตัวโมเดล Ernie 4.5 และ X1 ที่มีความสามารถในเดือนมีนาคมและทำให้ Ernie Bot ฟรีในเดือนกุมภาพันธ์ ยืนยันการใช้แบบจำลอง Deepseek เพื่อประสิทธิภาพ ในขณะเดียวกัน Zhipu AI ได้รับการสนับสนุนบางส่วนโดย Alibaba เปิดตัว Autoglm Agent ฟรี (มีนาคม 2025) และกำลังดำเนินการเสนอขายหุ้น IPO อาลีบาบาเองรวมรุ่น Qwen ก่อนหน้านี้เข้ากับผู้ช่วย Quark AI
ทีม Qwen ระบุว่ารุ่น QWEN3-30B-A3B ของพวกเขา QWEN2.5-72B-Instruct QWEN3-32B ที่เปิดเผยต่อสาธารณะนั้นอ้างว่าเหนือกว่าโมเดล O1 ของ OpenAI ในการทดสอบการเข้ารหัสเช่น LiveCodeBench การเรียกร้องเหล่านี้ติดตามรายงานก่อนหน้านี้ที่อาลีบาบาเปรียบเทียบโมเดล Qwen 2.5-max ที่ดีกับ Deepseek V3.
>
การฝึกอบรมสถาปัตยกรรมและการใช้งาน
รุ่นได้รับการฝึกอบรมล่วงหน้าบนชุดข้อมูลที่รายงานว่ามีโทเค็นประมาณ 36 ล้านล้านโทเค็นรวมข้อความเว็บรหัสข้อความที่สกัดจาก PDFs (โดยใช้คณิตศาสตร์ QWEN2.5-VL) กระบวนการโพสต์การฝึกอบรมเกี่ยวข้องกับสี่ขั้นตอนรวมถึงการเรียนรู้การเสริมแรงและขั้นตอนเฉพาะเพื่อหลอมรวมความคิดและความสามารถที่ไม่คิด สำหรับงานตัวแทน QWEN3 รองรับโปรโตคอลบริบทแบบจำลอง (MCP) โดย Alibaba แนะนำ qwen แนะนำ) กรอบการปรับใช้เช่น Sglang และ Vllm หรือเครื่องมือในท้องถิ่นเช่น Ollama และ Lmstudio fp8-quantized 0.6b รุ่น มีประสิทธิภาพ อาลีบาบายังชี้แจงรูปแบบการตั้งชื่อใหม่โดยลบ“-Instruct” ออกจากโมเดลที่ผ่านการฝึกอบรมหลังการฝึกอบรมและเพิ่ม“-Base” ลงในโมเดลพื้นฐาน
QWEN3 เข้าสู่ภูมิทัศน์ AI แบบไดนามิก อาลีบาบาอ้างว่าตระกูล Qwen ถือเป็นระบบนิเวศ AI โอเพ่นซอร์สที่ใหญ่ที่สุดในโลกโดยโมเดลอนุพันธ์โดยอ้างถึงมากกว่า 100,000 คนในการกอดใบหน้า QWEN3 ได้ถูกรวมเข้ากับผู้ช่วย Quark AI ของอาลีบาบาซึ่งนำไปสู่การแชทชาวจีนในผู้ใช้รายเดือนในเดือนมีนาคม 2568 การเปิดตัวดังต่อไปนี้ Qwen 2.5 ก่อนหน้านี้ของอาลีบาบา (มกราคม 2568) และ QWQ (ก.พ./มีนาคม 2025) ตลาด AI ในประเทศที่แข่งขันได้ Deepseek AI สร้างคลื่นที่สำคัญด้วย Deepseek V3 ที่มีประสิทธิภาพ (ธ.ค. 2024) และรูปแบบการใช้เหตุผล R1 Deepseek ที่มีศักยภาพ (ม.ค. 2025) อย่างไรก็ตาม Deepseek ได้เผชิญกับการตรวจสอบระหว่างประเทศอย่างมากรวมถึงการตรวจสอบความเป็นส่วนตัวของข้อมูลในอิตาลีการตรวจสอบภายในโดย Microsoft และ OpenAI เกี่ยวกับการเข้าถึงข้อมูลที่ไม่เหมาะสมที่ถูกกล่าวหา href=”https://selectcommitteeonthecccp.house.gov/media/press-releases/moolenaar-krishnamoorthi-unveil-explosive-report-chinese-ai-firmseek”ความเสี่ยง”การจารกรรมและการขโมย IP
สเกลซีอีโอ AI Alexandr Wang ยังอ้างว่าในช่วงปลายเดือนมกราคมว่า“ Deepseek มีประมาณ 50,000 Nvidia H100 GPUs พวกเขาไม่สามารถพูดคุยเกี่ยวกับเรื่องนี้ได้ เมื่อเร็ว ๆ นี้ Deepseek ได้เปลี่ยนไปสู่โครงสร้างพื้นฐานแบบเปิดโล่งเช่นระบบไฟล์ 3FS และการวิจัยเช่นการวิพากษ์วิจารณ์การปรับแต่ง (SPCT) ในขณะที่ผู้เล่นคนอื่น ๆ ใช้ข้อมูลโอเพนซอร์ซของ Deepseek เพื่อสร้างรุ่นที่ได้รับการดัดแปลง เมื่อไม่นานมานี้ Baidu ได้เพิ่มราคาสงครามด้วยเออร์นี่เทอร์โบ (25 เมษายน 2568) เสนอการลดต้นทุนอย่างมีนัยสำคัญหลังจากเปิดตัวโมเดล Ernie 4.5 และ X1 ที่มีความสามารถในเดือนมีนาคมและทำให้ Ernie Bot ฟรีในเดือนกุมภาพันธ์ ยืนยันการใช้แบบจำลอง Deepseek เพื่อประสิทธิภาพ ในขณะเดียวกัน Zhipu AI ได้รับการสนับสนุนบางส่วนโดย Alibaba เปิดตัว Autoglm Agent ฟรี (มีนาคม 2025) และกำลังดำเนินการเสนอขายหุ้น IPO อาลีบาบาเองรวมรุ่น Qwen ก่อนหน้านี้เข้ากับผู้ช่วย Quark AI