Alibaba เปิดตัว QWEN3-VL Open-Source Vision Language Series AI Model Series

ทีม Qwen ของ Alibaba ได้เปิดตัว QWEN3-VL ซึ่งเป็นซีรีย์รุ่นวิสัยทัศน์ที่ทรงพลังที่สุดจนถึงปัจจุบัน

วางจำหน่ายเมื่อวันที่ 23 กันยายนเรือธงเป็นรุ่นใหญ่ 235 พันล้านพารามิเตอร์ทำให้นักพัฒนาทั่วโลกมีให้บริการอย่างอิสระ ขนาดใหญ่ (471 GB) ทำให้เป็นเครื่องมือสำหรับทีมที่ได้รับทรัพยากรที่ดี

AI โอเพนซอร์ซท้าทายระบบปิดด้านบนโดยตรงเช่น Gemini 2.5 Pro ของ Google พร้อมทักษะใหม่ขั้นสูง

ที่มีอยู่ อ้างว่าประสิทธิภาพของมันเป็นสิ่งที่ล้ำสมัย “ เวอร์ชันคำแนะนำนั้นตรงกับหรือเกินกว่า Gemini 2.5 Pro ในเกณฑ์มาตรฐานการรับรู้ภาพที่สำคัญเวอร์ชันการคิดได้รับผลลัพธ์ที่ทันสมัยในการกำหนดมาตรฐานการใช้เหตุผลหลายรูปแบบ” ทีมงานกล่าวในการประกาศ

จากการรับรู้ถึงการกระทำ href=”https://qwen.ai/blog?id=99f0335c4ad9ff6153e517418d48535ab6d8afef&from=research.latest-advance-list-list”เป้าหมาย=”_ ว่างเปล่า”คุณลักษณะนี้เคลื่อนที่เกินกว่าการจดจำภาพที่เรียบง่ายช่วยให้โมเดลใช้งานคอมพิวเตอร์และกราฟิกผู้ใช้กราฟิกมือถือ (GUIs)

สามารถรับรู้องค์ประกอบบนหน้าจอเข้าใจฟังก์ชั่นของพวกเขาและดำเนินการงานอิสระ

สิ่งนี้แปลงรูปแบบ แอปพลิเคชันที่มีศักยภาพมีตั้งแต่งานซอฟต์แวร์ซ้ำ ๆ ซ้ำ ๆ และช่วยเหลือผู้ใช้ที่มีเวิร์กโฟลว์ที่ซับซ้อนไปจนถึงการสร้างเครื่องมือการเข้าถึงที่ใช้งานง่ายมากขึ้นสำหรับการนำทางแอปพลิเคชัน

ยูทิลิตี้ที่ใช้งานได้จริงของโมเดลได้รับการปรับปรุงเพิ่มเติมโดยหน้าต่างบริบทขนาดใหญ่ รองรับ 256,000 โทเค็นซึ่งขยายได้มากถึงหนึ่งล้าน

สิ่งนี้ช่วยให้ผู้ใช้สามารถป้อนฟิล์มความยาวฟีเจอร์ทั้งหมดแล้วถามคำถามเฉพาะเกี่ยวกับจุดพล็อตหรือการปรากฏตัวของตัวละคร ความสามารถได้รับการขับเคลื่อนโดยการยกเครื่องสถาปัตยกรรมที่สำคัญที่ออกแบบมาเพื่อผลักดันขอบเขตของความเข้าใจด้านภาพและทางโลก

ทีม Qwen แนะนำการอัปเดตหลักสามครั้งเพื่อเพิ่มประสิทธิภาพโดยเฉพาะอย่างยิ่งกับวิดีโอรูปแบบยาวและรายละเอียดภาพที่ละเอียด กระดาษ .

ก่อนอื่นรูปแบบใช้“ interleaved-mrope” วิธีการเข้ารหัสตำแหน่งที่แข็งแกร่งยิ่งขึ้น สิ่งนี้แทนที่วิธีการก่อนหน้านี้ที่ข้อมูลทางโลกมีความเข้มข้นในมิติความถี่สูง เทคนิคใหม่นี้กระจายเวลาความสูงและความกว้างของข้อมูลในทุกความถี่ปรับปรุงความเข้าใจในระยะยาวอย่างมีนัยสำคัญในขณะที่ยังคงความเข้าใจของภาพ

วินาทีการแนะนำเทคโนโลยี”DeepStack”ช่วยเพิ่มรายละเอียดการมองเห็น แทนที่จะฉีดโทเค็นภาพเป็นเลเยอร์เดียวของโมเดลภาษา Deepstack ฉีดผ่านหลายเลเยอร์ สิ่งนี้ช่วยให้การหลอมรวมของคุณสมบัติหลายระดับจาก Vision Transformer (VIT) ทำให้ความแม่นยำของการจัดเรียงภาพข้อความของโมเดลคมชัดขึ้น

ในที่สุดทีมก็อัพเกรดการสร้างแบบจำลองวิดีโอจาก T-Rope เป็นกลไกการจัดตำแหน่ง ระบบนี้ใช้รูปแบบอินพุต interleaved ของการประทับเวลาและเฟรมวิดีโอทำให้การจัดตำแหน่งระดับเฟรมที่แม่นยำระหว่างข้อมูลชั่วคราวและเนื้อหาภาพ สิ่งนี้ช่วยเพิ่มความสามารถของโมเดลในการ จำกัด เหตุการณ์และการกระทำภายในลำดับวิดีโอที่ซับซ้อน

รุ่นนี้เป็นล่าสุดในการรุก AI ที่รวดเร็วและไตร่ตรองจากอาลีบาบา บริษัท เพิ่งเปิดตัวโมเดลโอเพนซอร์ซที่ทรงพลังสำหรับการให้เหตุผลขั้นสูงและการสร้างภาพความเที่ยงตรงสูง การย้ายครั้งนี้ยังช่วยเสริมความแข็งแกร่งเชิงกลยุทธ์ให้ห่างจากโหมด’การคิดแบบไฮบริด’ของโมเดลก่อนหน้านี้ซึ่งจำเป็นต้องมีนักพัฒนาซอฟต์แวร์เพื่อสลับระหว่างโหมด

การเปลี่ยนไปเป็นแบบจำลองที่แยกจากกันสำหรับการเรียนการสอนและการให้เหตุผลเชิงลึก กลเม็ดโอเพนซอร์ซในสาขาพิเศษ

QWEN3-VL เข้าสู่สนามแข่งขันที่มีการหมุนตัวออกไปจากสเกล”เสาหินคือทั้งหมดที่คุณต้องการ”Dominance.

ตัวเลือกเชิงกลยุทธ์นี้วาง QWEN3-VL ภายในสาขาเครื่องมือพิเศษที่หลากหลาย ฟิลด์มีความหลากหลายอย่างรวดเร็วด้วยแบบจำลองเช่น Florence-2 ของ Microsoft ยังใช้วิธีการแบบครบวงจรและเป็นไปตามความพร้อมในการจัดการงานการมองเห็นที่หลากหลายเช่นคำบรรยายภาพและการตรวจจับวัตถุภายในสถาปัตยกรรมเดียวที่มีความเหนียว โมเดลที่มีน้ำหนักเบานี้ได้รับการปรับให้เหมาะสมสำหรับการตรวจจับวัตถุบนอุปกรณ์ขอบจัดลำดับความสำคัญของเวลาแฝงต่ำและการตอบสนองต่อการใช้เหตุผลเชิงตีความของระบบขนาดใหญ่

มันบรรลุผลได้โดยการปรับปรุงสถาปัตยกรรม DETR ที่ซับซ้อนสำหรับการใช้งานจริง ยกตัวอย่างเช่นวิสัยทัศน์ AYA ของ Cohere เป็นรูปแบบเปิดน้ำหนักที่ออกแบบมาโดยเฉพาะเพื่อพัฒนาการวิจัยหลายภาษาและหลายรูปแบบโดยเน้นการมุ่งเน้นไปที่การเสริมสร้างศักยภาพทางวิชาการและการเข้าถึงโครงการ

บางทีความท้าทายที่รุนแรงที่สุดสำหรับกระบวนทัศน์การปรับขนาด เมื่อเร็ว ๆ นี้นักวิจัยได้เปิดตัวเครือข่ายประสาททั้งหมด (All-TNN) แบบจำลองที่เลียนแบบโครงสร้างสมองของมนุษย์เพื่อประสิทธิภาพการใช้พลังงานที่เหนือกว่า

มันหลีกเลี่ยง”การแบ่งปันน้ำหนัก”ทั่วไปใน AI ทั่วไป Coauthor Zejin Lu อธิบายแนวคิด:“ สำหรับมนุษย์เมื่อคุณตรวจพบวัตถุบางอย่างพวกเขามีตำแหน่งทั่วไปคุณรู้อยู่แล้วว่ารองเท้ามักจะอยู่ที่ด้านล่างบนพื้นดินเครื่องบินมันอยู่ด้านบน”

แบบจำลองได้เรียนรู้กฎบริบทเหล่านี้ href=”https://en.wikipedia.org/wiki/convolutional_neural_network”เป้าหมาย=”_ blank”> เครือข่ายประสาท (CNN)

พฤติกรรมที่เหมือนมนุษย์ สิ่งนี้ทำให้เป็นทางเลือกที่น่าสนใจสำหรับอุปกรณ์ขอบพลังงานต่ำซึ่งมีประสิทธิภาพเป็นสิ่งสำคัญยิ่งพิสูจน์ได้ว่าการออกแบบที่สง่างามสามารถมีประสิทธิภาพมากกว่าการคำนวณกำลังเดรัจฉาน

โดยการปล่อยโมเดลวิสัยทัศน์ที่ทรงพลังเปิดกว้างและพิเศษ

Alibaba เปิดตัว QWEN3-VL Open-Source Vision Language Series AI Model Series

Published by All Things Windows on September 24, 2025

IT Info

Perplexity เปิดตัว AI’ผู้ช่วยอีเมล’เพื่อทำให้ Gmail และ Outlook อัตโนมัติ

IT Info

วิธีลบแอพ Microsoft Store เริ่มต้น (bloatware) ใน Windows 11 โดยใช้นโยบายกลุ่ม

IT Info

WhatsApp เปิดตัวการแปลข้อความบนอุปกรณ์สำหรับผู้ใช้ทั่วโลก

Alibaba เปิดตัว QWEN3-VL Open-Source Vision Language Series AI Model Series

Published by All Things Windows on September 24, 2025

Related Posts

IT Info

Perplexity เปิดตัว AI’ผู้ช่วยอีเมล’เพื่อทำให้ Gmail และ Outlook อัตโนมัติ

IT Info

วิธีลบแอพ Microsoft Store เริ่มต้น (bloatware) ใน Windows 11 โดยใช้นโยบายกลุ่ม

IT Info

WhatsApp เปิดตัวการแปลข้อความบนอุปกรณ์สำหรับผู้ใช้ทั่วโลก