ทีม Qwen ของ Alibaba ได้เปิดตัว QWEN3-VL ซึ่งเป็นซีรีย์รุ่นวิสัยทัศน์ที่ทรงพลังที่สุดจนถึงปัจจุบัน

วางจำหน่ายเมื่อวันที่ 23 กันยายนเรือธงเป็นรุ่นใหญ่ 235 พันล้านพารามิเตอร์ทำให้นักพัฒนาทั่วโลกมีให้บริการอย่างอิสระ ขนาดใหญ่ (471 GB) ทำให้เป็นเครื่องมือสำหรับทีมที่ได้รับทรัพยากรที่ดี

AI โอเพนซอร์ซท้าทายระบบปิดด้านบนโดยตรงเช่น Gemini 2.5 Pro ของ Google พร้อมทักษะใหม่ขั้นสูง

ที่มีอยู่ อ้างว่าประสิทธิภาพของมันเป็นสิ่งที่ล้ำสมัย “ เวอร์ชันคำแนะนำนั้นตรงกับหรือเกินกว่า Gemini 2.5 Pro ในเกณฑ์มาตรฐานการรับรู้ภาพที่สำคัญเวอร์ชันการคิดได้รับผลลัพธ์ที่ทันสมัยในการกำหนดมาตรฐานการใช้เหตุผลหลายรูปแบบ” ทีมงานกล่าวในการประกาศ

จากการรับรู้ถึงการกระทำ href=”https://qwen.ai/blog?id=99f0335c4ad9ff6153e517418d48535ab6d8afef&from=research.latest-advance-list-list”เป้าหมาย=”_ ว่างเปล่า”คุณลักษณะนี้เคลื่อนที่เกินกว่าการจดจำภาพที่เรียบง่ายช่วยให้โมเดลใช้งานคอมพิวเตอร์และกราฟิกผู้ใช้กราฟิกมือถือ (GUIs)

สามารถรับรู้องค์ประกอบบนหน้าจอเข้าใจฟังก์ชั่นของพวกเขาและดำเนินการงานอิสระ

สิ่งนี้แปลงรูปแบบ แอปพลิเคชันที่มีศักยภาพมีตั้งแต่งานซอฟต์แวร์ซ้ำ ๆ ซ้ำ ๆ และช่วยเหลือผู้ใช้ที่มีเวิร์กโฟลว์ที่ซับซ้อนไปจนถึงการสร้างเครื่องมือการเข้าถึงที่ใช้งานง่ายมากขึ้นสำหรับการนำทางแอปพลิเคชัน

ยูทิลิตี้ที่ใช้งานได้จริงของโมเดลได้รับการปรับปรุงเพิ่มเติมโดยหน้าต่างบริบทขนาดใหญ่ รองรับ 256,000 โทเค็นซึ่งขยายได้มากถึงหนึ่งล้าน

สิ่งนี้ช่วยให้ผู้ใช้สามารถป้อนฟิล์มความยาวฟีเจอร์ทั้งหมดแล้วถามคำถามเฉพาะเกี่ยวกับจุดพล็อตหรือการปรากฏตัวของตัวละคร ความสามารถได้รับการขับเคลื่อนโดยการยกเครื่องสถาปัตยกรรมที่สำคัญที่ออกแบบมาเพื่อผลักดันขอบเขตของความเข้าใจด้านภาพและทางโลก

ทีม Qwen แนะนำการอัปเดตหลักสามครั้งเพื่อเพิ่มประสิทธิภาพโดยเฉพาะอย่างยิ่งกับวิดีโอรูปแบบยาวและรายละเอียดภาพที่ละเอียด กระดาษ .

ก่อนอื่นรูปแบบใช้“ interleaved-mrope” วิธีการเข้ารหัสตำแหน่งที่แข็งแกร่งยิ่งขึ้น สิ่งนี้แทนที่วิธีการก่อนหน้านี้ที่ข้อมูลทางโลกมีความเข้มข้นในมิติความถี่สูง เทคนิคใหม่นี้กระจายเวลาความสูงและความกว้างของข้อมูลในทุกความถี่ปรับปรุงความเข้าใจในระยะยาวอย่างมีนัยสำคัญในขณะที่ยังคงความเข้าใจของภาพ

วินาทีการแนะนำเทคโนโลยี”DeepStack”ช่วยเพิ่มรายละเอียดการมองเห็น แทนที่จะฉีดโทเค็นภาพเป็นเลเยอร์เดียวของโมเดลภาษา Deepstack ฉีดผ่านหลายเลเยอร์ สิ่งนี้ช่วยให้การหลอมรวมของคุณสมบัติหลายระดับจาก Vision Transformer (VIT) ทำให้ความแม่นยำของการจัดเรียงภาพข้อความของโมเดลคมชัดขึ้น

ในที่สุดทีมก็อัพเกรดการสร้างแบบจำลองวิดีโอจาก T-Rope เป็นกลไกการจัดตำแหน่ง ระบบนี้ใช้รูปแบบอินพุต interleaved ของการประทับเวลาและเฟรมวิดีโอทำให้การจัดตำแหน่งระดับเฟรมที่แม่นยำระหว่างข้อมูลชั่วคราวและเนื้อหาภาพ สิ่งนี้ช่วยเพิ่มความสามารถของโมเดลในการ จำกัด เหตุการณ์และการกระทำภายในลำดับวิดีโอที่ซับซ้อน

รุ่นนี้เป็นล่าสุดในการรุก AI ที่รวดเร็วและไตร่ตรองจากอาลีบาบา บริษัท เพิ่งเปิดตัวโมเดลโอเพนซอร์ซที่ทรงพลังสำหรับการให้เหตุผลขั้นสูงและการสร้างภาพความเที่ยงตรงสูง การย้ายครั้งนี้ยังช่วยเสริมความแข็งแกร่งเชิงกลยุทธ์ให้ห่างจากโหมด’การคิดแบบไฮบริด’ของโมเดลก่อนหน้านี้ซึ่งจำเป็นต้องมีนักพัฒนาซอฟต์แวร์เพื่อสลับระหว่างโหมด

การเปลี่ยนไปเป็นแบบจำลองที่แยกจากกันสำหรับการเรียนการสอนและการให้เหตุผลเชิงลึก กลเม็ดโอเพนซอร์ซในสาขาพิเศษ

QWEN3-VL เข้าสู่สนามแข่งขันที่มีการหมุนตัวออกไปจากสเกล”เสาหินคือทั้งหมดที่คุณต้องการ”Dominance.

ตัวเลือกเชิงกลยุทธ์นี้วาง QWEN3-VL ภายในสาขาเครื่องมือพิเศษที่หลากหลาย ฟิลด์มีความหลากหลายอย่างรวดเร็วด้วยแบบจำลองเช่น Florence-2 ของ Microsoft ยังใช้วิธีการแบบครบวงจรและเป็นไปตามความพร้อมในการจัดการงานการมองเห็นที่หลากหลายเช่นคำบรรยายภาพและการตรวจจับวัตถุภายในสถาปัตยกรรมเดียวที่มีความเหนียว โมเดลที่มีน้ำหนักเบานี้ได้รับการปรับให้เหมาะสมสำหรับการตรวจจับวัตถุบนอุปกรณ์ขอบจัดลำดับความสำคัญของเวลาแฝงต่ำและการตอบสนองต่อการใช้เหตุผลเชิงตีความของระบบขนาดใหญ่

มันบรรลุผลได้โดยการปรับปรุงสถาปัตยกรรม DETR ที่ซับซ้อนสำหรับการใช้งานจริง ยกตัวอย่างเช่นวิสัยทัศน์ AYA ของ Cohere เป็นรูปแบบเปิดน้ำหนักที่ออกแบบมาโดยเฉพาะเพื่อพัฒนาการวิจัยหลายภาษาและหลายรูปแบบโดยเน้นการมุ่งเน้นไปที่การเสริมสร้างศักยภาพทางวิชาการและการเข้าถึงโครงการ

บางทีความท้าทายที่รุนแรงที่สุดสำหรับกระบวนทัศน์การปรับขนาด เมื่อเร็ว ๆ นี้นักวิจัยได้เปิดตัวเครือข่ายประสาททั้งหมด (All-TNN) แบบจำลองที่เลียนแบบโครงสร้างสมองของมนุษย์เพื่อประสิทธิภาพการใช้พลังงานที่เหนือกว่า

มันหลีกเลี่ยง”การแบ่งปันน้ำหนัก”ทั่วไปใน AI ทั่วไป Coauthor Zejin Lu อธิบายแนวคิด:“ สำหรับมนุษย์เมื่อคุณตรวจพบวัตถุบางอย่างพวกเขามีตำแหน่งทั่วไปคุณรู้อยู่แล้วว่ารองเท้ามักจะอยู่ที่ด้านล่างบนพื้นดินเครื่องบินมันอยู่ด้านบน”

แบบจำลองได้เรียนรู้กฎบริบทเหล่านี้ href=”https://en.wikipedia.org/wiki/convolutional_neural_network”เป้าหมาย=”_ blank”> เครือข่ายประสาท (CNN)

พฤติกรรมที่เหมือนมนุษย์ สิ่งนี้ทำให้เป็นทางเลือกที่น่าสนใจสำหรับอุปกรณ์ขอบพลังงานต่ำซึ่งมีประสิทธิภาพเป็นสิ่งสำคัญยิ่งพิสูจน์ได้ว่าการออกแบบที่สง่างามสามารถมีประสิทธิภาพมากกว่าการคำนวณกำลังเดรัจฉาน

โดยการปล่อยโมเดลวิสัยทัศน์ที่ทรงพลังเปิดกว้างและพิเศษ

Categories: IT Info