Alibaba ยักษ์ใหญ่ด้านเทคโนโลยีของจีนได้เพิ่มการแข่งขันสร้างภาพ AI การปล่อยโมเดลโอเพนซอร์ซใหม่ที่ทรงพลังเมื่อวันที่ 4 สิงหาคมที่ยอดเยี่ยมในหนึ่งในความท้าทายที่ยากที่สุดสำหรับ AI: การแสดงข้อความ
ที่มีอยู่ทั่วโลก
เปิดตัวภายใต้ใบอนุญาต Apache 2.0 ที่ได้รับอนุญาตโมเดลท้าทายระบบตะวันตกที่เป็นกรรมสิทธิ์โดยตรงจาก Google และ OpenAI มันมีจุดมุ่งหมายเพื่อให้นักพัฒนามีทางเลือกที่มีประสิทธิภาพและมีประสิทธิภาพซึ่งรวมข้อความที่สลับซับซ้อนเข้ากับการสร้างภาพซึ่งเป็นอุปสรรค์ที่ยาวนานสำหรับรุ่นกำเนิด
ที่แกนกลางของมัน ในการตีความการแจ้งเตือนของผู้ใช้ที่ซับซ้อนมันใช้ประโยชน์จากรูปแบบการมองเห็นภาษา Vewen2.5-VISION VISION VISION เป็นตัวเลือกสภาพทางเลือกการออกแบบที่ใช้ประโยชน์จากโมเดลที่เชี่ยวชาญในการจัดแนวภาษาและข้อมูลภาพ
สถาปัตยกรรมที่ทรงพลังนี้ได้รับการสนับสนุน แบบจำลองได้รับการฝึกฝนโดยใช้วิธีการ”การเรียนรู้หลักสูตร”โดยเริ่มจากการแสดงผลแบบไม่ใช้ข้อความขั้นพื้นฐานก่อนที่จะค่อยๆปรับขนาดเพื่อจัดการคำอธิบายที่ซับซ้อนระดับย่อหน้า
วิธีนี้มีความสำคัญต่อการเพิ่มความสามารถในการแสดงข้อความดั้งเดิมโดยเฉพาะอย่างยิ่งสำหรับภาษาโลจิคัลเช่นภาษาจีน เพื่อปรับปรุงการจัดการของตัวละครที่หายากและแบบอักษรที่หลากหลายทีมได้พัฒนาไปป์ไลน์การสังเคราะห์ข้อมูลหลายขั้นตอนเพื่อสร้างภาพการฝึกอบรมที่มีคุณภาพสูงและมีคุณภาพสูง
นวัตกรรมที่สำคัญสำหรับการแก้ไขภาพเป็นกลไกการเข้ารหัสแบบคู่ของแบบจำลอง เพื่อทำการเปลี่ยนแปลงระบบจะประมวลผลภาพอินพุตในสองวิธี: QWEN2.5-VL สารสกัดคุณสมบัติความหมายระดับสูงในขณะที่ตัวแปร AutoEncoder (VAE) จะจับรายละเอียดการสร้างระดับต่ำตามรายละเอียดใน รายงานทางเทคนิคอย่างเป็นทางการ VAE นั้นได้รับการปรับแต่งเป็นพิเศษในคลังข้อมูลของเอกสารหนัก ๆ เช่น PDFs และโปสเตอร์เพื่อเพิ่มรายละเอียดที่ละเอียดและข้อความเล็ก ๆ
สำหรับเกณฑ์มาตรฐานสาธารณะวิธีการที่ซับซ้อนนี้ได้สร้างภาพ Qwen-Image มันเก่งในการประเมินที่เน้นข้อความเช่น Longtext-Bench และเกณฑ์มาตรฐาน Chineseword ใหม่ซึ่งมีประสิทธิภาพสูงกว่าโมเดลที่มีอยู่โดยสิ่งที่ผู้สร้างเรียกว่า”มาร์จิ้นที่สำคัญ”ประสิทธิภาพนี้วางตำแหน่งในฐานะผู้ท้าชิงโอเพนซอร์ซที่ทรงพลังสำหรับระบบที่เป็นกรรมสิทธิ์ชั้นนำ
นอกเหนือจากข้อความ: เครื่องยนต์สร้างสรรค์ที่หลากหลาย
ในขณะที่การแสดงข้อความเป็นคุณสมบัติที่โดดเด่น Qwen-Image เป็นเครื่องมือที่หลากหลายและทรงพลังสำหรับการสร้างภาพทั่วไป แบบจำลองนี้แสดงให้เห็นถึงประสิทธิภาพข้ามมาตรฐานที่แข็งแกร่งรองรับสไตล์ศิลปะที่หลากหลาย ดังที่แสดงไว้ใน การประกาศอย่างเป็นทางการ มันสามารถปรับให้เข้ากับความคิดสร้างสรรค์ การออกแบบที่ดีขึ้น>
ทีม Qwen แสดงให้เห็นว่าโมเดลสามารถดำเนินการชุดการทำความเข้าใจภาพผ่านการแก้ไขอย่างง่าย เหล่านี้รวมถึงการตรวจจับวัตถุการแบ่งส่วนความหมายการประมาณความลึกและขอบ (Canny) และการสังเคราะห์มุมมองใหม่ โดยการกำหนดกรอบงานการรับรู้เหล่านี้เป็นรูปแบบของการแก้ไขภาพอัจฉริยะอาลีบาบากำลังเชื่อมช่องว่างระหว่าง AI ที่เห็นโลกและ AI ที่สร้างขึ้นได้อย่างมีประสิทธิภาพ
เป็นส่วนหนึ่งของการโจมตีโอเพ่นซอร์สที่กว้างขึ้น
มันเป็นการเคลื่อนไหวครั้งล่าสุดในชุด AI ที่สำคัญอย่างรวดเร็วจากอาลีบาบาส่งสัญญาณกลยุทธ์ที่ครอบคลุมเพื่อสร้างชุดเครื่องมือเปิดเต็มรูปแบบสำหรับนักพัฒนาและครอบงำระบบนิเวศโอเพนซอร์ซ
ในช่วงสัปดาห์ก่อนหน้านี้ สิ่งนี้มาพร้อมกับรูปแบบการเข้ารหัสตัวแทนที่ทรงพลัง QWEN3-CODER.
หมุนเชิงกลยุทธ์นี้ได้รับการเน้นย้ำโดยแถลงการณ์จาก Alibaba Cloud ซึ่งอธิบายการตัดสินใจที่จะละทิ้งโหมด”การคิดแบบไฮบริด”ของโมเดลก่อนหน้านี้ โฆษกกล่าวว่า“ หลังจากพูดคุยกับชุมชนและไตร่ตรองเรื่องนี้เราได้ตัดสินใจที่จะละทิ้งโหมดการคิดแบบไฮบริดตอนนี้เราจะฝึกอบรมแบบจำลองการสอนและการคิดแยกต่างหากเพื่อให้ได้คุณภาพที่ดีที่สุดเท่าที่จะเป็นไปได้ การเปิดตัวนั้นแนะนำสถาปัตยกรรมผสมผสานขั้นสูง (MOE) เพื่อปรับปรุงคุณภาพและประสิทธิภาพของวิดีโอ
การนำทางภูมิทัศน์ AI ที่เป็นที่ถกเถียงกันมา
การผลักดันก้าวร้าวนี้ เมื่อไม่กี่สัปดาห์ที่ผ่านมาการศึกษาที่ถูกกล่าวหาว่าโมเดล QWEN2.5 รุ่นเก่าของอาลีบาบาได้“ โกง” ในการทดสอบคณิตศาสตร์คีย์โดยการจดจำคำตอบจากข้อมูลการฝึกอบรมที่ปนเปื้อน
การโต้เถียงเน้นถึงปัญหาระบบ“ การสอนสู่การทดสอบ” ในการแข่งขัน ในฐานะนักยุทธศาสตร์ AI Nate Jones กล่าวว่า“ ช่วงเวลาที่เราตั้งค่าการปกครองลีดเดอร์เป็นเป้าหมายเราเสี่ยงต่อการสร้างแบบจำลองที่ยอดเยี่ยมในการออกกำลังกายเล็กน้อยและดิ้นรนเมื่อเผชิญกับความเป็นจริง” ความรู้สึกนี้สะท้อนโดยผู้เชี่ยวชาญเช่น Sara Hooker หัวหน้าห้องปฏิบัติการ Cohere ซึ่งเป็นที่ถกเถียงกันอยู่ว่า“ เมื่อลีดเดอร์บอร์ดมีความสำคัญต่อระบบนิเวศทั้งหมดแรงจูงใจจะได้รับการจัดตำแหน่งให้เป็น gamed”
โดยการมุ่งเน้นไปที่ความสามารถที่เป็นรูปธรรม href=”https://huggingface.co/qwen/qwen-image”target=”_ blank”> ยูทิลิตี้โลกแห่งความเป็นจริงและนวัตกรรมเปิด .
กลยุทธ์การให้ทางเลือกที่ทรงพลัง มันเพิ่มการแข่งขันและสะท้อนให้เห็นถึงการเดิมพันว่าระบบนิเวศแบบเปิดจะส่งเสริมนวัตกรรมที่เร็วขึ้นและการยอมรับที่กว้างขึ้น