ทีมวิจัย Qwen ของ Alibaba ได้เปิดตัว QVQ-72B ซึ่งเป็นโมเดล AI แบบโอเพ่นซอร์สหลายรูปแบบที่ออกแบบมาเพื่อผสมผสานการใช้เหตุผลด้วยภาพและข้อความ ด้วยความสามารถในการประมวลผลรูปภาพและข้อความทีละขั้นตอน โมเดลนี้นำเสนอแนวทางใหม่ในการแก้ปัญหาที่ท้าทายการครอบงำของระบบที่เป็นกรรมสิทธิ์ เช่น GPT-4 ของ OpenAI
ทีมงาน Qwen ของ Alibaba อธิบาย QVQ-72B ว่าเป็นก้าวสู่เป้าหมายระยะยาวในการสร้าง AI ที่ครอบคลุมมากขึ้นที่มีความสามารถ ในการจัดการกับความท้าทายทางวิทยาศาสตร์และการวิเคราะห์
Alibaba ตั้งเป้าที่จะส่งเสริมความร่วมมือในชุมชน AI ขณะเดียวกันก็พัฒนาการพัฒนาปัญญาประดิษฐ์ทั่วไป (AGI) ให้ก้าวหน้าไปด้วย ด้วยการทำให้โมเดลนี้ใช้งานได้อย่างเปิดเผยภายใต้ใบอนุญาต Qwen QVQ-72B ถือเป็นทั้งเครื่องมือวิจัยและการใช้งานจริง แสดงถึงหลักชัยใหม่ในวิวัฒนาการของ AI ต่อเนื่องหลายรูปแบบ
ภาพและข้อความ การใช้เหตุผล
โมเดล AI หลากหลายรูปแบบ เช่น QVQ-72B ถูกสร้างขึ้นเพื่อวิเคราะห์และรวมอินพุตหลายประเภท ทั้งแบบภาพและข้อความ เข้ากับกระบวนการให้เหตุผลที่สอดคล้องกัน ความสามารถนี้มีประโยชน์อย่างยิ่งสำหรับงานที่ต้องใช้การตีความข้อมูลในรูปแบบที่หลากหลาย เช่น การวิจัยทางวิทยาศาสตร์ การศึกษา และการวิเคราะห์ขั้นสูง
โดยแก่นแท้แล้ว QVQ-72B เป็นส่วนเสริมของ Qwen2-VL-72B ซึ่งเป็นโมเดลภาษาวิสัยทัศน์รุ่นก่อนๆ ของ Alibaba โดยนำเสนอคุณลักษณะการให้เหตุผลขั้นสูงที่ช่วยให้สามารถประมวลผลรูปภาพและข้อความที่เกี่ยวข้องด้วยวิธีการที่มีโครงสร้างและตรรกะ แตกต่างจากระบบโอเพนซอร์สอื่นๆ QVQ-72B ได้รับการออกแบบมาให้โปร่งใสและเข้าถึงได้ โดยให้ซอร์สโค้ดและน้ำหนักโมเดลแก่นักพัฒนาและนักวิจัย
“ลองจินตนาการถึง AI ที่สามารถดูปัญหาทางฟิสิกส์ที่ซับซ้อนได้ และให้เหตุผลอย่างเป็นระบบในการแก้ปัญหาด้วยความมั่นใจของนักฟิสิกส์ระดับปรมาจารย์”ทีม Qwen บรรยายถึงความทะเยอทะยานด้วยโมเดลใหม่ที่จะมีความเป็นเลิศในด้านที่การใช้เหตุผลและความเข้าใจหลายรูปแบบเป็นสิ่งสำคัญ
ประสิทธิภาพและเกณฑ์มาตรฐาน
ประสิทธิภาพของแบบจำลองได้รับการประเมินโดยใช้เกณฑ์มาตรฐานที่เข้มงวดหลายเกณฑ์ โดยแต่ละการทดสอบแง่มุมที่แตกต่างกันของความสามารถในการให้เหตุผลหลายรูปแบบ:
ใน MMMU (มัลติโมดัล Multidisciplinary University) ซึ่งประเมินความสามารถในการปฏิบัติงานในระดับมหาวิทยาลัย โดยผสมผสานการให้เหตุผลตามข้อความและรูปภาพ ทำให้ QVQ-72B ได้คะแนนที่น่าประทับใจถึง 70.3 ซึ่งแซงหน้า Qwen2-VL-72B-Instruct รุ่นก่อน
เกณฑ์มาตรฐาน MathVista ทดสอบความสามารถของโมเดลในการแก้ปัญหาทางคณิตศาสตร์โดยใช้กราฟและอุปกรณ์ช่วยภาพ โดยเน้นจุดแข็งในการวิเคราะห์ ในทำนองเดียวกัน MathVision ซึ่งได้มาจากการแข่งขันคณิตศาสตร์ในโลกแห่งความเป็นจริง ได้ประเมินความสามารถในการให้เหตุผลในขอบเขตทางคณิตศาสตร์ที่หลากหลาย
สุดท้าย มาตรฐาน OlympiadBench ท้าทาย QVQ-72B ด้วยปัญหาสองภาษาจากการแข่งขันคณิตศาสตร์และฟิสิกส์ระดับนานาชาติ แบบจำลองนี้แสดงให้เห็นความแม่นยำที่เทียบได้กับระบบที่เป็นกรรมสิทธิ์ เช่น GPT-4 ของ OpenAI ซึ่งช่วยลดช่องว่างด้านประสิทธิภาพระหว่าง AI แบบโอเพ่นซอร์สและแบบปิด
ที่มา: Qwen
แม้จะประสบความสำเร็จเหล่านี้ แต่ข้อจำกัดยังคงอยู่. ทีมงาน Qwen ตั้งข้อสังเกตว่าการใช้เหตุผลแบบวนซ้ำและภาพหลอนในระหว่างการวิเคราะห์ด้วยภาพที่ซับซ้อนยังคงเป็นความท้าทายที่ต้องแก้ไข
แอปพลิเคชันและเครื่องมือสำหรับนักพัฒนาที่ใช้งานได้จริง
QVQ-72B ไม่ได้เป็นเพียงสิ่งประดิษฐ์ในการวิจัยเท่านั้น แต่ยังเป็นเครื่องมือที่สามารถเข้าถึงได้สำหรับนักพัฒนา ซึ่งโฮสต์บน Hugging Face Spaces ช่วยให้ผู้ใช้สามารถทดลองใช้ความสามารถของมันได้แบบเรียลไทม์ นักพัฒนายังสามารถปรับใช้ QVQ-72B ภายในเครื่องได้โดยใช้เฟรมเวิร์ก เช่น MLX ซึ่งได้รับการปรับให้เหมาะกับสภาพแวดล้อม macOS และ Hugging Face Transformers ทำให้โมเดลนี้มีความหลากหลายในทุกแพลตฟอร์ม
เราทดสอบ QVQ-72B Preview บน Hugging Face ด้วยรูปภาพที่เรียบง่าย ดินสอจำนวน 12 แท่งเพื่อดูว่าจะเข้าใกล้งานอย่างไร และระบุดินสอที่ซ้อนกันได้อย่างถูกต้องหรือไม่ น่าเสียดายที่งานง่ายๆ นี้ล้มเหลว โดยมีเพียงแปดรายการ
จากการเปรียบเทียบ GPT-4o ของ OpenAI จัดให้ คำตอบที่ถูกต้องโดยตรง:
การจัดการกับความท้าทายและทิศทางในอนาคต
แม้ว่า QVQ-72B จะเป็นตัวแทนของความก้าวหน้า แต่ก็ยังเน้นย้ำถึงความซับซ้อนของ AI ต่อเนื่องหลายรูปแบบที่ก้าวหน้าอีกด้วย ปัญหาต่างๆ เช่น การเปลี่ยนภาษา ภาพหลอน และการใช้เหตุผลแบบวนซ้ำ แสดงให้เห็นถึงความท้าทายในการพัฒนาระบบที่แข็งแกร่งและเชื่อถือได้ การระบุวัตถุที่แยกจากกันซึ่งเป็นกุญแจสำคัญสำหรับการนับที่เหมาะสมและการให้เหตุผลในภายหลังยังคงเป็นปัญหาสำหรับแบบจำลอง
อย่างไรก็ตาม เป้าหมายระยะยาวของ Qwen ขยายออกไปเกินกว่า QVQ-72B ทีมงานจินตนาการถึงโมเดลแบบครบวงจรที่ผสานรวมรูปแบบเพิ่มเติม เช่น การรวมข้อความ ภาพ เสียง และอื่นๆ เพื่อเข้าถึงปัญญาประดิษฐ์ทั่วไป พวกเขาเน้นย้ำว่า QVQ-72B เป็นก้าวหนึ่งสู่วิสัยทัศน์นี้ โดยเป็นแพลตฟอร์มที่เปิดกว้างสำหรับการสำรวจและนวัตกรรมเพิ่มเติม