Qwen 2.5 AI ของอาลีบาบาเผชิญข้อกล่าวหาทางคณิตศาสตร์

แผนก AI ของอาลีบาบากำลังเผชิญกับการตรวจสอบข้อเท็จจริงหลังจากการศึกษาทางวิชาการใหม่กล่าวหาว่าแบบจำลอง Qwen2.5 ได้รับคะแนนสูงสุดในเกณฑ์มาตรฐานคณิตศาสตร์ที่สำคัญโดย”การโกง”นักวิจัยจาก Fudan University และ UC Davis ตีพิมพ์บทความเมื่อวันที่ 18 กรกฎาคม 2568 โดยให้หลักฐานว่าแบบจำลองได้รับการฝึกอบรมเกี่ยวกับคำถามทดสอบ

สิ่งนี้ทำให้สามารถจดจำคำตอบได้มากกว่าแสดงให้เห็นถึงการให้เหตุผลที่แท้จริง การค้นพบท้าทายการเรียกร้องก่อนหน้าของอาลีบาบาเกี่ยวกับประสิทธิภาพ AI ที่เหนือกว่า พวกเขายังตั้งคำถามที่กว้างขึ้นเกี่ยวกับความน่าเชื่อถือของเกณฑ์มาตรฐานมาตรฐานอุตสาหกรรมเช่น math-500, วัดความคืบหน้า การปนเปื้อนของข้อมูลที่ข้อมูลทดสอบรั่วไหลในชุดการฝึกอบรมโดยไม่ตั้งใจสามารถขยายตัวชี้วัดประสิทธิภาพซึ่งสามารถสร้างความประทับใจที่ผิดพลาดของความสามารถที่แท้จริงของโมเดลและทำให้เข้าใจผิดอุตสาหกรรม

ผลลัพธ์ที่ได้รับการบอกเล่า QWEN2.5 สามารถทำให้เกิดปัญหาต่อคำได้ด้วยความแม่นยำ 54.6% และยังคงแก้ปัญหาได้อย่างถูกต้อง ในทางตรงกันข้ามโมเดล LLAMA3.1-8B ของ Meta ซึ่งไม่ได้รับการฝึกฝนเกี่ยวกับข้อมูลการทดสอบจัดการอัตราความสำเร็จเพียง 3.8%

ความคลาดเคลื่อนนี้แสดงให้เห็นอย่างชัดเจนว่า QWEN2.5 ไม่ใช่เหตุผลจากหลักการแรก ดูเหมือนว่าจะได้รับข้อมูลที่ได้เห็นแล้วในระหว่างการฝึกอบรมแล้ว”สำรอก”ได้อย่างมีประสิทธิภาพ”คำตอบที่ได้รับการจดจำจากแหล่งข้อมูลเช่น GitHub ซึ่งชุดข้อมูลดังกล่าวเป็นเรื่องธรรมดา การทดสอบบนพื้นดินที่สะอาดเผยให้เห็นความจริง

เพื่อยืนยันสมมุติฐานของพวกเขา มาตรฐานนี้ประกอบด้วยปัญหาทางคณิตศาสตร์สังเคราะห์อย่างสมบูรณ์รับประกันได้ว่าไม่มีแบบจำลอง AI ที่มีอยู่ก่อนหน้านี้

ในชุดข้อมูลที่สะอาดนี้ประสิทธิภาพของ Qwen2.5 เปลี่ยนไปอย่างมาก ความแม่นยำของมันลดลงเมื่อปัญหามีความซับซ้อนมากขึ้นซึ่งเป็นพฤติกรรมที่คาดหวังสำหรับแบบจำลองที่พยายามให้เหตุผลอย่างแท้จริง สิ่งนี้ตั้งอยู่ในความแตกต่างที่คมชัดกับการเรียกคืนที่ไร้ที่ติในการทดสอบ Math-500 ที่ปนเปื้อน

นอกจากนี้การศึกษาทฤษฎีที่ได้รับการแก้ไขทฤษฎีล่าสุดที่สัญญาณการให้รางวัลแบบสุ่มหรือไม่ถูกต้องสามารถเพิ่มการให้เหตุผล ในชุดข้อมูลที่สะอาดประสิทธิภาพของ QWEN2.5 ดีขึ้นเมื่อได้รับการฝึกฝนด้วยรางวัลที่ถูกต้องเท่านั้น ผลตอบแทนแบบสุ่มหรือคว่ำทำให้ประสิทธิภาพของมันไม่เสถียรหรือล่มสลายอย่างสิ้นเชิง

วิกฤตความไว้วางใจที่กว้างขึ้นสำหรับเกณฑ์มาตรฐาน AI

เหตุการณ์นี้เน้นถึงวิกฤตความเชื่อมั่นที่เพิ่มขึ้นภายในอุตสาหกรรม AI ในขณะที่ บริษัท ต่าง ๆ แข่งกับกระดานผู้นำที่มีการแข่งขันสูงความสมบูรณ์ของเกณฑ์มาตรฐานตัวเองกำลังเกิดขึ้น ความกดดันในการดำเนินการสามารถนำไปสู่“ การสอนในการทดสอบ” ซึ่งแบบจำลองได้รับการฝึกอบรมโดยเฉพาะในการประเมิน ACE

นี่เป็นปัญหาที่เป็นระบบที่ขยายเกินกว่า บริษัท เดียว ความน่าเชื่อถือของมาตรฐานเป็นพื้นฐานสำหรับการติดตามความคืบหน้าจริงใน AI เมื่อเครื่องมือประเมินผลเหล่านี้ถูกบุกรุกมันก็ยากที่จะแยกแยะความแตกต่างระหว่างนวัตกรรมของแท้และการเพิ่มประสิทธิภาพที่ชาญฉลาด

ในการตอบสนองต่อการศึกษาทีม Qwen ของอาลีบาบาได้ออกแถลงการณ์สาธารณะที่กล่าวถึงการเรียกร้องการปนเปื้อนของข้อมูล

Qwen 2.5 AI ของอาลีบาบาเผชิญข้อกล่าวหาทางคณิตศาสตร์

Published by All Things Windows on July 21, 2025

วิกฤตความไว้วางใจที่กว้างขึ้นสำหรับเกณฑ์มาตรฐาน AI

IT Info

Netflix เปิดเผยการใช้ฉาก AI เป็นครั้งแรกในซีรีส์’The Eternaut’การอภิปรายอุตสาหกรรมประกายไฟ

IT Info

Gemini Ai ของ Google Deepmind ชนะ Math Olympiad Gold โดยจับคู่ Openai ในการแข่งขันที่ดุเดือด

IT Info

การตลาดระดับองค์กรในยุคของ AI: ความคล่องตัวข้อมูลและการตัดสินใจอย่างชาญฉลาด

Qwen 2.5 AI ของอาลีบาบาเผชิญข้อกล่าวหาทางคณิตศาสตร์

Published by All Things Windows on July 21, 2025

วิกฤตความไว้วางใจที่กว้างขึ้นสำหรับเกณฑ์มาตรฐาน AI

Related Posts

IT Info

Netflix เปิดเผยการใช้ฉาก AI เป็นครั้งแรกในซีรีส์’The Eternaut’การอภิปรายอุตสาหกรรมประกายไฟ

IT Info

Gemini Ai ของ Google Deepmind ชนะ Math Olympiad Gold โดยจับคู่ Openai ในการแข่งขันที่ดุเดือด

IT Info

การตลาดระดับองค์กรในยุคของ AI: ความคล่องตัวข้อมูลและการตัดสินใจอย่างชาญฉลาด