แผนก AI ของอาลีบาบากำลังเผชิญกับการตรวจสอบข้อเท็จจริงหลังจากการศึกษาทางวิชาการใหม่กล่าวหาว่าแบบจำลอง Qwen2.5 ได้รับคะแนนสูงสุดในเกณฑ์มาตรฐานคณิตศาสตร์ที่สำคัญโดย”การโกง”นักวิจัยจาก Fudan University และ UC Davis ตีพิมพ์บทความเมื่อวันที่ 18 กรกฎาคม 2568 โดยให้หลักฐานว่าแบบจำลองได้รับการฝึกอบรมเกี่ยวกับคำถามทดสอบ

สิ่งนี้ทำให้สามารถจดจำคำตอบได้มากกว่าแสดงให้เห็นถึงการให้เหตุผลที่แท้จริง การค้นพบท้าทายการเรียกร้องก่อนหน้าของอาลีบาบาเกี่ยวกับประสิทธิภาพ AI ที่เหนือกว่า พวกเขายังตั้งคำถามที่กว้างขึ้นเกี่ยวกับความน่าเชื่อถือของเกณฑ์มาตรฐานมาตรฐานอุตสาหกรรมเช่น math-500, วัดความคืบหน้า การปนเปื้อนของข้อมูลที่ข้อมูลทดสอบรั่วไหลในชุดการฝึกอบรมโดยไม่ตั้งใจสามารถขยายตัวชี้วัดประสิทธิภาพซึ่งสามารถสร้างความประทับใจที่ผิดพลาดของความสามารถที่แท้จริงของโมเดลและทำให้เข้าใจผิดอุตสาหกรรม

ผลลัพธ์ที่ได้รับการบอกเล่า QWEN2.5 สามารถทำให้เกิดปัญหาต่อคำได้ด้วยความแม่นยำ 54.6% และยังคงแก้ปัญหาได้อย่างถูกต้อง ในทางตรงกันข้ามโมเดล LLAMA3.1-8B ของ Meta ซึ่งไม่ได้รับการฝึกฝนเกี่ยวกับข้อมูลการทดสอบจัดการอัตราความสำเร็จเพียง 3.8%

ความคลาดเคลื่อนนี้แสดงให้เห็นอย่างชัดเจนว่า QWEN2.5 ไม่ใช่เหตุผลจากหลักการแรก ดูเหมือนว่าจะได้รับข้อมูลที่ได้เห็นแล้วในระหว่างการฝึกอบรมแล้ว”สำรอก”ได้อย่างมีประสิทธิภาพ”คำตอบที่ได้รับการจดจำจากแหล่งข้อมูลเช่น GitHub ซึ่งชุดข้อมูลดังกล่าวเป็นเรื่องธรรมดา การทดสอบบนพื้นดินที่สะอาดเผยให้เห็นความจริง

เพื่อยืนยันสมมุติฐานของพวกเขา มาตรฐานนี้ประกอบด้วยปัญหาทางคณิตศาสตร์สังเคราะห์อย่างสมบูรณ์รับประกันได้ว่าไม่มีแบบจำลอง AI ที่มีอยู่ก่อนหน้านี้

ในชุดข้อมูลที่สะอาดนี้ประสิทธิภาพของ Qwen2.5 เปลี่ยนไปอย่างมาก ความแม่นยำของมันลดลงเมื่อปัญหามีความซับซ้อนมากขึ้นซึ่งเป็นพฤติกรรมที่คาดหวังสำหรับแบบจำลองที่พยายามให้เหตุผลอย่างแท้จริง สิ่งนี้ตั้งอยู่ในความแตกต่างที่คมชัดกับการเรียกคืนที่ไร้ที่ติในการทดสอบ Math-500 ที่ปนเปื้อน

นอกจากนี้การศึกษาทฤษฎีที่ได้รับการแก้ไขทฤษฎีล่าสุดที่สัญญาณการให้รางวัลแบบสุ่มหรือไม่ถูกต้องสามารถเพิ่มการให้เหตุผล ในชุดข้อมูลที่สะอาดประสิทธิภาพของ QWEN2.5 ดีขึ้นเมื่อได้รับการฝึกฝนด้วยรางวัลที่ถูกต้องเท่านั้น ผลตอบแทนแบบสุ่มหรือคว่ำทำให้ประสิทธิภาพของมันไม่เสถียรหรือล่มสลายอย่างสิ้นเชิง

วิกฤตความไว้วางใจที่กว้างขึ้นสำหรับเกณฑ์มาตรฐาน AI

เหตุการณ์นี้เน้นถึงวิกฤตความเชื่อมั่นที่เพิ่มขึ้นภายในอุตสาหกรรม AI ในขณะที่ บริษัท ต่าง ๆ แข่งกับกระดานผู้นำที่มีการแข่งขันสูงความสมบูรณ์ของเกณฑ์มาตรฐานตัวเองกำลังเกิดขึ้น ความกดดันในการดำเนินการสามารถนำไปสู่“ การสอนในการทดสอบ” ซึ่งแบบจำลองได้รับการฝึกอบรมโดยเฉพาะในการประเมิน ACE

นี่เป็นปัญหาที่เป็นระบบที่ขยายเกินกว่า บริษัท เดียว ความน่าเชื่อถือของมาตรฐานเป็นพื้นฐานสำหรับการติดตามความคืบหน้าจริงใน AI เมื่อเครื่องมือประเมินผลเหล่านี้ถูกบุกรุกมันก็ยากที่จะแยกแยะความแตกต่างระหว่างนวัตกรรมของแท้และการเพิ่มประสิทธิภาพที่ชาญฉลาด

ในการตอบสนองต่อการศึกษาทีม Qwen ของอาลีบาบาได้ออกแถลงการณ์สาธารณะที่กล่าวถึงการเรียกร้องการปนเปื้อนของข้อมูล

Categories: IT Info