AI startup Qodo ได้เข้าสู่“ สงครามเบนช์มาร์ก” ที่ดุเดือดสำหรับการเข้ารหัสอำนาจสูงสุด เมื่อวันที่ 11 สิงหาคม บริษัท ประกาศตัวแทนใหม่ Qodo Command ทำคะแนนได้ 71.2% ที่น่าประทับใจสำหรับการทดสอบที่ได้รับการตรวจสอบแล้ว SWE ผลลัพธ์นี้ผลัก Qodo โดยตรงไปยังเวทีการแข่งขันที่ครอบงำโดยยักษ์ใหญ่เช่นมานุษยวิทยาและโอเพนได คำสั่ง QODO ถูกสร้างขึ้นบน Langgraph และอนุญาตให้ใช้โมเดลจาก OpenAI, มานุษยวิทยาและอื่น ๆ สำหรับการเข้ารหัสงาน
การประกาศดังต่อไปนี้เป็นสัปดาห์ที่น่าตื่นเต้น มานุษยวิทยาและ Openai เมื่อเร็ว ๆ นี้กระโดดลงมาซึ่งกันและกันสำหรับจุดสูงสุดโดยอ้างว่าคะแนน 74.5% และ 74.9% ตามลำดับ การแข่งขันอย่างไม่หยุดยั้งสำหรับการปกครองแบบเกณฑ์มาตรฐานกำลังเพิ่มขึ้นอย่างรวดเร็ว
การแข่งขันเดิมพันสูงนี้อย่างไรก็ตามการเปิดตัวฉากหลังของโลกแห่งความเป็นจริง โมเดลที่ให้คะแนนสูงเช่น GPT-5 ใหม่ของ Openai ต้องเผชิญกับการเปิดตัวสาธารณะที่มีปัญหาทำให้เกิดคำถามที่สำคัญเกี่ยวกับความสำเร็จของเกณฑ์มาตรฐานที่แปลเป็นประสิทธิภาพที่เชื่อถือได้และการผลิต
จุดสูงสุดของหัวหน้าบอร์ด การประกาศอย่างรวดเร็วนี้จาก Labs ชั้นนำของอุตสาหกรรมเน้น
การโฟกัสที่เข้มข้นอยู่ที่ Swe-Bench ด้วยเหตุผล ซึ่งแตกต่างจากการทดสอบสังเคราะห์มันเป็นการประเมินที่ต้องการซึ่งสะท้อนวิศวกรรมซอฟต์แวร์ในโลกแห่งความเป็นจริง แต่ละงานได้มาจากปัญหา GitHub จริงที่พบในหนึ่งใน 12 ที่เก็บโอเพนซอร์สโอเพนซอร์สที่ใช้กันอย่างแพร่หลาย เพื่อให้ประสบความสำเร็จตัวแทน AI จะต้องให้เหตุผลวางแผนและแก้ไขรหัสอย่างถูกต้องบ่อยครั้งในหลาย ๆ ไฟล์การวนซ้ำเช่นเดียวกับนักพัฒนามนุษย์ที่ไม่มีทางลัดใด ๆ รอบล่าสุดของสงครามเกณฑ์มาตรฐานนี้เริ่มต้นขึ้นอย่างจริงจังเมื่อวันที่ 5 สิงหาคม คะแนนนี้แสดงให้เห็นถึงการก้าวกระโดดครั้งสำคัญในช่วง 72.5% ของผู้บุกเบิก Claude 4 Opus ได้โพสต์เมื่อไม่กี่เดือนก่อนหน้านี้ในเดือนพฤษภาคมแสดงให้เห็นถึงความคืบหน้าที่น่าทึ่ง อย่างไรก็ตามรัชสมัยของมานุษยวิทยานั้นมีอายุสั้น เพียงไม่กี่วันต่อมาในวันที่ 7 สิงหาคม Openai ตอบโต้ด้วยการเปิดตัวซีรี่ส์ GPT-5 รุ่นที่คาดการณ์ไว้สูง บริษัท อ้างว่าเรือธงใหม่ของ บริษัท ได้ผ่านคู่แข่งอย่างแคบ ๆ ด้วยอัตราความสำเร็จ 74.9% ทันทีที่ลดลง Claude 4.1 และยึดจุดสูงสุดสำหรับตัวเอง มันเข้าสู่สนามที่ปั่นป่วนนี้ที่คะแนน 71.2% ของ Qodo ในขณะที่ไม่ใช่คะแนนสูงสุด แต่ก็เป็นความสำเร็จที่น่าเกรงขามสำหรับการเริ่มต้นที่เล็กลงโดยวางตัวแทน QODO อย่างแน่นหนาในลีกเดียวกันกับไททันส์ของอุตสาหกรรม ผลการวิจัยพิสูจน์ว่าวิธีการทางสถาปัตยกรรมที่เป็นนวัตกรรมสามารถแข่งขันกับมาตราส่วนที่แท้จริงของห้องปฏิบัติการขนาดใหญ่ การสืบทอดการเรียกร้องที่น่าเวียนหัวนี้ได้สร้างความสับสนอย่างมากในชุมชนนักพัฒนา เว็บไซต์ Swe-Bench อย่างเป็นทางการได้กลายเป็นตัวบ่งชี้ที่ล้าหลังไม่สามารถก้าวไปตามข่าวประชาสัมพันธ์ของ บริษัท ได้ ลีดเดอร์บอร์ดที่แสดงต่อสาธารณชนยังคงแสดงให้เห็นว่ามีคะแนนเก่ากว่าถูกแทนที่ทำให้เป็นแหล่งข้อมูลที่ไม่น่าเชื่อถือสำหรับสถานะปัจจุบันของศิลปะ เพื่อทำให้เรื่องซับซ้อนยิ่งขึ้นลำดับชั้นทั้งหมดจะถูกสอบสวนโดยการวิเคราะห์อิสระ ตัวอย่างเช่นผู้เชี่ยวชาญหลายคนแนะนำว่าแบบจำลองที่แตกต่างกัน Claude Sonnet 4 ที่ทรงพลังน้อยกว่าของมานุษยวิทยานั้นเป็นผู้นำของแพ็คเมื่อประเมินภายใต้เงื่อนไขบางประการ ความคลาดเคลื่อนนี้ทำให้เกิดคำถามที่สำคัญเกี่ยวกับวิธีการทดสอบและไม่ว่าจุดสูงสุดของกระดานผู้นำจะชัดเจนตามที่ประกาศแนะนำ href=”https://www.qodo.ai/blog/qodo-command-swe-bench-verified/”target=”_ blank”> ออกแบบมาจากพื้นดินเพื่อวิศวกรรมซอฟต์แวร์โลกแห่งความเป็นจริง ภายใต้ประทุน: คำสั่ง qodo ได้รับคะแนนได้อย่างไร
การใช้ Langgraph เป็นความแตกต่างที่สำคัญ จะช่วยให้ Qodo สามารถจัดทำการทำงานที่ซับซ้อนเป็นกราฟซึ่งแต่ละขั้นตอนเป็นโหนดที่กำหนดค่าได้ โมดูลนี้ไม่ได้เป็นเพียงข้อได้เปรียบทางทฤษฎีเท่านั้น อนุญาตให้ทีมนำเสนอและขยายส่วนประกอบที่พิสูจน์แล้วจากส่วนขยาย IDE ที่มีอยู่ Qodo Gen ซึ่งรวมถึงโมดูลที่ทดสอบการต่อสู้สำหรับการวิเคราะห์รหัสการสรุปและการสแกนความปลอดภัยซึ่งสามารถนำกลับมาใช้ใหม่ได้อย่างง่ายดายภายในตัวแทนใหม่
หนึ่งในจุดแข็งหลักของตัวแทน ระบบของ Qodo ตระหนักดีว่าการประสบความสำเร็จในรหัสฐานหลายไฟล์ที่ซับซ้อนนั้นต้องการมากกว่าการป้อนไฟล์ดิบให้กับโมเดลภาษา มันแก้ปัญหานี้โดยการกลั่นรหัสเลเยอร์ครั้งแรกเป็นบทสรุปที่แม่นยำและมีสัญญาณสูงเพื่อให้มั่นใจว่า LLM ได้รับเพียงบริบทที่เกี่ยวข้องและมีโครงสร้างมากที่สุดในทุกขั้นตอนของกระบวนการให้เหตุผล
นี่คือคู่กับแนวทางการดำเนินการตามวินัยในการดำเนินการ ก่อนที่จะเขียนโค้ดใด ๆ ตัวแทนจะวิเคราะห์เป้าหมายของผู้ใช้อย่างลึกซึ้งและสลายตัวเป็นชุดย่อยที่ชัดเจนและดำเนินการได้ สิ่งนี้สร้างแผนงานที่เชื่อถือได้เพื่อให้ LLM ติดตาม สิ่งสำคัญคือการเสร็จสิ้นงานไม่เพียง แต่จะมีการส่งออกขั้นสุดท้ายเท่านั้น แต่ยังยึดมั่นในแผนเดิมอย่างเข้มงวด ช่องว่างที่ตรวจพบใด ๆ ทำให้เกิดข้อเสนอแนะและลองวนซ้ำอีกครั้งจนกว่าจะได้รับการจัดตำแหน่งเต็มรูปแบบ
เพื่อให้แน่ใจว่ามีความแข็งแกร่งคำสั่ง QODO มีกลไกการลองใหม่และการตกหล่น เมื่อการเรียกใช้เครื่องมือล้มเหลวตัวแทนจะไม่หยุด มันปรับตัว ระบบแยกข้อเสนอแนะข้อผิดพลาดโดยอัตโนมัติเรียกใช้ LLM เพื่อวินิจฉัยความล้มเหลวจากนั้นปรับพารามิเตอร์หรือโครงสร้างของเครื่องมืออย่างชาญฉลาดอย่างชาญฉลาด ตัวแทนได้รับอำนาจในการลองเรียกใช้การโทรอีกสามครั้งและหากความละเอียดยังคงเป็นไปไม่ได้ก็สามารถหมุนไปใช้กลยุทธ์ทางเลือกเพื่อให้แน่ใจว่าความคืบหน้ายังคงดำเนินต่อไป
การให้เหตุผลตัวแทนนี้ได้รับการสนับสนุนโดยชุดเครื่องมือระดับนักพัฒนาซอฟต์แวร์ที่มีประสิทธิภาพ ชุดเครื่องมือของมันรวมถึง:
ระบบไฟล์: เครื่องมือมาตรฐานสำหรับการอ่านการเขียนและการแก้ไขไฟล์ การรับรู้ว่าแม้แต่รุ่นที่ล้ำสมัยก็สามารถล้มเหลวในการจับคู่เส้นทางไฟล์ที่แน่นอน Qodo ใช้กลไกทางเลือกที่ใช้การจับคู่ฟัซซี่เพื่อปรับปรุงอัตราความสำเร็จของเครื่องมือ เครื่องมือเชลล์: สิ่งนี้จะช่วยให้ตัวแทนสามารถโต้ตอบโดยตรงกับเชลล์ระบบ มันสามารถเรียกใช้การสร้างสคริปต์ดำเนินการชุดทดสอบและตรวจสอบสมมติฐานของตัวเองในแบบเรียลไทม์เลียนแบบเวิร์กโฟลว์แบบโต้ตอบของนักพัฒนา RIPGREP: สำหรับการทำความเข้าใจกับ codebase ลึกเอเจนต์ได้รับการออกแบบมาอย่างสม่ำเสมอสำหรับการใช้เครื่องมือค้นหาแบบเรียกซ้ำ RIPGREP ได้อย่างเหมาะสมทำให้สามารถค้นหาตัวอย่างรหัสที่เกี่ยวข้องได้อย่างรวดเร็วในที่เก็บขนาดใหญ่ การคิดแบบต่อเนื่อง: ในขณะที่ไม่ได้เปิดใช้งานโดยค่าเริ่มต้นเครื่องมือการให้เหตุผลที่มีโครงสร้างนี้ช่วยให้ผลการวัดผลโดยการแบ่งงานที่ซับซ้อนลงในขั้นตอนที่จัดการได้และสามารถดำเนินการได้มากขึ้น
สำหรับการทำงานของเกณฑ์มาตรฐาน Qodo ตั้งข้อสังเกตว่าเครื่องมือค้นหาเว็บของมันถูกปิดใช้งานเพื่อป้องกันการรั่วไหลของข้อมูลที่อาจเกิดขึ้นในโซลูชันเพื่อให้มั่นใจถึงความสมบูรณ์ของคะแนน ในที่สุด บริษัท เน้นความร่วมมือที่แข็งแกร่งกับมานุษยวิทยายืนยันว่ามันเป็น “ขับเคลื่อนโดย Claude”Solution มันระบุว่า Claude 4 กลายเป็นแบบจำลองของตัวเลือกสำหรับการบรรลุผล SWE-bench ที่น่าประทับใจ
มาตรฐานอำนาจสูงสุดเทียบกับโลกแห่งความเป็นจริงสะดุด
การมุ่งเน้นที่รุนแรงของอุตสาหกรรม แม้จะมีคะแนนการตั้งค่าบันทึกและการเรียกร้องที่ทะเยอทะยานจากซีอีโอแซมอัลท์แมนว่า“ นี่เป็นแบบจำลองที่ดีที่สุดในโลกที่เขียนโค้ด…โมเดลที่ดีที่สุดในโลกที่เขียนรูปแบบที่ดีที่สุดในโลกที่ดูแลสุขภาพและรายการที่ยาวนานกว่านั้น แบบจำลองผลิตแผนที่ที่มีสถานะสมมติ, คณิตศาสตร์พื้นฐานที่ล้มเหลวและคิดค้นประธานาธิบดีสหรัฐฯนำไปสู่การเยาะเย้ยอย่างกว้างขวางและสร้างความเสียหายต่อความน่าเชื่อถือของ บริษัท
แบ็คแลชนั้นรุนแรงมากเมื่อวันที่ 8 สิงหาคมอัลท์แมนออกคำขอโทษสาธารณะ เขายอมรับว่า“ Autoswitcher’ที่ผิดพลาดระหว่างโหมดภายในของโมเดลทำให้มันเป็นเวลานานกว่า’ดูโง่’มากกว่าที่ตั้งใจไว้”ข้อบกพร่องทางเทคนิคที่ทำให้โมเดลมีความสามารถน้อยกว่าที่ตั้งใจไว้ ในการพลิกกลับที่สำคัญ Openai สัญญาว่าจะ