เพื่อตอบโต้การเปิดตัว Gemini 3 Pro ของ Google โดยเน้นไปที่ความทนทานมากกว่าขนาดปกติ OpenAI จึงเปิดตัว GPT-5.1-Codex-Max ในวันพุธ
โมเดลใหม่นี้เปิดตัว”การบีบอัด”โดยใช้เทคนิคที่ทำให้สามารถย่อหน่วยความจำและรักษาเซสชันการเข้ารหัสอัตโนมัติได้นานกว่า 24 ชั่วโมง OpenAI ทำลาย”กำแพงหน่วยความจำ”ซึ่งโดยทั่วไปจะขัดขวางงานในขอบเขตอันยาวไกล โดยอ้างว่าโมเดลดังกล่าวลดการใช้โทเค็นลง 30% ในขณะที่ได้รับคะแนนสูงสุดที่ 77.9% ในเกณฑ์มาตรฐานที่ได้รับการรับรองจาก SWE-bench
การอัปเดตนี้เปิดตัวสู่ผู้ใช้ Codex ทันที เป็นการส่งสัญญาณการเปลี่ยนแปลงเชิงกลยุทธ์ไปสู่ประสิทธิภาพและการสนับสนุน Windows ตามรอยการเปิดตัว GPT-5.1 อย่างใกล้ชิด ซึ่งพยายามรักษาเสถียรภาพของแพลตฟอร์มหลังจากการเปิดตัว GPT-5 ครั้งแรกที่ลำบาก
เครื่องมือความอดทน: การกระชับและความเป็นอิสระตลอด 24 ชั่วโมง
ภายใต้ประทุน สถาปัตยกรรมอาศัยแนวทางใหม่ในการจัดการบริบท ซึ่งแตกต่างโดยพื้นฐานจากวิธีการแบบเดรัจฉานบังคับเพียงแค่ขยายหน้าต่างบริบท
คู่แข่งเช่น Google ผลักดันความจุล้านโทเค็นเพื่อเก็บฐานโค้ดทั้งหมดไว้ในหน่วยความจำที่ใช้งานอยู่ แต่ OpenAI ได้แนะนำ”การบดอัด”
ทำงานคล้ายกับตัวรวบรวมขยะอัจฉริยะขั้นสูงสำหรับช่วงความสนใจของโมเดล กลไกนี้จะสรุปและตัดประวัติของตัวเองอย่างแข็งขัน แทนที่จะปล่อยให้หน้าต่างบริบทเติมเต็มด้วยเศษการสนทนาที่ไม่เกี่ยวข้อง
การรักษาเฉพาะการเปลี่ยนแปลงสถานะที่สำคัญและตรรกะการตัดสินใจทำให้ระบบสามารถดำเนินการข้ามหน้าต่างบริบทหลาย ๆ โดยไม่สูญเสียเธรดของวัตถุประสงค์ดั้งเดิม
ทีมวิศวกร OpenAI กล่าวถึงความก้าวหน้าโดยตั้งข้อสังเกตว่า “GPT‑5.1-Codex-Max สร้างขึ้นเพื่อการทำงานที่มีรายละเอียดและใช้เวลานาน เป็นโมเดลแรกของเราที่ได้รับการฝึกอบรมโดยกำเนิดให้ทำงานข้ามหน้าต่างบริบทต่างๆ ผ่านกระบวนการที่เรียกว่าการบีบอัด”โดยเน้นถึงความสามารถในการรักษาความสอดคล้องกันในกรณีที่การทำซ้ำครั้งก่อนๆ อาจเกิดอาการประสาทหลอนหรือวนซ้ำ
เพื่อจัดการกับปัญหา”ตัวแทนที่ขี้เกียจ”โดยตรง การเปลี่ยนแปลงทางสถาปัตยกรรมนี้จะป้องกันไม่ให้โมเดลลดประสิทธิภาพลงเมื่อความยาวการสนทนาเพิ่มขึ้น
การประเมินภายในที่อ้างถึง โดยบริษัทแนะนำให้มีความแข็งแกร่งเพิ่มขึ้นอย่างมาก:”ในการประเมินภายในของเรา เราสังเกตเห็นว่า GPT‑5.1-Codex-Max ทำงานบนงานต่างๆ เป็นเวลานานกว่า 24 ชั่วโมง โดยจะวนซ้ำการใช้งานอย่างต่อเนื่อง แก้ไขความล้มเหลวในการทดสอบ และส่งมอบผลลัพธ์ที่ประสบความสำเร็จในที่สุด”
นักพัฒนาองค์กรสามารถมอบหมายงานการปรับโครงสร้างใหม่ที่ซับซ้อนได้ในเย็นวันศุกร์ และคาดหวังให้ตัวแทนทำงานต่อไปตลอดสุดสัปดาห์ ทำการทดสอบซ้ำๆ และแก้ไขข้อผิดพลาดของตัวเองจนกว่าจะมีการสร้าง ผ่าน
ประสิทธิภาพที่เพิ่มขึ้นมาพร้อมกับความอดทนนี้ การไม่ประมวลผลประวัติที่ไม่มีการบีบอัดแบบเต็มอย่างต่อเนื่องของเซสชันที่ยาวนานหมายความว่าโมเดลจะใช้ทรัพยากรน้อยลงอย่างมาก
บนเกณฑ์มาตรฐานที่ได้รับการรับรองจาก SWE-bench บริษัทตั้งข้อสังเกตว่า “GPT‑5.1-Codex-Max ที่มีความพยายามในการให้เหตุผลระดับ’ปานกลาง’จะบรรลุประสิทธิภาพที่ดีกว่า GPT‑5.1-Codex… ในขณะที่ใช้โทเค็นการคิดน้อยลง 30%”
ผู้ใช้ API ปริมาณมากจะเห็นการลดลง 30% การใช้โทเค็นแปลโดยตรงเป็นต้นทุนการดำเนินงานที่ลดลง ซึ่งเป็นปัจจัยสำคัญในขณะที่ AI ย้ายจากการสร้างต้นแบบเชิงทดลองไปสู่เวิร์กโฟลว์การผลิต
การปรับปรุงความเร็วสามารถวัดผลได้อย่างเท่าเทียมกัน ขณะนี้งานเขียนโค้ดในโลกแห่งความเป็นจริงดำเนินการได้เร็วกว่ารุ่น GPT-5.1-Codex รุ่นก่อนหน้าระหว่าง 27% ถึง 42%
เพื่อจัดการกับข้อร้องเรียนทั่วไปเกี่ยวกับโมเดลการให้เหตุผล การเร่งความเร็วนี้ช่วยลดเวลา”คิด”ที่ต้องใช้ก่อนที่จะสร้างโค้ด การเพิ่มประสิทธิภาพโทเค็นการให้เหตุผลช่วยให้ OpenAI สามารถปรับสมดุลของความลึกของความคิดที่จำเป็นสำหรับตรรกะที่ซับซ้อนกับการตอบสนองที่จำเป็นสำหรับการพัฒนาเชิงโต้ตอบ
ตัวชี้วัดประสิทธิภาพตรวจสอบการเปลี่ยนแปลงทางสถาปัตยกรรมเหล่านี้ ด้วยคะแนน 77.9% จาก SWE-bench Verified โมเดลดังกล่าวแซงหน้ารุ่นก่อน 73.7% และสร้างสถิติภายในใหม่
บนเกณฑ์มาตรฐาน SWE-Lancer IC SWE ซึ่งจำลองงานของผู้ร่วมให้ข้อมูลแต่ละคน สูงถึง 79.9% ซึ่งบ่งบอกว่าสามารถรองรับตั๋วประจำส่วนใหญ่ที่มอบหมายให้กับวิศวกรรุ่นน้องได้
นอกจากนี้ 58.1% คะแนนบน TerminalBench 2.0 บ่งบอกถึงความสามารถที่แข็งแกร่งในการนำทางอินเทอร์เฟซบรรทัดคำสั่ง ซึ่งเป็นพื้นที่ที่ยากอย่างฉาวโฉ่สำหรับ LLM เนื่องจากลักษณะข้อผิดพลาดทางไวยากรณ์ที่ไม่อาจให้อภัยในสภาพแวดล้อมของเทอร์มินัล
สงครามระบบนิเวศ: Windows Focus และการแข่งขันราศีเมถุน
จังหวะเวลานั้นแทบจะไม่ใช่เรื่องบังเอิญในภาค AI การเปิดตัวครั้งนี้จะเกิดขึ้นหลังจาก Google เปิดตัว Gemini 3 Pro เพียง 24 ชั่วโมงพอดี ซึ่งทำให้เกิดการเปรียบเทียบแบบตัวต่อตัวในทันที
การต่อสู้ของเกณฑ์มาตรฐานตอนนี้เหลือน้อยมาก 77.9% ของ Codex-Max บน SWE-bench Verified ตัดเฉือนตัวเลข 76.2% ที่รายงานสำหรับ Gemini 3 Pro อย่างหวุดหวิด ซึ่งทำให้การอ้างสิทธิ์ของ Google เป็นกลางในเรื่องมงกุฎการเข้ารหัสอย่างมีประสิทธิภาพภายในเวลาไม่ถึงหนึ่งวันหลังจากถูกสร้างขึ้น
นอกเหนือจากการวัดประสิทธิภาพแล้ว OpenAI กำลังสร้างการคำนวณสำหรับตลาดองค์กรโดยทำลายประเพณีที่เน้น Unix เป็นศูนย์กลางของอุตสาหกรรม
OpenAI ชี้ให้เห็นว่า”นี่เป็นครั้งแรกเช่นกัน แบบจำลองที่เราฝึกมาเพื่อให้ทำงานอย่างมีประสิทธิภาพในสภาพแวดล้อม Windows ด้วยงานการฝึกอบรมที่ทำให้เป็นผู้ทำงานร่วมกันได้ดีขึ้นใน Codex CLI”
ตามประวัติศาสตร์แล้ว โมเดลการเข้ารหัส AI ได้รับการฝึกบนพื้นที่เก็บข้อมูล Linux และ macOS เป็นหลัก ซึ่งนำไปสู่ความขัดแย้งเมื่อสร้างสคริปต์ PowerShell หรือการนำทางระบบไฟล์ Windows การฝึกอบรม Windows อย่างชัดเจนทำให้ OpenAI สอดคล้องกับฐานการติดตั้งองค์กรขนาดใหญ่ของ Microsoft ซึ่งเป็นพันธมิตรหลัก
การกำหนดราคายังคงเป็นประเด็นที่ถกเถียงกันมากที่สุดในความขัดแย้งนี้ Google เปิดตัว Gemini 3 Pro ด้วยกลยุทธ์การกำหนดราคาเชิงรุกที่ประมาณ 0.10 ดอลลาร์ต่อโทเค็นอินพุตหนึ่งล้านรายการ
ในทางตรงกันข้าม เส้นฐาน GPT-5.1 สูงกว่าอย่างมีนัยสำคัญที่ประมาณ 1.25 ดอลลาร์ต่อล้านโทเค็น แม้ว่า OpenAI จะโต้แย้งว่าโมเดล”Max”ทำงานได้ถูกกว่าเนื่องจากประสิทธิภาพของโทเค็น แต่ต้นทุนต่อหน่วยดิบมีความไม่เท่าเทียมกันมากกว่า 10 เท่า
ช่องว่างดังกล่าวสร้างแรงกดดันมหาศาลให้กับ OpenAI เพื่อพิสูจน์ว่าความสามารถในการ”บีบอัด”และการให้เหตุผลของมันให้มูลค่าต่อดอลลาร์ที่เหนือกว่า แทนที่จะเป็นเพียงประสิทธิภาพที่เหนือกว่าต่อโทเค็น
ความพร้อมใช้งานจะเกิดขึ้นทันทีสำหรับผู้ใช้ภายในระบบนิเวศของ OpenAI โมเดลนี้พร้อมใช้งานใน Codex CLI, ส่วนขยาย IDE และสภาพแวดล้อมคลาวด์สำหรับสมาชิก Plus, Pro และ Enterprise แล้ว
อย่างไรก็ตาม การเข้าถึง API จะแสดงเป็น”เร็วๆ นี้”การสร้างอุปสรรคชั่วคราวสำหรับนักพัฒนาที่สร้างเครื่องมือที่กำหนดเองหรือแอปพลิเคชันของบุคคลที่สาม ความล่าช้านี้บังคับให้พวกเขายังคงอยู่ในอินเทอร์เฟซบุคคลที่หนึ่งของ OpenAI ในตอนนี้
การเปลี่ยนการเล่าเรื่องโดยรอบเครื่องมือเหล่านี้ก็ถือเป็นสิ่งสำคัญเช่นกัน Denis Shiryaev จาก JetBrains เรียกโมเดลใหม่ว่า”เอเจนต์อย่างแท้จริง ซึ่งเป็นโมเดลอัตโนมัติที่เป็นธรรมชาติที่สุดเท่าที่ฉันเคยทดสอบมา”ซึ่งสะท้อนให้เห็นถึงการย้ายออกจาก”โคไพล็อต”ที่แนะนำตัวอย่างข้อมูลไปสู่ ”เอเจนต์”ที่จัดการเวิร์กโฟลว์
สิ่งสำคัญที่สุดคือ โคไพล็อตช่วยให้คุณพิมพ์ได้เร็วขึ้น ตัวแทนช่วยให้คุณหยุดพิมพ์ได้เลย
เพดานความปลอดภัย: ความเสี่ยงทางชีวภาพและการปกป้องข้อมูล
ความเป็นอิสระที่เพิ่มขึ้นนำมาซึ่งความเสี่ยงที่เพิ่มขึ้น การ์ดระบบที่เปิดตัวควบคู่ไปกับโมเดลนี้เผยให้เห็นการยกระดับที่สำคัญในการจัดประเภทความปลอดภัย
นับเป็นครั้งแรกในรุ่นที่เน้นการเขียนโค้ด กลุ่มที่ปรึกษาด้านความปลอดภัยยืนยันว่า “เรากำลังถือว่า GPT-5.1-Codex-Max มีความเสี่ยงสูงในด้านชีววิทยาและเคมี และยังคงใช้มาตรฐานที่เกี่ยวข้องต่อไป การป้องกัน”
การ์ดระบบ GPT-5.1-Codex-Max
ด้วยความสามารถของโมเดลในการวางแผนและแก้ไขปัญหาโปรโตคอลห้องปฏิบัติการเปียกที่ซับซ้อน การจัดหมวดหมู่นี้เน้นย้ำถึงอันตรายใหม่ ตามทฤษฎีแล้ว เอเจนต์ที่มีความสามารถในการดีบักสคริปต์ Python โดยอัตโนมัติสามารถดีบักโปรโตคอลสำหรับการสังเคราะห์เชื้อโรคได้ หากเข้าถึงเอกสารและอุปกรณ์ที่เหมาะสมได้
ความปลอดภัยทางไซเบอร์ยังคงเป็นอีกประเด็นหนึ่งของการตรวจสอบอย่างเข้มงวด กลุ่มที่ปรึกษาด้านความปลอดภัยตั้งข้อสังเกตว่า “GPT-5.1-Codex-Max เป็นโมเดลที่มีความสามารถทางไซเบอร์มากที่สุดที่เราเคยใช้งานมาจนถึงปัจจุบัน… [แต่] ยังไม่ถึงความสามารถระดับสูงด้านความปลอดภัยทางไซเบอร์”
แม้ว่าจะยังไม่เกินเกณฑ์ที่จะทำให้เกิดการหยุดชะงักในการใช้งาน แต่ความสามารถของโมเดลในการระบุช่องโหว่และการเขียนสคริปต์การหาประโยชน์ได้รับการปรับปรุงให้ดีขึ้น
เพื่อบรรเทาปัญหานี้ OpenAI ได้นำมาตรการที่เข้มงวดมาใช้ แซนด์บ็อกซ์ตามค่าเริ่มต้น การเข้าถึงเครือข่ายถูกปิดใช้งานเว้นแต่จะได้รับอนุญาตอย่างชัดเจน และสิทธิ์ในการเขียนไฟล์จะถูกล็อคไว้ในพื้นที่ทำงานที่ใช้งานอยู่ เพื่อป้องกันไม่ให้เอเจนต์เข้าไปในไดเร็กทอรีของระบบ
การทำลายข้อมูลเป็นความเสี่ยงเฉพาะสำหรับเอเจนต์การเขียนโค้ดอัตโนมัติ การเข้าถึงเทอร์มินัลในทางทฤษฎีอาจทำให้โมเดลสามารถรันคำสั่งเช่น `rm-rf/` และล้างเครื่องของผู้ใช้ได้ เพื่อตอบโต้สิ่งนี้ OpenAI ใช้เทคนิคการฝึกอบรมแบบใหม่ที่เกี่ยวข้องกับ”โมเดลผู้ใช้”ในระหว่างขั้นตอนการเรียนรู้การเสริมกำลัง
การจำลองผู้ใช้ที่ทำการแก้ไขขัดแย้งกับเป้าหมายของ AI วิธีการนี้ให้รางวัลแก่โมเดลโดยเฉพาะสำหรับการรักษางานของผู้ใช้แทนที่จะเขียนทับมัน สอน AI อย่างมีประสิทธิภาพให้เคารพการมีส่วนร่วมของมนุษย์และหลีกเลี่ยงคำสั่งทำลายล้าง
การโจมตีแบบฉีดทันทีซึ่งคำสั่งที่เป็นอันตรายซ่อนอยู่ในความคิดเห็นของโค้ดหรือเอกสารภายนอกก็ได้รับเฉพาะเช่นกัน ความสนใจ ชุดข้อมูลสังเคราะห์ใหม่ถูกสร้างขึ้นเพื่อฝึกโมเดลให้รับรู้และเพิกเฉยต่อการโจมตีเหล่านี้ภายในบริบทการเขียนโค้ด
แม้จะมีการป้องกันทางเทคนิคเหล่านี้ บริษัทยืนยันว่าการควบคุมดูแลของมนุษย์นั้นไม่สามารถเจรจาต่อรองได้ กรอบงานการเตรียมความพร้อมกำหนดว่าแม้ว่าตัวแทนจะสามารถดำเนินงานได้โดยอัตโนมัติ แต่ผลลัพธ์สุดท้ายจะต้องได้รับการตรวจสอบโดยวิศวกรที่เป็นมนุษย์ ซึ่งจะช่วยเสริมพลังของ”เพื่อนร่วมทีมเสมือน”แทนที่จะแทนที่โดยสมบูรณ์