OpenAI ได้เปิดตัว GPT-4.5 ซึ่งสร้างแบรนด์ให้เป็นรูปแบบที่กว้างขวางและมีความรู้มากที่สุดที่ บริษัท ได้สร้างขึ้นมา แต่มีการจับ-Openai ยืนยันว่านี่ไม่ใช่การก้าวกระโดดทางเทคโนโลยีที่สำคัญ GPT-4.5 ซึ่งมีให้บริการในการวิจัยปรับปรุง GPT-4O รุ่นก่อน แต่ไม่ได้นำความก้าวหน้าที่จะจัดประเภทเป็นระบบ AI ชายแดน
รุ่นนี้จะถูกปล่อยให้ผู้ใช้ Chatgpt Pro ในวันนี้ เช่นเดียวกับ GPT-4O มันรองรับการอัปโหลดรูปภาพ, chatgpt canvas และการค้นหาสด
ตาม Openai-Ceo Sam Altman, GPT-4.5 คือ“ โมเดลยักษ์ราคาแพง” เขากล่าวในโพสต์ใน X ความสูง=”577″src=”ข้อมูล: image/svg+xml; nitro-empty-id=mty4otoxmzuw-1; base64, phn2zyb2awv3qm94psiwidagmtaynca1nz Ciihdpzhropsixmdi0iibozwlnahq9iju3nyigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”> >>>
GPT-4.5 พร้อมแล้ว!
ข่าวดี: มันเป็นรุ่นแรกที่ให้ความรู้สึกเหมือนพูดคุยกับคนที่รอบคอบกับฉัน href=”https://twitter.com/sama/status/1895203654103351462?ref_src=twsrc%5etfw”> 27 กุมภาพันธ์ 2025 ทั้งหมด ระดับการใช้งานที่จ่าย โมเดลรองรับคุณสมบัติที่สำคัญเช่นการเรียกใช้ฟังก์ชันเอาต์พุตที่มีโครงสร้างการสตรีมและข้อความระบบ นอกจากนี้ยังรองรับความสามารถในการมองเห็นผ่านอินพุตภาพ
ในขณะที่ OpenAI อ้างว่า GPT-4.5 ปรับปรุงความถูกต้องตามความเป็นจริงและสร้างการตอบสนองที่เป็นธรรมชาติมากขึ้น บริษัท ยอมรับว่ามันตกอยู่เบื้องหลังแบบจำลองการใช้เหตุผลพิเศษในบางพื้นที่ ปรับแต่งคุณสมบัติที่มีอยู่และเพิ่มประสิทธิภาพการตอบสนอง OpenAI อธิบายว่ามันมีประสิทธิภาพมากกว่าการคำนวณมากกว่า GPT-4 ซึ่งได้รับประสิทธิภาพที่ดีขึ้นกว่าสิบเท่าในการประมวลผลอำนาจ
เพื่อฝึกอบรมแบบจำลอง OpenAI ผสมผสานวิธีการดั้งเดิมด้วยเทคนิคใหม่รวมถึงการปรับแต่งการปรับแต่ง (SFT) และการเรียนรู้เสริมแรงจากคำติชมของมนุษย์ (RLHF) วิธีการนี้มีวัตถุประสงค์เพื่อให้การโต้ตอบของเหลวมากขึ้นลดการตอบสนองที่ไม่ถูกต้องและปรับปรุงการใช้งานในแอปพลิเคชันในโลกแห่งความเป็นจริง
แม้จะมีการอัพเกรดเหล่านี้ OpenAI ทำให้ชัดเจนว่า GPT-4.5 ไม่ใช่แบบจำลองที่มีความสามารถมากที่สุดในการใช้เหตุผล แบบจำลองอื่น ๆ เช่น O1 และ O3-MINI ทำงานได้ดีขึ้นในพื้นที่เฉพาะโดยเฉพาะอย่างยิ่งในการแก้ปัญหาที่มีโครงสร้างและการประเมินเชิงตรรกะ
[เนื้อหาที่ฝังตัว]
ผลการปฏิบัติงาน GPT-4.5 ’24), การเข้ารหัส (SWE-BENCH และเพชร SWE-LANCER), งานหลายภาษา (MMMLU), และงานหลายรูปแบบ (MMMU).
อย่างไรก็ตามเมื่อเปรียบเทียบกับแบบจำลองที่เน้นการใช้เหตุผล
ในขณะที่ O3-MINI แสดงคะแนนลดลงอย่างมีนัยสำคัญในการวัดประสิทธิภาพการเข้ารหัสอื่น (Swe-Lancer Diamond) สิ่งนี้ตอกย้ำการวางตำแหน่งของ GPT-4.5 เป็นแบบจำลองอเนกประสงค์ที่แข็งแกร่งการปรับปรุงบนรุ่นก่อน แต่ไม่ได้เชี่ยวชาญในการใช้เหตุผลระดับสูงที่ O3-Mini เก่งกว่า
แหล่งที่มา: OpenAi
ใน OpenAi
หนึ่งในการปรับปรุงที่สำคัญที่สุดคือในขอบเขตของความแม่นยำจริงและลดภาพหลอน ในเกณฑ์มาตรฐาน PersonQA ซึ่งนำเสนอคำถามเกี่ยวกับข้อเท็จจริงที่เปิดเผยต่อสาธารณชนเกี่ยวกับบุคคล GPT-4.5 แสดงให้เห็นถึงอัตราความแม่นยำที่สูงขึ้นอย่างมาก (78%) เมื่อเทียบกับ GPT-4O (28%) และแม้กระทั่งมีประสิทธิภาพสูงกว่า O1 (55%) สิ่งนี้บ่งชี้ว่าการลงดินที่แข็งแกร่งขึ้นในความเป็นจริงและแนวโน้มที่ลดลงในการประดิษฐ์ข้อมูล
พื้นที่สำคัญอีกประการหนึ่งของการปรับปรุงคือประสิทธิภาพหลายภาษา OpenAI ประเมิน GPT-4.5 บนมาตรฐาน MMLU (การทำความเข้าใจภาษามัลติทาสก์ขนาดใหญ่) MMLU เป็นการทดสอบที่ครอบคลุมซึ่งประเมินความรู้ของแบบจำลองในวิชาที่หลากหลายโดยจำลองความเข้าใจระดับมนุษย์ในหลายสาขา
อย่างมากโดยใช้นักแปลของมนุษย์สำหรับการประเมินนี้ ผลลัพธ์มีความชัดเจน: GPT-4.5 มีประสิทธิภาพสูงกว่า GPT-4O ในภาษาที่ผ่านการทดสอบทั้งหมด 14 ภาษาแสดงให้เห็นถึงความสามารถในการทำงานในหลากหลายภาษา
ความสามารถของ GPT-4.5 ในการเลียนแบบทักษะของวิศวกรวิจัยที่ OpenAi ถูกทดสอบโดยใช้คำถามสัมภาษณ์ภายใน โมเดลทำงานได้ดีจับคู่คะแนนการวิจัยอย่างลึกซึ้งเกี่ยวกับคำถามการเข้ารหัส (ความแม่นยำ 79%) และดำเนินการคล้ายกับ O1 และ O3-MINI ในส่วนที่หลากหลาย (ความแม่นยำ 80%) สิ่งนี้บ่งชี้ถึงความสามารถที่แข็งแกร่งในการเขียนโปรแกรมหลักและแนวคิดการเรียนรู้ของเครื่อง
การประเมิน METR กำหนดประสิทธิภาพของ GPT-4.5 ในงาน Autonomy และ AI R&D โมเดลที่ดำเนินการระหว่างระดับที่เข้าถึงได้โดย GPT-4O และ O1 โดยมีคะแนนขอบฟ้าเวลาประมาณประมาณ 30 นาทีซึ่งเป็นระยะเวลาของงานที่โมเดลสามารถทำได้ด้วยความน่าเชื่อถือ 50%
ในการตรวจสอบความสำเร็จของ SWE อย่างไรก็ตามมันยังคงล่าช้าอย่างมีนัยสำคัญหลังรูปแบบการวิจัยที่ลึกซึ่งได้รับคะแนนที่สูงขึ้นอย่างมาก
ในทำนองเดียวกันในการรวบรวมงานตัวแทนที่ออกแบบมาเพื่อประเมินการได้มาซึ่งทรัพยากรและการแก้ปัญหาในสภาพแวดล้อมที่จำลองได้ GPT-4.5 ได้รับการออกแบบที่แท้จริง บน MLE-BENCH ซึ่งเกี่ยวข้องกับการแก้ปัญหาการแข่งขัน Kaggle (วิทยาศาสตร์ข้อมูลและความท้าทายการเรียนรู้ของเครื่อง), GPT-4.5 ดำเนินการเทียบเท่ากับ O1, O3-MINI และการวิจัยอย่างลึกซึ้งทั้งหมดทำคะแนนได้ 11%
การเปิดตัวของ OpenAI
ในที่สุดบน Swe-Lancer ซึ่งเป็นแพลตฟอร์มของงานจริงงานวิศวกรรมซอฟต์แวร์ที่ได้รับค่าจ้าง, GPT-4.5 แสดงให้เห็นถึงการปรับปรุงเล็กน้อยของ O1 ในงานผู้มีส่วนร่วมทั้งสอง (แก้ไข 20%) และงานระดับการจัดการ (ลดลง 44%) src=”data: imagesvg+xml; nitro-empty-id=mtcynzoxnti3-1; base64, phn2zyb2awv3qm94psiwidagmtaynca1nz ciihdpzhropsixmdi0iibozwlnahq9iju3nyigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”> >>> ที่มา: Openai
การมุ่งเน้นของ OpenAi เกี่ยวกับความปลอดภัยและการลดภาพหลอน
OpenAI ได้รับการประเมินความปลอดภัย GPT-4.5 ของแบตเตอรี่อย่างเข้มงวดซึ่งสะท้อนให้เห็นถึงความสำคัญที่เพิ่มขึ้นของการพัฒนา AI ที่รับผิดชอบ การทดสอบเหล่านี้ตรวจสอบความสามารถของแบบจำลองในการจัดการกับคำขอที่เป็นอันตรายต่อต้านการจัดการและหลีกเลี่ยงอคติที่ยืดเยื้อ ในขณะที่ GPT-4.5 แสดงให้เห็นถึงความก้าวหน้าที่เพิ่มขึ้นในหลาย ๆ ด้านผลลัพธ์วาดภาพที่ซับซ้อนโดยเน้นถึงความท้าทายอย่างต่อเนื่องในการสร้างระบบ AI ที่ปลอดภัยและไม่เอนเอียงอย่างแท้จริง
จุดสนใจหลักของการประเมินคือการป้องกันไม่ให้โมเดลสร้างเนื้อหาที่ไม่อนุญาต ซึ่งรวมถึงหมวดหมู่เช่นคำพูดแสดงความเกลียดชังคำแนะนำที่ผิดกฎหมายและคำตอบที่ละเมิดความเป็นส่วนตัว ในการประเมินแบบข้อความมาตรฐาน GPT-4.5 ดำเนินการเทียบเท่ากับรุ่นก่อน GPT-4O ในการปฏิเสธที่จะสร้างเอาต์พุตที่ไม่ปลอดภัย
อย่างไรก็ตามเมื่อนำเสนอด้วยอินพุตหลายรูปแบบ (การรวมกันของข้อความและภาพ) สิ่งนี้เน้นการแลกเปลี่ยน: การควบคุมความปลอดภัยที่เข้มงวดบางครั้งอาจนำไปสู่พฤติกรรมที่ระมัดระวังมากเกินไป
![]()
กับ GPT-5 ที่ปรากฏในอนาคตอันใกล้ GPT-4.5 ทำหน้าที่เป็นการปรับแต่งมากกว่าการคิดค้น แนวทางของ Openai ดูเหมือนจะเป็นการอัพเกรดอย่างต่อเนื่องมากกว่าการยกเครื่องครั้งใหญ่ไม่บ่อยนัก-อย่างน้อยก็จนกว่าจะมีการก้าวกระโดดครั้งใหญ่ครั้งต่อไปในการให้เหตุผล AI