OpenAI ได้เปิดตัว GPT-4.5 ซึ่งสร้างแบรนด์ให้เป็นรูปแบบที่กว้างขวางและมีความรู้มากที่สุดที่ บริษัท ได้สร้างขึ้นมา แต่มีการจับ-Openai ยืนยันว่านี่ไม่ใช่การก้าวกระโดดทางเทคโนโลยีที่สำคัญ GPT-4.5 ซึ่งมีให้บริการในการวิจัยปรับปรุง GPT-4O รุ่นก่อน แต่ไม่ได้นำความก้าวหน้าที่จะจัดประเภทเป็นระบบ AI ชายแดน

รุ่นนี้จะถูกปล่อยให้ผู้ใช้ Chatgpt Pro ในวันนี้ เช่นเดียวกับ GPT-4O มันรองรับการอัปโหลดรูปภาพ, chatgpt canvas และการค้นหาสด

ตาม Openai-Ceo Sam Altman, GPT-4.5 คือ“ โมเดลยักษ์ราคาแพง” เขากล่าวในโพสต์ใน X ความสูง=”577″src=”ข้อมูล: image/svg+xml; nitro-empty-id=mty4otoxmzuw-1; base64, phn2zyb2awv3qm94psiwidagmtaynca1nz Ciihdpzhropsixmdi0iibozwlnahq9iju3nyigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”> >>>

GPT-4.5 พร้อมแล้ว!

ข่าวดี: มันเป็นรุ่นแรกที่ให้ความรู้สึกเหมือนพูดคุยกับคนที่รอบคอบกับฉัน href=”https://twitter.com/sama/status/1895203654103351462?ref_src=twsrc%5etfw”> 27 กุมภาพันธ์ 2025 ทั้งหมด ระดับการใช้งานที่จ่าย โมเดลรองรับคุณสมบัติที่สำคัญเช่นการเรียกใช้ฟังก์ชันเอาต์พุตที่มีโครงสร้างการสตรีมและข้อความระบบ นอกจากนี้ยังรองรับความสามารถในการมองเห็นผ่านอินพุตภาพ

ในขณะที่ OpenAI อ้างว่า GPT-4.5 ปรับปรุงความถูกต้องตามความเป็นจริงและสร้างการตอบสนองที่เป็นธรรมชาติมากขึ้น บริษัท ยอมรับว่ามันตกอยู่เบื้องหลังแบบจำลองการใช้เหตุผลพิเศษในบางพื้นที่ ปรับแต่งคุณสมบัติที่มีอยู่และเพิ่มประสิทธิภาพการตอบสนอง OpenAI อธิบายว่ามันมีประสิทธิภาพมากกว่าการคำนวณมากกว่า GPT-4 ซึ่งได้รับประสิทธิภาพที่ดีขึ้นกว่าสิบเท่าในการประมวลผลอำนาจ

เพื่อฝึกอบรมแบบจำลอง OpenAI ผสมผสานวิธีการดั้งเดิมด้วยเทคนิคใหม่รวมถึงการปรับแต่งการปรับแต่ง (SFT) และการเรียนรู้เสริมแรงจากคำติชมของมนุษย์ (RLHF) วิธีการนี้มีวัตถุประสงค์เพื่อให้การโต้ตอบของเหลวมากขึ้นลดการตอบสนองที่ไม่ถูกต้องและปรับปรุงการใช้งานในแอปพลิเคชันในโลกแห่งความเป็นจริง

แม้จะมีการอัพเกรดเหล่านี้ OpenAI ทำให้ชัดเจนว่า GPT-4.5 ไม่ใช่แบบจำลองที่มีความสามารถมากที่สุดในการใช้เหตุผล แบบจำลองอื่น ๆ เช่น O1 และ O3-MINI ทำงานได้ดีขึ้นในพื้นที่เฉพาะโดยเฉพาะอย่างยิ่งในการแก้ปัญหาที่มีโครงสร้างและการประเมินเชิงตรรกะ

[เนื้อหาที่ฝังตัว]

ผลการปฏิบัติงาน GPT-4.5 ’24), การเข้ารหัส (SWE-BENCH และเพชร SWE-LANCER), งานหลายภาษา (MMMLU), และงานหลายรูปแบบ (MMMU).

อย่างไรก็ตามเมื่อเปรียบเทียบกับแบบจำลองที่เน้นการใช้เหตุผล

ในขณะที่ O3-MINI แสดงคะแนนลดลงอย่างมีนัยสำคัญในการวัดประสิทธิภาพการเข้ารหัสอื่น (Swe-Lancer Diamond) สิ่งนี้ตอกย้ำการวางตำแหน่งของ GPT-4.5 เป็นแบบจำลองอเนกประสงค์ที่แข็งแกร่งการปรับปรุงบนรุ่นก่อน แต่ไม่ได้เชี่ยวชาญในการใช้เหตุผลระดับสูงที่ O3-Mini เก่งกว่า

แหล่งที่มา: OpenAi

​​ใน OpenAi

หนึ่งในการปรับปรุงที่สำคัญที่สุดคือในขอบเขตของความแม่นยำจริงและลดภาพหลอน ในเกณฑ์มาตรฐาน PersonQA ซึ่งนำเสนอคำถามเกี่ยวกับข้อเท็จจริงที่เปิดเผยต่อสาธารณชนเกี่ยวกับบุคคล GPT-4.5 แสดงให้เห็นถึงอัตราความแม่นยำที่สูงขึ้นอย่างมาก (78%) เมื่อเทียบกับ GPT-4O (28%) และแม้กระทั่งมีประสิทธิภาพสูงกว่า O1 (55%) สิ่งนี้บ่งชี้ว่าการลงดินที่แข็งแกร่งขึ้นในความเป็นจริงและแนวโน้มที่ลดลงในการประดิษฐ์ข้อมูล

พื้นที่สำคัญอีกประการหนึ่งของการปรับปรุงคือประสิทธิภาพหลายภาษา OpenAI ประเมิน GPT-4.5 บนมาตรฐาน MMLU (การทำความเข้าใจภาษามัลติทาสก์ขนาดใหญ่) MMLU เป็นการทดสอบที่ครอบคลุมซึ่งประเมินความรู้ของแบบจำลองในวิชาที่หลากหลายโดยจำลองความเข้าใจระดับมนุษย์ในหลายสาขา

อย่างมากโดยใช้นักแปลของมนุษย์สำหรับการประเมินนี้ ผลลัพธ์มีความชัดเจน: GPT-4.5 มีประสิทธิภาพสูงกว่า GPT-4O ในภาษาที่ผ่านการทดสอบทั้งหมด 14 ภาษาแสดงให้เห็นถึงความสามารถในการทำงานในหลากหลายภาษา

ความสามารถของ GPT-4.5 ในการเลียนแบบทักษะของวิศวกรวิจัยที่ OpenAi ถูกทดสอบโดยใช้คำถามสัมภาษณ์ภายใน โมเดลทำงานได้ดีจับคู่คะแนนการวิจัยอย่างลึกซึ้งเกี่ยวกับคำถามการเข้ารหัส (ความแม่นยำ 79%) และดำเนินการคล้ายกับ O1 และ O3-MINI ในส่วนที่หลากหลาย (ความแม่นยำ 80%) สิ่งนี้บ่งชี้ถึงความสามารถที่แข็งแกร่งในการเขียนโปรแกรมหลักและแนวคิดการเรียนรู้ของเครื่อง

การประเมิน METR กำหนดประสิทธิภาพของ GPT-4.5 ในงาน Autonomy และ AI R&D โมเดลที่ดำเนินการระหว่างระดับที่เข้าถึงได้โดย GPT-4O และ O1 โดยมีคะแนนขอบฟ้าเวลาประมาณประมาณ 30 นาทีซึ่งเป็นระยะเวลาของงานที่โมเดลสามารถทำได้ด้วยความน่าเชื่อถือ 50%

ในการตรวจสอบความสำเร็จของ SWE อย่างไรก็ตามมันยังคงล่าช้าอย่างมีนัยสำคัญหลังรูปแบบการวิจัยที่ลึกซึ่งได้รับคะแนนที่สูงขึ้นอย่างมาก

ในทำนองเดียวกันในการรวบรวมงานตัวแทนที่ออกแบบมาเพื่อประเมินการได้มาซึ่งทรัพยากรและการแก้ปัญหาในสภาพแวดล้อมที่จำลองได้ GPT-4.5 ได้รับการออกแบบที่แท้จริง บน MLE-BENCH ซึ่งเกี่ยวข้องกับการแก้ปัญหาการแข่งขัน Kaggle (วิทยาศาสตร์ข้อมูลและความท้าทายการเรียนรู้ของเครื่อง), GPT-4.5 ดำเนินการเทียบเท่ากับ O1, O3-MINI และการวิจัยอย่างลึกซึ้งทั้งหมดทำคะแนนได้ 11%

การเปิดตัวของ OpenAI

ในที่สุดบน Swe-Lancer ซึ่งเป็นแพลตฟอร์มของงานจริงงานวิศวกรรมซอฟต์แวร์ที่ได้รับค่าจ้าง, GPT-4.5 แสดงให้เห็นถึงการปรับปรุงเล็กน้อยของ O1 ในงานผู้มีส่วนร่วมทั้งสอง (แก้ไข 20%) และงานระดับการจัดการ (ลดลง 44%) src=”data: imagesvg+xml; nitro-empty-id=mtcynzoxnti3-1; base64, phn2zyb2awv3qm94psiwidagmtaynca1nz ciihdpzhropsixmdi0iibozwlnahq9iju3nyigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”> >>> ที่มา: Openai

การมุ่งเน้นของ OpenAi เกี่ยวกับความปลอดภัยและการลดภาพหลอน

OpenAI ได้รับการประเมินความปลอดภัย GPT-4.5 ของแบตเตอรี่อย่างเข้มงวดซึ่งสะท้อนให้เห็นถึงความสำคัญที่เพิ่มขึ้นของการพัฒนา AI ที่รับผิดชอบ การทดสอบเหล่านี้ตรวจสอบความสามารถของแบบจำลองในการจัดการกับคำขอที่เป็นอันตรายต่อต้านการจัดการและหลีกเลี่ยงอคติที่ยืดเยื้อ ในขณะที่ GPT-4.5 แสดงให้เห็นถึงความก้าวหน้าที่เพิ่มขึ้นในหลาย ๆ ด้านผลลัพธ์วาดภาพที่ซับซ้อนโดยเน้นถึงความท้าทายอย่างต่อเนื่องในการสร้างระบบ AI ที่ปลอดภัยและไม่เอนเอียงอย่างแท้จริง

จุดสนใจหลักของการประเมินคือการป้องกันไม่ให้โมเดลสร้างเนื้อหาที่ไม่อนุญาต ซึ่งรวมถึงหมวดหมู่เช่นคำพูดแสดงความเกลียดชังคำแนะนำที่ผิดกฎหมายและคำตอบที่ละเมิดความเป็นส่วนตัว ในการประเมินแบบข้อความมาตรฐาน GPT-4.5 ดำเนินการเทียบเท่ากับรุ่นก่อน GPT-4O ในการปฏิเสธที่จะสร้างเอาต์พุตที่ไม่ปลอดภัย

อย่างไรก็ตามเมื่อนำเสนอด้วยอินพุตหลายรูปแบบ (การรวมกันของข้อความและภาพ) สิ่งนี้เน้นการแลกเปลี่ยน: การควบคุมความปลอดภัยที่เข้มงวดบางครั้งอาจนำไปสู่พฤติกรรมที่ระมัดระวังมากเกินไป

>>> ที่มา: Openai

​​รายละเอียดของการประเมินเหล่านี้แยกการตอบสนองตามประเภทของเนื้อหาที่เป็นอันตราย (ทางเพศ, ความเกลียดชัง, ทำร้ายตัวเอง ฯลฯ ) เปิดเผยว่าระดับของความสำเร็จในการปฏิเสธคำขอดังกล่าวแตกต่างกันอย่างมากขึ้นอยู่กับหัวข้อ

พื้นที่สำคัญอีกประการหนึ่ง ในความพยายามของการแหกคุกที่มาจากมนุษย์ GPT-4.5 แสดงให้เห็นถึงการปรับปรุงความทนทานเล็กน้อยเมื่อเทียบกับ GPT-4O.

อย่างไรก็ตามในเกณฑ์มาตรฐานที่แข็งแกร่งการทดสอบทางวิชาการและโครงสร้างของการต่อต้านการแหกคุก GPT-4.5 สิ่งนี้บ่งชี้ว่าในขณะที่มีความคืบหน้าบางอย่างโมเดลยังคงเสี่ยงต่อการโจมตีที่ซับซ้อนบางประเภท

ความสามารถของแบบจำลองที่จะปฏิบัติตามลำดับชั้นการเรียนการสอนที่กำหนดไว้ล่วงหน้าก็มีความสำคัญต่อความปลอดภัยเช่นกัน นี่หมายถึงการรับรองว่าคำแนะนำระดับระบบ (ออกแบบมาเพื่อส่งเสริมพฤติกรรมที่ปลอดภัย) มีความสำคัญกว่าคำขอของผู้ใช้ที่อาจขัดแย้งกัน

GPT-4.5 โดยทั่วไปมีประสิทธิภาพสูงกว่า GPT-4O ในคำแนะนำระบบต่อไปนี้ โดยเฉพาะอย่างยิ่งในสถานการณ์การสอนแบบจำลอง GPT-4.5 นั้นมีความอ่อนไหวมากกว่า O1 ที่จะถูกหลอกให้เปิดเผยคำตอบแม้ว่ามันจะทำงานได้ดีกว่า GPT-4O แนวโน้มที่คล้ายกันถูกสังเกตในการทดสอบที่ออกแบบมาเพื่อปกป้องวลีและรหัสผ่านที่เฉพาะเจาะจง

การประเมินผลทีมสีแดงซึ่งเกี่ยวข้องกับการพยายามตอบสนองต่อการตอบสนองที่เป็นอันตรายอย่างแข็งขันให้ข้อมูลเชิงลึกเพิ่มเติม GPT-4.5 ทำงานได้ดีกว่า GPT-4O เล็กน้อยในชุดการประเมินผลทีมสีแดงที่ท้าทายเล็กน้อย แต่มีประสิทธิภาพต่ำกว่าทั้งการวิจัยลึกและ O1 ในอีกชุดหนึ่งแสดงให้เห็นว่ายังคงมีความอ่อนไหวต่อการสร้างเนื้อหาที่มีปัญหา href=”https://cdn.openai.com/openai-preparedness-framework-beta.pdf”> กรอบการเตรียมการ ซึ่งประเมินความเสี่ยงที่อาจเกิดขึ้นจากหายนะ แบบจำลองถูกจัดประเภทเป็นความเสี่ยงปานกลางโดยรวม โดยเฉพาะอย่างยิ่งได้รับคะแนนความเสี่ยงต่ำสำหรับความปลอดภัยทางไซเบอร์ซึ่งหมายความว่ามันไม่ได้มีความสามารถขั้นสูงที่เกี่ยวข้องกับการใช้ประโยชน์จากช่องโหว่ของคอมพิวเตอร์ อย่างไรก็ตามได้รับการจัดอันดับความเสี่ยงปานกลางสำหรับการสร้างภัยคุกคามทางเคมีและชีวภาพ (CBRN) และการโน้มน้าวใจ

ในหมวดหมู่ CBRN ในขณะที่แบบจำลองหลังการตัดสินปฏิเสธขั้นตอนทั้งหมดในกระบวนการสร้างภัยคุกคามทางชีวภาพ หมายความว่ามันมีประสิทธิภาพสูงในการโน้มน้าวใจโมเดล AI อื่น ๆ (จำลองมนุษย์) เพื่อดำเนินการเฉพาะเช่นการชำระเงินหรือพูดว่า codeword การจัดอันดับความเสี่ยงระดับปานกลางเหล่านี้เน้นความกังวลอย่างต่อเนื่องและความจำเป็นในการเฝ้าระวังอย่างต่อเนื่อง โมเดลความเป็นอิสระได้รับการประกาศว่ามีความเสี่ยงต่ำ

ช่วงเวลาเชิงกลยุทธ์ขณะที่ OpenAI เตรียมสำหรับ GPT-5

การเปิดตัว GPT-4.5 ดูเหมือนจะเป็นการคำนวณที่คำนวณได้ CEO Sam Altman ได้บอกใบ้ว่า GPT-5 กำลังอยู่ในระหว่างการพัฒนาแล้วโดยมีการเปิดตัวที่เป็นไปได้เร็วที่สุดเท่าที่พฤษภาคม 2568 การทำซ้ำครั้งสำคัญครั้งต่อไปคาดว่าจะมีการใช้เหตุผล O3 ซึ่งเป็นระบบขั้นสูงที่ OpenAI ได้รับการล้อเล่นมาตั้งแต่ปลายปี 2024 บริษัท ยังได้ทำการทดสอบวิธีการรวมโมเดล AI หลายรุ่นโดยแนะนำว่าเวอร์ชันในอนาคตสามารถรวมเอ็นจิ้นให้เหตุผลสำหรับระบบ AI ขั้นสูงมากขึ้น

กับ GPT-5 ที่ปรากฏในอนาคตอันใกล้ GPT-4.5 ทำหน้าที่เป็นการปรับแต่งมากกว่าการคิดค้น แนวทางของ Openai ดูเหมือนจะเป็นการอัพเกรดอย่างต่อเนื่องมากกว่าการยกเครื่องครั้งใหญ่ไม่บ่อยนัก-อย่างน้อยก็จนกว่าจะมีการก้าวกระโดดครั้งใหญ่ครั้งต่อไปในการให้เหตุผล AI

Categories: IT Info