Deepseek ได้เปิดตัวโมเดล AI โอเพนซอร์สล่าสุด Deepseek-R1 และ Deepseek-R1-Zero ใหม่โดยนิยามใหม่ว่าความสามารถในการใช้เหตุผลสามารถทำได้ผ่านการเรียนรู้เสริมแรง (RL)
รุ่นใหม่ ท้าทายการพัฒนา AI ทั่วไปโดยพิสูจน์ว่าการปรับแต่ง (SFT) ไม่จำเป็นสำหรับการปลูกฝังความสามารถในการแก้ปัญหาขั้นสูง ด้วยผลการวัดประสิทธิภาพที่เป็นกรรมสิทธิ์ของระบบที่เป็นกรรมสิทธิ์เช่น OpenAi ซีรี่ส์ OPEA ของ OpenAI โมเดลของ Deepseek แสดงให้เห็นถึงศักยภาพที่เพิ่มขึ้นของ AI โอเพนซอร์ซในการส่งมอบเครื่องมือที่มีประสิทธิภาพสูงในการแข่งขัน
ความสำเร็จของโมเดลเหล่านี้อยู่ในแนวทางที่ไม่ซ้ำกัน การเรียนรู้ (RL) การแนะนำข้อมูลเริ่มต้นเย็นและกระบวนการกลั่นที่มีประสิทธิภาพ นวัตกรรมเหล่านี้ได้สร้างความสามารถในการใช้เหตุผลในการเข้ารหัสคณิตศาสตร์และงานตรรกะทั่วไปโดยเน้นย้ำถึงความเป็นไปได้ของโอเพนซอร์ซ AI ในฐานะคู่แข่งของโมเดลที่เป็นกรรมสิทธิ์”ข้อมูล: image/gif; base64, r0lgodlhaqabaaaaaach5baekaaealaaaaaabaaaaaaicaaow==”>
ที่เกี่ยวข้อง: แหล่งเปิด AI Open Deepseek-Source ศักยภาพ
ประสิทธิภาพของ Deepseek-R1 ในการเปรียบเทียบที่ได้รับการยอมรับอย่างกว้างขวางยืนยันความสามารถของมัน:
ใน Math-500 ซึ่งเป็นชุดข้อมูลที่ออกแบบมาเพื่อประเมินปัญหาทางคณิตศาสตร์การแก้ปัญหาทางคณิตศาสตร์ R1 ประสบความสำเร็จในการผ่าน@1 คะแนน 97.3%โดยจับคู่โมเดล O1-1217 ของ Openai ในเกณฑ์มาตรฐาน AIME 2024 ซึ่งมุ่งเน้นไปที่งานการใช้เหตุผลขั้นสูงโมเดลได้คะแนน 79.8%เหนือกว่าผลลัพธ์ของ OpenAi เล็กน้อย
ประสิทธิภาพของโมเดลใน LiveCodeBench ซึ่งเป็นเกณฑ์มาตรฐานสำหรับการเข้ารหัสและงานตรรกะ คะแนน PASS@1-COT 65.9% จากการวิจัยของ Deepseek สิ่งนี้ทำให้เป็นหนึ่งในนักแสดงชั้นนำในแบบจำลองโอเพ่น-content/uploads/2025/01/เปรียบเทียบ BetWeendeepSeek-R1andotherRepresentAtiveModels.jpg”>
บริษัท ได้ลงทุนอย่างหนักในการกลั่นเพื่อให้มั่นใจว่า Deepseek-R1 รุ่นเล็ก ๆ ยังคงรักษาความสามารถในการใช้เหตุผลขนาดใหญ่ โดยเฉพาะอย่างยิ่งโมเดลพารามิเตอร์ 32 พันล้าน, Deepseek-R1-Distill-Qwen-32B, OpenAI ของ OpenAi ในหลายหมวดหมู่ในขณะที่สามารถเข้าถึงได้มากขึ้น
การเรียนรู้การเสริมแรงโดยไม่ต้องมีการควบคุม เป็นความพยายามที่กล้าหาญของ บริษัท ในการสำรวจการฝึกอบรม RL เท่านั้น มันใช้อัลกอริทึมที่ไม่ซ้ำกันการเพิ่มประสิทธิภาพนโยบายสัมพัทธ์ของกลุ่ม (GRPO) ซึ่งปรับปรุงการฝึกอบรม RL โดยไม่จำเป็นต้องใช้โมเดลนักวิจารณ์แยกต่างหาก
แต่ใช้คะแนนกลุ่มเพื่อประเมินพื้นฐานลดต้นทุนการคำนวณอย่างมีนัยสำคัญในขณะที่ รักษาคุณภาพการฝึกอบรม วิธีการนี้ช่วยให้แบบจำลองสามารถพัฒนาพฤติกรรมการใช้เหตุผลรวมถึงการใช้เหตุผลแบบห่วงโซ่ (COT) และการสะท้อนตนเอง
รายงานการวิจัย ทีมงาน Deepseek กล่าว >“ Deepseek-R1-Zero แสดงให้เห็นถึงความสามารถเช่นการตรวจสอบตนเองการสะท้อนและการสร้างเปลที่มีความยาว อย่างไรก็ตามมันต้องดิ้นรนกับการทำซ้ำการอ่านและการผสมภาษาทำให้ไม่เหมาะสมสำหรับกรณีการใช้งานจริง”
ในขณะที่พฤติกรรมฉุกเฉินเหล่านี้มีแนวโน้มข้อ จำกัด ของโมเดลเน้นถึงความจำเป็นในการปรับแต่งตัวอย่างเช่น ผลลัพธ์ของมันซ้ำกันซ้ำ ๆ หรือแสดงปัญหาภาษาผสมลดการใช้งานในสถานการณ์จริง
จากการฝึกอบรม RL-only ถึงไฮบริด: Deepseek-R1
เพื่อจัดการกับความท้าทายเหล่านี้ Deepseek ได้พัฒนา Deepseek-R1 โดยรวม RL เข้ากับการปรับแต่งที่มีการควบคุมดูแล โมเดลเข้าสู่ RL ด้วยความสามารถที่ดีขึ้นเพื่อตอบสนองความคาดหวังของมนุษย์เพื่อความชัดเจนและความเกี่ยวข้อง
ที่เกี่ยวข้อง: Llama Ai Under Fire: Meta ไม่ได้บอกคุณเกี่ยวกับ”โอเพ่นซอร์ส”โมเดล
Deepseek อธิบายวิธีการนี้ในเอกสารประกอบ:
“ ไม่เหมือนกับ R1-Zero เพื่อป้องกันระยะเริ่มต้นเย็นที่ไม่เสถียรในช่วงต้นของการฝึกอบรม RL จากโมเดลพื้นฐานสำหรับ R1 เราสร้างและรวบรวมขนาดเล็ก จำนวนข้อมูล COT ยาวเพื่อปรับโมเดลเป็นนักแสดง RL เริ่มต้น”
ท่อยังรวมถึงการวนซ้ำ RL เพื่อปรับแต่งการใช้เหตุผลและความสามารถในการแก้ปัญหาเพิ่มเติม ในฐานะที่เป็นหลักฐานการเข้ารหัสและคณิตศาสตร์
การเข้าถึงโอเพนซอร์ซและความท้าทายในอนาคต
Deepseek ได้เปิดตัวโมเดลภายใต้ใบอนุญาต MIT โดยเน้นความมุ่งมั่นในการเปิด หลักการที่มา รูปแบบการออกใบอนุญาตนี้ช่วยให้นักวิจัยและนักพัฒนาสามารถใช้งานแก้ไขและสร้างงานของ Deepseek ได้อย่างอิสระส่งเสริมการทำงานร่วมกันและนวัตกรรมในชุมชน AI
แม้จะประสบความสำเร็จ แต่ทีมก็ยอมรับว่าความท้าทายยังคงอยู่ เอาท์พุทภาษาผสมความไวที่รวดเร็วและความต้องการความสามารถทางวิศวกรรมซอฟต์แวร์ที่ดีขึ้นเป็นพื้นที่สำหรับการปรับปรุง การทำซ้ำในอนาคตของ Deepseek-R1 จะมุ่งมั่นที่จะจัดการกับข้อ จำกัด เหล่านี้ในขณะที่ขยายการทำงานไปยังโดเมนใหม่
นักวิจัยได้แสดงการมองโลกในแง่ดีเกี่ยวกับความคืบหน้าของพวกเขา เริ่มต้นข้อมูลกับนักบวชมนุษย์เราสังเกตประสิทธิภาพที่ดีขึ้นกับ Deepseek-R1-Zero เราเชื่อว่าการฝึกอบรมซ้ำเป็นวิธีที่ดีกว่าสำหรับแบบจำลองการให้เหตุผล”
ผลกระทบต่ออุตสาหกรรม AI
การทำงานของ Deepseek ส่งสัญญาณการเปลี่ยนแปลงในภูมิทัศน์การวิจัย AI ในขณะที่โมเดลโอเพ่นซอร์สสามารถแข่งขันกับผู้นำที่เป็นกรรมสิทธิ์ได้ โอเพนซอร์ซ AI ยังคงพัฒนาอย่างต่อเนื่องความก้าวหน้าของ Deepseek-R1 เป็นพิมพ์เขียวสำหรับการใช้ประโยชน์จาก RL เพื่อสร้างโมเดลที่มีประสิทธิภาพสูงและมีประสิทธิภาพสูง
“ ไม่เหมือนกับ R1-Zero เพื่อป้องกันระยะเริ่มต้นเย็นที่ไม่เสถียรในช่วงต้นของการฝึกอบรม RL จากโมเดลพื้นฐานสำหรับ R1 เราสร้างและรวบรวมขนาดเล็ก จำนวนข้อมูล COT ยาวเพื่อปรับโมเดลเป็นนักแสดง RL เริ่มต้น”