Deepseek ได้เปิดตัวโมเดล AI โอเพนซอร์สล่าสุด Deepseek-R1 และ Deepseek-R1-Zero ใหม่โดยนิยามใหม่ว่าความสามารถในการใช้เหตุผลสามารถทำได้ผ่านการเรียนรู้เสริมแรง (RL)

รุ่นใหม่ ท้าทายการพัฒนา AI ทั่วไปโดยพิสูจน์ว่าการปรับแต่ง (SFT) ไม่จำเป็นสำหรับการปลูกฝังความสามารถในการแก้ปัญหาขั้นสูง ด้วยผลการวัดประสิทธิภาพที่เป็นกรรมสิทธิ์ของระบบที่เป็นกรรมสิทธิ์เช่น OpenAi ซีรี่ส์ OPEA ของ OpenAI โมเดลของ Deepseek แสดงให้เห็นถึงศักยภาพที่เพิ่มขึ้นของ AI โอเพนซอร์ซในการส่งมอบเครื่องมือที่มีประสิทธิภาพสูงในการแข่งขัน

ความสำเร็จของโมเดลเหล่านี้อยู่ในแนวทางที่ไม่ซ้ำกัน การเรียนรู้ (RL) การแนะนำข้อมูลเริ่มต้นเย็นและกระบวนการกลั่นที่มีประสิทธิภาพ นวัตกรรมเหล่านี้ได้สร้างความสามารถในการใช้เหตุผลในการเข้ารหัสคณิตศาสตร์และงานตรรกะทั่วไปโดยเน้นย้ำถึงความเป็นไปได้ของโอเพนซอร์ซ AI ในฐานะคู่แข่งของโมเดลที่เป็นกรรมสิทธิ์”ข้อมูล: image/gif; base64, r0lgodlhaqabaaaaaach5baekaaealaaaaaabaaaaaaicaaow==”>

ที่เกี่ยวข้อง: แหล่งเปิด AI Open Deepseek-Source ศักยภาพ

ประสิทธิภาพของ Deepseek-R1 ในการเปรียบเทียบที่ได้รับการยอมรับอย่างกว้างขวางยืนยันความสามารถของมัน:

ใน Math-500 ซึ่งเป็นชุดข้อมูลที่ออกแบบมาเพื่อประเมินปัญหาทางคณิตศาสตร์การแก้ปัญหาทางคณิตศาสตร์ R1 ประสบความสำเร็จในการผ่าน@1 คะแนน 97.3%โดยจับคู่โมเดล O1-1217 ของ Openai ในเกณฑ์มาตรฐาน AIME 2024 ซึ่งมุ่งเน้นไปที่งานการใช้เหตุผลขั้นสูงโมเดลได้คะแนน 79.8%เหนือกว่าผลลัพธ์ของ OpenAi เล็กน้อย

ประสิทธิภาพของโมเดลใน LiveCodeBench ซึ่งเป็นเกณฑ์มาตรฐานสำหรับการเข้ารหัสและงานตรรกะ คะแนน PASS@1-COT 65.9% จากการวิจัยของ Deepseek สิ่งนี้ทำให้เป็นหนึ่งในนักแสดงชั้นนำในแบบจำลองโอเพ่น-content/uploads/2025/01/เปรียบเทียบ BetWeendeepSeek-R1andotherRepresentAtiveModels.jpg”>

บริษัท ได้ลงทุนอย่างหนักในการกลั่นเพื่อให้มั่นใจว่า Deepseek-R1 รุ่นเล็ก ๆ ยังคงรักษาความสามารถในการใช้เหตุผลขนาดใหญ่ โดยเฉพาะอย่างยิ่งโมเดลพารามิเตอร์ 32 พันล้าน, Deepseek-R1-Distill-Qwen-32B, OpenAI ของ OpenAi ในหลายหมวดหมู่ในขณะที่สามารถเข้าถึงได้มากขึ้น

การเรียนรู้การเสริมแรงโดยไม่ต้องมีการควบคุม เป็นความพยายามที่กล้าหาญของ บริษัท ในการสำรวจการฝึกอบรม RL เท่านั้น มันใช้อัลกอริทึมที่ไม่ซ้ำกันการเพิ่มประสิทธิภาพนโยบายสัมพัทธ์ของกลุ่ม (GRPO) ซึ่งปรับปรุงการฝึกอบรม RL โดยไม่จำเป็นต้องใช้โมเดลนักวิจารณ์แยกต่างหาก

แต่ใช้คะแนนกลุ่มเพื่อประเมินพื้นฐานลดต้นทุนการคำนวณอย่างมีนัยสำคัญในขณะที่ รักษาคุณภาพการฝึกอบรม วิธีการนี้ช่วยให้แบบจำลองสามารถพัฒนาพฤติกรรมการใช้เหตุผลรวมถึงการใช้เหตุผลแบบห่วงโซ่ (COT) และการสะท้อนตนเอง

รายงานการวิจัย ทีมงาน Deepseek กล่าว >“ Deepseek-R1-Zero แสดงให้เห็นถึงความสามารถเช่นการตรวจสอบตนเองการสะท้อนและการสร้างเปลที่มีความยาว อย่างไรก็ตามมันต้องดิ้นรนกับการทำซ้ำการอ่านและการผสมภาษาทำให้ไม่เหมาะสมสำหรับกรณีการใช้งานจริง”

ในขณะที่พฤติกรรมฉุกเฉินเหล่านี้มีแนวโน้มข้อ จำกัด ของโมเดลเน้นถึงความจำเป็นในการปรับแต่งตัวอย่างเช่น ผลลัพธ์ของมันซ้ำกันซ้ำ ๆ หรือแสดงปัญหาภาษาผสมลดการใช้งานในสถานการณ์จริง

จากการฝึกอบรม RL-only ถึงไฮบริด: Deepseek-R1

เพื่อจัดการกับความท้าทายเหล่านี้ Deepseek ได้พัฒนา Deepseek-R1 โดยรวม RL เข้ากับการปรับแต่งที่มีการควบคุมดูแล โมเดลเข้าสู่ RL ด้วยความสามารถที่ดีขึ้นเพื่อตอบสนองความคาดหวังของมนุษย์เพื่อความชัดเจนและความเกี่ยวข้อง

ที่เกี่ยวข้อง: Llama Ai Under Fire: Meta ไม่ได้บอกคุณเกี่ยวกับ”โอเพ่นซอร์ส”โมเดล

Deepseek อธิบายวิธีการนี้ในเอกสารประกอบ:
“ ไม่เหมือนกับ R1-Zero เพื่อป้องกันระยะเริ่มต้นเย็นที่ไม่เสถียรในช่วงต้นของการฝึกอบรม RL จากโมเดลพื้นฐานสำหรับ R1 เราสร้างและรวบรวมขนาดเล็ก จำนวนข้อมูล COT ยาวเพื่อปรับโมเดลเป็นนักแสดง RL เริ่มต้น”

ท่อยังรวมถึงการวนซ้ำ RL เพื่อปรับแต่งการใช้เหตุผลและความสามารถในการแก้ปัญหาเพิ่มเติม ในฐานะที่เป็นหลักฐานการเข้ารหัสและคณิตศาสตร์

การเข้าถึงโอเพนซอร์ซและความท้าทายในอนาคต

Deepseek ได้เปิดตัวโมเดลภายใต้ใบอนุญาต MIT โดยเน้นความมุ่งมั่นในการเปิด หลักการที่มา รูปแบบการออกใบอนุญาตนี้ช่วยให้นักวิจัยและนักพัฒนาสามารถใช้งานแก้ไขและสร้างงานของ Deepseek ได้อย่างอิสระส่งเสริมการทำงานร่วมกันและนวัตกรรมในชุมชน AI

แม้จะประสบความสำเร็จ แต่ทีมก็ยอมรับว่าความท้าทายยังคงอยู่ เอาท์พุทภาษาผสมความไวที่รวดเร็วและความต้องการความสามารถทางวิศวกรรมซอฟต์แวร์ที่ดีขึ้นเป็นพื้นที่สำหรับการปรับปรุง การทำซ้ำในอนาคตของ Deepseek-R1 จะมุ่งมั่นที่จะจัดการกับข้อ จำกัด เหล่านี้ในขณะที่ขยายการทำงานไปยังโดเมนใหม่

นักวิจัยได้แสดงการมองโลกในแง่ดีเกี่ยวกับความคืบหน้าของพวกเขา เริ่มต้นข้อมูลกับนักบวชมนุษย์เราสังเกตประสิทธิภาพที่ดีขึ้นกับ Deepseek-R1-Zero เราเชื่อว่าการฝึกอบรมซ้ำเป็นวิธีที่ดีกว่าสำหรับแบบจำลองการให้เหตุผล”

ผลกระทบต่ออุตสาหกรรม AI

การทำงานของ Deepseek ส่งสัญญาณการเปลี่ยนแปลงในภูมิทัศน์การวิจัย AI ในขณะที่โมเดลโอเพ่นซอร์สสามารถแข่งขันกับผู้นำที่เป็นกรรมสิทธิ์ได้ โอเพนซอร์ซ AI ยังคงพัฒนาอย่างต่อเนื่องความก้าวหน้าของ Deepseek-R1 เป็นพิมพ์เขียวสำหรับการใช้ประโยชน์จาก RL เพื่อสร้างโมเดลที่มีประสิทธิภาพสูงและมีประสิทธิภาพสูง

Categories: IT Info