Deepseek กำลังเดิมพันว่าแบบจำลอง AI ไม่จำเป็นต้องได้รับการฝึกฝนอย่างไม่รู้จบ-พวกเขาต้องการวิธีที่ดีกว่าในการให้เหตุผลผ่านผลลัพธ์ของพวกเขาในขณะที่พวกเขาสร้างพวกเขา ในความร่วมมือกับมหาวิทยาลัย Tsinghua บริษัท ได้แนะนำวิธีการใหม่ที่เรียกว่าการปรับแต่งการวิจารณ์ด้วยตนเอง (SPCT) ซึ่งเป็นเทคนิคการสร้างแบบจำลองรางวัลกำเนิดที่ออกแบบมาเพื่อทำงานในระหว่างการอนุมานมากกว่าที่จะต้องใช้ข้อมูลการตั้งค่าขนาดใหญ่ในระหว่างการฝึกอบรม
SPCT target=”_ blank”> รายงานการวิจัยที่เผยแพร่เมื่อวันที่ 4 เมษายน และทดสอบในรูปแบบที่เรียกว่า Deepseek-GRM-27B ผลลัพธ์นั้นโดดเด่น
แทนที่จะขึ้นอยู่กับคำอธิบายประกอบของมนุษย์แบบคงที่ SPCT ช่วยให้แบบจำลองสามารถปรับแต่งเอาต์พุตของพวกเขาแบบไดนามิกโดยใช้หลักการที่สร้างขึ้นด้วยตนเองและลูปวิจารณ์ระหว่างการอนุมาน ผลลัพธ์: ค่าใช้จ่ายที่ลดลงความสามารถในการปรับขนาดที่ดีขึ้นและประสิทธิภาพที่ทันสมัยด้วยรุ่นที่เล็กกว่า
การวัดประสิทธิภาพที่เป็นอิสระยืนยันเพิ่มเติมว่า SPCT ช่วยให้โมเดลขนาดเล็กสามารถจับคู่ประสิทธิภาพของคู่ที่มีขนาดใหญ่กว่าได้เช่นโมเดลขนาด 671b โดยใช้ประโยชน์จากการคำนวณเวลาการอนุมานกับ 32 ตัวอย่างต่อการสืบค้น
กระบวนการจัดตำแหน่งนี้ถูกออกแบบมาเพื่อปรับขนาด ตามที่เอกสารระบุความได้เปรียบของ SPCT นั้นชัดเจนขึ้นเมื่อแบบจำลองมีขนาดใหญ่ขึ้นนำเสนอเส้นทางที่มีแนวโน้มไปข้างหน้าสำหรับนักพัฒนา AI ที่ต้องการหลีกเลี่ยงเส้นทางการคำนวณการเสริมแรงจากการเรียนรู้จากความคิดเห็นของมนุษย์ (RLHF)
สถาปัตยกรรมแบบเรียกซ้ำ การสังเคราะห์หลักการสร้างการตอบสนองการกรองคำวิจารณ์และการปรับแต่งหลัก แต่ละขั้นตอนสร้างขึ้นเพื่อปรับปรุงคุณภาพและการจัดตำแหน่งของโมเดลที่เพิ่มขึ้นโดยเพิ่มขึ้น
กระบวนการเริ่มต้นด้วยการสร้างหลักการเฉพาะบริบทโดยใช้การแจ้งเตือนแบบห่วงโซ่ ตัวอย่างเช่นเมื่อจัดการงานที่เกี่ยวข้องกับการเข้ารหัสโมเดลอาจกำหนดว่าประสิทธิภาพของหน่วยความจำควรมีความสำคัญมากกว่ารันไทม์และการอ่าน หลักการเหล่านี้เป็นแนวทางในขั้นตอนต่อไปซึ่งแบบจำลองสร้างการตอบสนองเริ่มต้นภายในหน้าต่างที่มีข้อ จำกัด 4,096 Token
เมื่อมีการตอบสนองเริ่มต้นแล้วโมเดลจะเข้าร่วมในการวิจารณ์ตนเอง มันประเมินผลลัพธ์ของมันกับหลักการสังเคราะห์และสร้างข้อเสนอแนะสำหรับการปรับปรุง การวิพากษ์วิจารณ์เหล่านี้จะถูกกรองแบบเรียลไทม์โดยโมเดลรางวัลเมตา (META-RM) ซึ่งใช้การฝังรางวัล 512 มิติเพื่อให้คะแนนคุณภาพของการวิพากษ์วิจารณ์แต่ละครั้ง การวิพากษ์วิจารณ์คุณภาพต่ำจะถูกยกเลิกเพื่อให้แน่ใจว่าความสมบูรณ์ของวัฏจักรการปรับแต่ง
ขั้นตอนสุดท้ายในลูปคือการปรับแต่งหลัก ด้วยการใช้การปรับให้เหมาะสมตามการไล่ระดับสีโมเดลจะปรับฮิวริสติกการจัดตำแหน่งภายในโดยพิจารณาจากคำวิจารณ์ที่ตรงกับการตอบสนองที่ตั้งใจไว้ การปรับแต่งแบบเรียกซ้ำนี้ช่วยให้โมเดลสามารถมาบรรจบกันซ้ำ ๆ กับเอาต์พุตคุณภาพสูงปรับแบบไดนามิกกับข้อมูลเฉพาะของการสืบค้นแต่ละแบบโดยไม่ต้องมีการแทรกแซงภายนอกหรือการฝึกอบรมใหม่
การเพิ่มประสิทธิภาพผ่านการออกแบบฮาร์ดแวร์ โมเดล GRM-27B มีผู้เชี่ยวชาญ 16 คนโดยมีการเปิดใช้งานเพียงสองครั้งต่อโทเค็นและรองรับหน้าต่างบริบทสูงสุดถึง 128,000 โทเค็น การดำเนินการเก็งกำไรช่วยเพิ่มประสิทธิภาพโดยการคำนวณเส้นทางการวิจารณ์ที่มีศักยภาพล่วงหน้าลดเวลาแฝงในระหว่างการอนุมาน
การเปรียบเทียบประสิทธิภาพแสดงให้เห็นว่า SPCT บรรลุข้อได้เปรียบในการรับส่งข้อมูลอย่างมีนัยสำคัญ เมื่อประมวลผลแบทช์แบบแยกเดี่ยวระบบจะบันทึกเวลาแฝง 1.4 วินาทีและปริมาณงาน 42 โทเค็นต่อวินาที สำหรับขนาดแบทช์แปดเวลาแฝงเพิ่มขึ้นเป็น 3.1 วินาทีในขณะที่ปริมาณการใช้งานมาสเกลเป็น 208 โทเค็นต่อวินาที
batch sizelatencythroughput11.4S42 โทเค็น/สอง 83.1S208 โทเค็น/วินาที
ผลที่ได้คือวิธีการที่ใช้งานได้จริงและคุ้มค่าซึ่งรักษาความเท่าเทียมกันของประสิทธิภาพด้วยโมเดลที่มีขนาดใหญ่กว่ามาก
ต้นทุนการเปรียบเทียบและประสิทธิภาพในโมเดล
การวิเคราะห์เปรียบเทียบพบว่า SPCT ลดต้นทุนการฝึกอบรมและการปรับใช้โมเดลประสิทธิภาพสูง โมเดล Deepseek GRM ที่มีพารามิเตอร์ 27 พันล้านและการใช้ SPCT ได้รับค่าใช้จ่ายในการฝึกอบรมประมาณ $ 12,000 ในขณะที่ให้คะแนน MT-bench ที่แข็งแกร่งที่ 8.35 ในทางตรงกันข้าม Nemotron-4 ซึ่งเป็นโมเดลพารามิเตอร์ 340B มีค่าใช้จ่ายมากกว่า $ 1.2 ล้านเพื่อให้ได้คะแนน MT-Bench ที่ 8.41 GPT-4O ของ OpenAI ที่มีพารามิเตอร์ 1.8 ล้านล้านคะแนน 8.72 ด้วยค่าใช้จ่ายประมาณ 6.3 ล้านเหรียญ
Modelsizemt-Benchapprox การฝึกอบรม CostDeepSeek-GRM27B8.35 $ 12,000Nemotron-4340B8.41 $ 1.2 ล้าน GPT-4O1.8T8.72 $ 6.3 ล้าน
การเปรียบเทียบเหล่านี้ทำให้เกิดข้อได้เปรียบหลักของ SPCT SPCT นำเสนอข้อได้เปรียบที่น่าสนใจในด้านความยั่งยืนและความยืดหยุ่น มันกำจัดเกือบ 90 เปอร์เซ็นต์ของคำอธิบายประกอบของมนุษย์ที่จำเป็นสำหรับการจัดตำแหน่งลดแรงงานและการลงทุนเวลาอย่างมาก ยิ่งไปกว่านั้นมันจะลดการใช้พลังงานลง 73 % เมื่อเทียบกับ DPO ทำให้เป็นตัวเลือกที่รับผิดชอบต่อสิ่งแวดล้อมสำหรับการพัฒนา AI
ความสามารถของ SPCT สำหรับการปรับตัวแบบเรียลไทม์ยังแยกออกจากกัน วิธีการจัดตำแหน่งแบบดั้งเดิมถูก จำกัด ด้วยคุณภาพและขอบเขตของชุดข้อมูลการฝึกอบรมทำให้พวกเขาช้าในการปรับตัวให้เข้ากับงานที่แปลกใหม่หรือพัฒนา ในทางตรงกันข้ามกลยุทธ์การอนุมานแบบเรียกซ้ำของ SPCT ช่วยให้แบบจำลองสามารถสร้างและปรับแต่งหลักการได้ทันทีทำให้พวกเขาสามารถจัดการอินพุตที่คาดเดาไม่ได้และการเปลี่ยนแปลงวัตถุประสงค์โดยไม่ต้องฝึกอบรมใหม่
ความสามารถนี้จะเปิดเขตแดนใหม่ในโดเมน ทีม Deepseek กำลังสำรวจแอปพลิเคชันของ SPCT อย่างแข็งขันในการควบคุมหุ่นยนต์แบบเรียลไทม์และระบบการเรียนรู้แบบกระจายซึ่งการทำงานร่วมกันระหว่างตัวแทนหลายคนต้องการกลไกการจัดตำแหน่งแบบปรับตัวได้
การเปลี่ยนจากสเกลเป็นสถาปัตยกรรม เมื่อวันที่ 24 มีนาคม Deepseek ได้เปิดตัวการอัปเดตแบบเปิดกว้างของรุ่น Deepseek-V3 เพื่อกอดใบหน้าภายใต้ใบอนุญาต MIT ขนานนาม Deepseek v3.1 รุ่นที่ชั่งน้ำหนักที่ 641GB ทำงานได้อย่างมีประสิทธิภาพบนฮาร์ดแวร์ในท้องถิ่น
นักพัฒนา Awni Hannun ทดสอบรุ่น 4 บิตเชิงปริมาณบนสตูดิโอ Apple Mac 512GB,
การเปรียบเทียบประสิทธิภาพแสดงให้เห็นว่า SPCT บรรลุข้อได้เปรียบในการรับส่งข้อมูลอย่างมีนัยสำคัญ เมื่อประมวลผลแบทช์แบบแยกเดี่ยวระบบจะบันทึกเวลาแฝง 1.4 วินาทีและปริมาณงาน 42 โทเค็นต่อวินาที สำหรับขนาดแบทช์แปดเวลาแฝงเพิ่มขึ้นเป็น 3.1 วินาทีในขณะที่ปริมาณการใช้งานมาสเกลเป็น 208 โทเค็นต่อวินาที
ผลที่ได้คือวิธีการที่ใช้งานได้จริงและคุ้มค่าซึ่งรักษาความเท่าเทียมกันของประสิทธิภาพด้วยโมเดลที่มีขนาดใหญ่กว่ามาก ต้นทุนการเปรียบเทียบและประสิทธิภาพในโมเดล การวิเคราะห์เปรียบเทียบพบว่า SPCT ลดต้นทุนการฝึกอบรมและการปรับใช้โมเดลประสิทธิภาพสูง โมเดล Deepseek GRM ที่มีพารามิเตอร์ 27 พันล้านและการใช้ SPCT ได้รับค่าใช้จ่ายในการฝึกอบรมประมาณ $ 12,000 ในขณะที่ให้คะแนน MT-bench ที่แข็งแกร่งที่ 8.35 ในทางตรงกันข้าม Nemotron-4 ซึ่งเป็นโมเดลพารามิเตอร์ 340B มีค่าใช้จ่ายมากกว่า $ 1.2 ล้านเพื่อให้ได้คะแนน MT-Bench ที่ 8.41 GPT-4O ของ OpenAI ที่มีพารามิเตอร์ 1.8 ล้านล้านคะแนน 8.72 ด้วยค่าใช้จ่ายประมาณ 6.3 ล้านเหรียญ การเปรียบเทียบเหล่านี้ทำให้เกิดข้อได้เปรียบหลักของ SPCT SPCT นำเสนอข้อได้เปรียบที่น่าสนใจในด้านความยั่งยืนและความยืดหยุ่น มันกำจัดเกือบ 90 เปอร์เซ็นต์ของคำอธิบายประกอบของมนุษย์ที่จำเป็นสำหรับการจัดตำแหน่งลดแรงงานและการลงทุนเวลาอย่างมาก ยิ่งไปกว่านั้นมันจะลดการใช้พลังงานลง 73 % เมื่อเทียบกับ DPO ทำให้เป็นตัวเลือกที่รับผิดชอบต่อสิ่งแวดล้อมสำหรับการพัฒนา AI ความสามารถของ SPCT สำหรับการปรับตัวแบบเรียลไทม์ยังแยกออกจากกัน วิธีการจัดตำแหน่งแบบดั้งเดิมถูก จำกัด ด้วยคุณภาพและขอบเขตของชุดข้อมูลการฝึกอบรมทำให้พวกเขาช้าในการปรับตัวให้เข้ากับงานที่แปลกใหม่หรือพัฒนา ในทางตรงกันข้ามกลยุทธ์การอนุมานแบบเรียกซ้ำของ SPCT ช่วยให้แบบจำลองสามารถสร้างและปรับแต่งหลักการได้ทันทีทำให้พวกเขาสามารถจัดการอินพุตที่คาดเดาไม่ได้และการเปลี่ยนแปลงวัตถุประสงค์โดยไม่ต้องฝึกอบรมใหม่ ความสามารถนี้จะเปิดเขตแดนใหม่ในโดเมน ทีม Deepseek กำลังสำรวจแอปพลิเคชันของ SPCT อย่างแข็งขันในการควบคุมหุ่นยนต์แบบเรียลไทม์และระบบการเรียนรู้แบบกระจายซึ่งการทำงานร่วมกันระหว่างตัวแทนหลายคนต้องการกลไกการจัดตำแหน่งแบบปรับตัวได้ Modelsizemt-Benchapprox การฝึกอบรม CostDeepSeek-GRM27B8.35 $ 12,000Nemotron-4340B8.41 $ 1.2 ล้าน GPT-4O1.8T8.72 $ 6.3 ล้าน
การเปลี่ยนจากสเกลเป็นสถาปัตยกรรม เมื่อวันที่ 24 มีนาคม Deepseek ได้เปิดตัวการอัปเดตแบบเปิดกว้างของรุ่น Deepseek-V3 เพื่อกอดใบหน้าภายใต้ใบอนุญาต MIT ขนานนาม Deepseek v3.1 รุ่นที่ชั่งน้ำหนักที่ 641GB ทำงานได้อย่างมีประสิทธิภาพบนฮาร์ดแวร์ในท้องถิ่น
นักพัฒนา Awni Hannun ทดสอบรุ่น 4 บิตเชิงปริมาณบนสตูดิโอ Apple Mac 512GB,