Deepseek กำลังเดิมพันว่าแบบจำลอง AI ไม่จำเป็นต้องได้รับการฝึกฝนอย่างไม่รู้จบ-พวกเขาต้องการวิธีที่ดีกว่าในการให้เหตุผลผ่านผลลัพธ์ของพวกเขาในขณะที่พวกเขาสร้างพวกเขา ในความร่วมมือกับมหาวิทยาลัย Tsinghua บริษัท ได้แนะนำวิธีการใหม่ที่เรียกว่าการปรับแต่งการวิจารณ์ด้วยตนเอง (SPCT) ซึ่งเป็นเทคนิคการสร้างแบบจำลองรางวัลกำเนิดที่ออกแบบมาเพื่อทำงานในระหว่างการอนุมานมากกว่าที่จะต้องใช้ข้อมูลการตั้งค่าขนาดใหญ่ในระหว่างการฝึกอบรม

SPCT target=”_ blank”> รายงานการวิจัยที่เผยแพร่เมื่อวันที่ 4 เมษายน และทดสอบในรูปแบบที่เรียกว่า Deepseek-GRM-27B ผลลัพธ์นั้นโดดเด่น

แทนที่จะขึ้นอยู่กับคำอธิบายประกอบของมนุษย์แบบคงที่ SPCT ช่วยให้แบบจำลองสามารถปรับแต่งเอาต์พุตของพวกเขาแบบไดนามิกโดยใช้หลักการที่สร้างขึ้นด้วยตนเองและลูปวิจารณ์ระหว่างการอนุมาน ผลลัพธ์: ค่าใช้จ่ายที่ลดลงความสามารถในการปรับขนาดที่ดีขึ้นและประสิทธิภาพที่ทันสมัยด้วยรุ่นที่เล็กกว่า

การวัดประสิทธิภาพที่เป็นอิสระยืนยันเพิ่มเติมว่า SPCT ช่วยให้โมเดลขนาดเล็กสามารถจับคู่ประสิทธิภาพของคู่ที่มีขนาดใหญ่กว่าได้เช่นโมเดลขนาด 671b โดยใช้ประโยชน์จากการคำนวณเวลาการอนุมานกับ 32 ตัวอย่างต่อการสืบค้น

กระบวนการจัดตำแหน่งนี้ถูกออกแบบมาเพื่อปรับขนาด ตามที่เอกสารระบุความได้เปรียบของ SPCT นั้นชัดเจนขึ้นเมื่อแบบจำลองมีขนาดใหญ่ขึ้นนำเสนอเส้นทางที่มีแนวโน้มไปข้างหน้าสำหรับนักพัฒนา AI ที่ต้องการหลีกเลี่ยงเส้นทางการคำนวณการเสริมแรงจากการเรียนรู้จากความคิดเห็นของมนุษย์ (RLHF)

สถาปัตยกรรมแบบเรียกซ้ำ การสังเคราะห์หลักการสร้างการตอบสนองการกรองคำวิจารณ์และการปรับแต่งหลัก แต่ละขั้นตอนสร้างขึ้นเพื่อปรับปรุงคุณภาพและการจัดตำแหน่งของโมเดลที่เพิ่มขึ้นโดยเพิ่มขึ้น

กระบวนการเริ่มต้นด้วยการสร้างหลักการเฉพาะบริบทโดยใช้การแจ้งเตือนแบบห่วงโซ่ ตัวอย่างเช่นเมื่อจัดการงานที่เกี่ยวข้องกับการเข้ารหัสโมเดลอาจกำหนดว่าประสิทธิภาพของหน่วยความจำควรมีความสำคัญมากกว่ารันไทม์และการอ่าน หลักการเหล่านี้เป็นแนวทางในขั้นตอนต่อไปซึ่งแบบจำลองสร้างการตอบสนองเริ่มต้นภายในหน้าต่างที่มีข้อ จำกัด 4,096 Token

เมื่อมีการตอบสนองเริ่มต้นแล้วโมเดลจะเข้าร่วมในการวิจารณ์ตนเอง มันประเมินผลลัพธ์ของมันกับหลักการสังเคราะห์และสร้างข้อเสนอแนะสำหรับการปรับปรุง การวิพากษ์วิจารณ์เหล่านี้จะถูกกรองแบบเรียลไทม์โดยโมเดลรางวัลเมตา (META-RM) ซึ่งใช้การฝังรางวัล 512 มิติเพื่อให้คะแนนคุณภาพของการวิพากษ์วิจารณ์แต่ละครั้ง การวิพากษ์วิจารณ์คุณภาพต่ำจะถูกยกเลิกเพื่อให้แน่ใจว่าความสมบูรณ์ของวัฏจักรการปรับแต่ง

ขั้นตอนสุดท้ายในลูปคือการปรับแต่งหลัก ด้วยการใช้การปรับให้เหมาะสมตามการไล่ระดับสีโมเดลจะปรับฮิวริสติกการจัดตำแหน่งภายในโดยพิจารณาจากคำวิจารณ์ที่ตรงกับการตอบสนองที่ตั้งใจไว้ การปรับแต่งแบบเรียกซ้ำนี้ช่วยให้โมเดลสามารถมาบรรจบกันซ้ำ ๆ กับเอาต์พุตคุณภาพสูงปรับแบบไดนามิกกับข้อมูลเฉพาะของการสืบค้นแต่ละแบบโดยไม่ต้องมีการแทรกแซงภายนอกหรือการฝึกอบรมใหม่

การเพิ่มประสิทธิภาพผ่านการออกแบบฮาร์ดแวร์ โมเดล GRM-27B มีผู้เชี่ยวชาญ 16 คนโดยมีการเปิดใช้งานเพียงสองครั้งต่อโทเค็นและรองรับหน้าต่างบริบทสูงสุดถึง 128,000 โทเค็น การดำเนินการเก็งกำไรช่วยเพิ่มประสิทธิภาพโดยการคำนวณเส้นทางการวิจารณ์ที่มีศักยภาพล่วงหน้าลดเวลาแฝงในระหว่างการอนุมาน

การเปรียบเทียบประสิทธิภาพแสดงให้เห็นว่า SPCT บรรลุข้อได้เปรียบในการรับส่งข้อมูลอย่างมีนัยสำคัญ เมื่อประมวลผลแบทช์แบบแยกเดี่ยวระบบจะบันทึกเวลาแฝง 1.4 วินาทีและปริมาณงาน 42 โทเค็นต่อวินาที สำหรับขนาดแบทช์แปดเวลาแฝงเพิ่มขึ้นเป็น 3.1 วินาทีในขณะที่ปริมาณการใช้งานมาสเกลเป็น 208 โทเค็นต่อวินาที

batch sizelatencythroughput11.4S42 โทเค็น/สอง 83.1S208 โทเค็น/วินาที

ผลที่ได้คือวิธีการที่ใช้งานได้จริงและคุ้มค่าซึ่งรักษาความเท่าเทียมกันของประสิทธิภาพด้วยโมเดลที่มีขนาดใหญ่กว่ามาก

ต้นทุนการเปรียบเทียบและประสิทธิภาพในโมเดล

การวิเคราะห์เปรียบเทียบพบว่า SPCT ลดต้นทุนการฝึกอบรมและการปรับใช้โมเดลประสิทธิภาพสูง โมเดล Deepseek GRM ที่มีพารามิเตอร์ 27 พันล้านและการใช้ SPCT ได้รับค่าใช้จ่ายในการฝึกอบรมประมาณ $ 12,000 ในขณะที่ให้คะแนน MT-bench ที่แข็งแกร่งที่ 8.35 ในทางตรงกันข้าม Nemotron-4 ซึ่งเป็นโมเดลพารามิเตอร์ 340B มีค่าใช้จ่ายมากกว่า $ 1.2 ล้านเพื่อให้ได้คะแนน MT-Bench ที่ 8.41 GPT-4O ของ OpenAI ที่มีพารามิเตอร์ 1.8 ล้านล้านคะแนน 8.72 ด้วยค่าใช้จ่ายประมาณ 6.3 ล้านเหรียญ

Modelsizemt-Benchapprox การฝึกอบรม CostDeepSeek-GRM27B8.35 $ 12,000Nemotron-4340B8.41 $ 1.2 ล้าน GPT-4O1.8T8.72 $ 6.3 ล้าน

การเปรียบเทียบเหล่านี้ทำให้เกิดข้อได้เปรียบหลักของ SPCT SPCT นำเสนอข้อได้เปรียบที่น่าสนใจในด้านความยั่งยืนและความยืดหยุ่น มันกำจัดเกือบ 90 เปอร์เซ็นต์ของคำอธิบายประกอบของมนุษย์ที่จำเป็นสำหรับการจัดตำแหน่งลดแรงงานและการลงทุนเวลาอย่างมาก ยิ่งไปกว่านั้นมันจะลดการใช้พลังงานลง 73 % เมื่อเทียบกับ DPO ทำให้เป็นตัวเลือกที่รับผิดชอบต่อสิ่งแวดล้อมสำหรับการพัฒนา AI

ความสามารถของ SPCT สำหรับการปรับตัวแบบเรียลไทม์ยังแยกออกจากกัน วิธีการจัดตำแหน่งแบบดั้งเดิมถูก จำกัด ด้วยคุณภาพและขอบเขตของชุดข้อมูลการฝึกอบรมทำให้พวกเขาช้าในการปรับตัวให้เข้ากับงานที่แปลกใหม่หรือพัฒนา ในทางตรงกันข้ามกลยุทธ์การอนุมานแบบเรียกซ้ำของ SPCT ช่วยให้แบบจำลองสามารถสร้างและปรับแต่งหลักการได้ทันทีทำให้พวกเขาสามารถจัดการอินพุตที่คาดเดาไม่ได้และการเปลี่ยนแปลงวัตถุประสงค์โดยไม่ต้องฝึกอบรมใหม่

ความสามารถนี้จะเปิดเขตแดนใหม่ในโดเมน ทีม Deepseek กำลังสำรวจแอปพลิเคชันของ SPCT อย่างแข็งขันในการควบคุมหุ่นยนต์แบบเรียลไทม์และระบบการเรียนรู้แบบกระจายซึ่งการทำงานร่วมกันระหว่างตัวแทนหลายคนต้องการกลไกการจัดตำแหน่งแบบปรับตัวได้

การเปลี่ยนจากสเกลเป็นสถาปัตยกรรม เมื่อวันที่ 24 มีนาคม Deepseek ได้เปิดตัวการอัปเดตแบบเปิดกว้างของรุ่น Deepseek-V3 เพื่อกอดใบหน้าภายใต้ใบอนุญาต MIT ขนานนาม Deepseek v3.1 รุ่นที่ชั่งน้ำหนักที่ 641GB ทำงานได้อย่างมีประสิทธิภาพบนฮาร์ดแวร์ในท้องถิ่น

นักพัฒนา Awni Hannun ทดสอบรุ่น 4 บิตเชิงปริมาณบนสตูดิโอ Apple Mac 512GB,

รุ่นนี้มีอยู่ในการกอดใบหน้า

รุ่นที่ลึกลงไปในการใช้งานที่มีความคล้ายคลึงกัน โมเดลเช่นกัน

การยอมรับองค์กรภายใต้ความกดดัน

แนวทางของ Deepseek ได้รับการตรวจสอบแล้วโดยการยอมรับขององค์กร Tencent ได้รับการยืนยันในช่วงไตรมาสที่ 4 ของปี 2024 ที่ได้รับการเรียกว่าได้รวมโมเดล Deepseek ในผลิตภัณฑ์เช่น WeChat ผู้บริหารของ Tencent กล่าวว่า:“ อุตสาหกรรมและเราในอุตสาหกรรมกำลังได้รับผลผลิตที่สูงขึ้นในการฝึกอบรมแบบจำลองภาษาขนาดใหญ่จาก GPU ที่มีอยู่โดยไม่จำเป็นต้องเพิ่ม GPU เพิ่มเติมตามที่คาดไว้ก่อนหน้านี้”

การตัดสินใจของ บริษัท ในปี 2023 สหรัฐอเมริกาได้บล็อกยอดขายของรุ่น A800 และ H800 ในการตอบสนองมีรายงานว่า Tencent วางคำสั่งซื้อจำนวนมากสำหรับ H20 ชิปที่ใช้พลังงานต่ำยังคงได้รับอนุญาตภายใต้กฎปัจจุบัน

รุ่นก่อนหน้าของ Deepseek R1 ได้รับการฝึกฝนโดยใช้เพียง 2,048 H800 GPU-จำนวนต่ำผิดปกติ SPCT สอดคล้องกับกลยุทธ์นี้โดยการเปิดใช้งานประสิทธิภาพที่ดีขึ้นโดยไม่เพิ่มจำนวนตัวอย่างการฝึกอบรมหรือพึ่งพาคำอธิบายประกอบการตั้งค่าขนาดใหญ่

R2 ติดตามอย่างรวดเร็วเป็นคู่แข่งที่เพิ่มขึ้น

ตามที่รายงานเมื่อวันที่ 26 กุมภาพันธ์ บริษัท เร่งระยะเวลาพฤษภาคมเดิมเพื่อให้ทันกับคู่แข่ง โมเดล R1 ได้รับความสนใจจากประสิทธิภาพ แต่สั้นลงในพื้นที่เช่นการใช้เหตุผลความแม่นยำหลายภาษาและการสร้างรหัส

คู่แข่งก็เคลื่อนไหวอย่างจริงจังเช่นกัน Microsoft รวมโมเดล O1 ของ Openai เข้ากับ Copilot โดยไม่มีค่าใช้จ่ายเพิ่มเติมและหลังจากนั้นไม่นานหลังจากนั้นก็อัพเกรดเป็น O3-Mini สูง Grok 3 ที่เปิดตัวของ Xai ซึ่งมีประสิทธิภาพสูงกว่า GPT-4O Google ในเดือนมีนาคมจากนั้นเปิดตัว Gemini 2.5 Pro Experimental ซึ่งเรียกคืนตำแหน่งสูงสุดในการวัดประสิทธิภาพต่าง ๆ และหลังจากนั้นไม่นานหลังจากปลดล็อคการเข้าถึงรุ่นนี้สำหรับผู้ใช้ทุกคน 

Openai ตอบสนองต่อการพัฒนาเหล่านี้ทั้งหมดหลังจากการตัดสินใจของเดือนกุมภาพันธ์ที่จะยกเลิกการเปิดตัวโมเดล O3 ที่ทรงพลังที่สุดเพื่อออกไปปล่อย O3 และ O4-Mini ในอนาคตอันใกล้ แบบจำลองภาษาขนาดใหญ่ที่เปิดกว้างที่เปิดกว้างซึ่งแนะนำการเปลี่ยนแปลงทางสถาปัตยกรรมที่สำคัญในขณะที่ขยายการแสดงตนของ บริษัท ในแอพผู้บริโภคและแพลตฟอร์มคลาวด์