tng technology consulting มี
วันนี้เราปล่อย Deepseek-R1t-Chimera แบบจำลองน้ำหนักเปิดที่เพิ่ม R1 ให้กับ @deepseek_ai v3-0324 ด้วยวิธีการก่อสร้างใหม่ ความฝันเป็นเด็ก LLM โดยใช้ v3s … pic.twitter.com/3Hythslwf7 href=”https://twitter.com/tngtech/status/19162845661274444468?ref_src=twsrc%5Etfw”เป้าหมายและพื้นฐานของโมเดล 27 เมษายน 2025
Deepseek-R1T-Chimera สืบทอดสถาปัตยกรรมผสมของ Experts (MOE) ที่พบได้ทั่วไปกับรุ่น Deepseek ล่าสุด การออกแบบ MOE ช่วยให้โมเดลมีจำนวนพารามิเตอร์ทั้งหมดที่มีขนาดใหญ่มาก-685 พันล้านในกรณีนี้ (ประกอบด้วยประมาณ 41.5 ล้าน F32, 3.9 พันล้าน BF16 และ 680 พันล้าน F8_E4M3 พารามิเตอร์ การใช้งานจริง> safetensors รูปแบบที่ปลอดภัยสำหรับการจัดเก็บน้ำหนักรุ่นและกระจายไปทั่ว 163 ไฟล์ที่ถูกบดบัง นอกจากนี้ยังใช้การหาปริมาณ FP8 ซึ่งเป็นรูปแบบตัวเลขที่ช่วยลดรอยเท้าหน่วยความจำเมื่อเทียบกับรูปแบบ 16 บิตหรือ 32 บิตแบบดั้งเดิมซึ่งอาจเพิ่มการคำนวณด้วยการแลกเปลี่ยนที่สามารถจัดการได้อย่างแม่นยำ มันใช้ประโยชน์จากไลบรารี `Transformers’และถูกแท็กสำหรับงาน` Generation` งาน
โมเดลฐาน V3-0324 ซึ่งก่อให้เกิดลักษณะประสิทธิภาพได้รับการแจ้งเตือนหลังจากการเปิดตัว 24 มีนาคมสำหรับประสิทธิภาพที่น่าประทับใจสำหรับฮาร์ดแวร์ผู้บริโภคระดับไฮเอนด์ นักพัฒนา Awni Hannun รายงาน ที่มีประสิทธิภาพมากกว่า 20 โทเค็นต่อวินาที
Beyond Moe และ FP8, V3 รวมคุณสมบัติทางสถาปัตยกรรมเช่นความสนใจแฝงหลายหัว (MLA) ที่ออกแบบมาเพื่อจับการพึ่งพาข้อมูลระยะยาวได้ดีขึ้นและการทำนายหลายครั้ง (MTP) ช่วยให้การสร้างโทเค็นหลายขั้นตอนต่อการอนุมานแทนที่จะเป็นเพียงหนึ่งเดียว ในเวลานั้น นักวิจัย AI การทดสอบ ส่วนประกอบที่มีส่วนร่วมในองค์ประกอบการให้เหตุผลก่อนหน้านี้ได้รับการระบุว่ามีกลไกการกรองเนื้อหาโดยเฉพาะอย่างยิ่งในหัวข้อที่มีความอ่อนไหวภายในประเทศจีน
สิ่งนี้ถูกเน้นด้วยความงุนงง AI เมื่อปล่อยเวอร์ชั่นปลดล็อค R1 1776 ประมาณ 20 กุมภาพันธ์ href=”http://www.linkedin.com/posts/aravind-srinivas-16051987_Announcing-ของเรา-เปิด-เปิด—–weights-model-from-Activity-7297691221769039872-U6-4 การเซ็นเซอร์เสร็จสิ้นโดยไม่ทำร้ายความสามารถในการใช้เหตุผลหลักของแบบจำลอง…ตัวอย่างบางส่วนที่เราลบการเซ็นเซอร์:’รัฐบาลในรูปแบบของจีนคืออะไร’,’ใครคือจินผิง?’,’ความเป็นอิสระของไต้หวันอาจส่งผลกระทบต่อราคาหุ้นของ Nvidia’อย่างไร” วัสดุที่ปล่อยออกมาสำหรับความฝันไม่ได้ระบุว่าคุณลักษณะการกรองเหล่านี้จากผู้ปกครอง R1 ได้รับการจัดการในระหว่างกระบวนการรวม
ประสิทธิภาพในสภาพแวดล้อมที่ จำกัด
การพัฒนาที่มีอิทธิพลต่อการปรับเปลี่ยน การควบคุมการส่งออกเกี่ยวกับ GPU ขั้นสูง
วิธีการนี้ได้รับการตรวจสอบภายนอกเมื่อ Tencent ในระหว่างการโทรหารายได้ไตรมาส 4 ปี 2024 ยืนยันว่าใช้ประโยชน์จากแบบจำลอง Deepseek เพื่อลดการพึ่งพา GPU ของตัวเอง ผู้บริหารของ Tencent กล่าวว่า“ บริษัท จีนมักจะจัดลำดับความสำคัญของประสิทธิภาพและการใช้ประโยชน์-การใช้ประโยชน์อย่างมีประสิทธิภาพของเซิร์ฟเวอร์ GPU …ความสำเร็จของ Deepseek เป็นสัญลักษณ์และเป็นสัญลักษณ์ของความแข็งแกร่ง-แสดงให้เห็นว่า-ความจริงนั้น”
แบบจำลอง R1 ของ AI บริษัท ยังมีส่วนประกอบโครงสร้างพื้นฐานที่เปิดกว้างเมื่อเร็ว ๆ นี้ซึ่งรองรับการมุ่งเน้นนี้เช่นระบบไฟล์แบบกระจาย 3FS และเคอร์เนลความสนใจของ Flashmla