tng technology consulting มี

วันนี้เราปล่อย Deepseek-R1t-Chimera แบบจำลองน้ำหนักเปิดที่เพิ่ม R1 ให้กับ @deepseek_ai v3-0324 ด้วยวิธีการก่อสร้างใหม่

ความฝันเป็นเด็ก LLM โดยใช้ v3s … pic.twitter.com/3Hythslwf7

href=”https://twitter.com/tngtech/status/19162845661274444468?ref_src=twsrc%5Etfw”เป้าหมายและพื้นฐานของโมเดล 27 เมษายน 2025

Deepseek-R1T-Chimera สืบทอดสถาปัตยกรรมผสมของ Experts (MOE) ที่พบได้ทั่วไปกับรุ่น Deepseek ล่าสุด การออกแบบ MOE ช่วยให้โมเดลมีจำนวนพารามิเตอร์ทั้งหมดที่มีขนาดใหญ่มาก-685 พันล้านในกรณีนี้ (ประกอบด้วยประมาณ 41.5 ล้าน F32, 3.9 พันล้าน BF16 และ 680 พันล้าน F8_E4M3 พารามิเตอร์ safetensors รูปแบบที่ปลอดภัยสำหรับการจัดเก็บน้ำหนักรุ่นและกระจายไปทั่ว 163 ไฟล์ที่ถูกบดบัง นอกจากนี้ยังใช้การหาปริมาณ FP8 ซึ่งเป็นรูปแบบตัวเลขที่ช่วยลดรอยเท้าหน่วยความจำเมื่อเทียบกับรูปแบบ 16 บิตหรือ 32 บิตแบบดั้งเดิมซึ่งอาจเพิ่มการคำนวณด้วยการแลกเปลี่ยนที่สามารถจัดการได้อย่างแม่นยำ มันใช้ประโยชน์จากไลบรารี `Transformers’และถูกแท็กสำหรับงาน` Generation` งาน

โมเดลฐาน V3-0324 ซึ่งก่อให้เกิดลักษณะประสิทธิภาพได้รับการแจ้งเตือนหลังจากการเปิดตัว 24 มีนาคมสำหรับประสิทธิภาพที่น่าประทับใจสำหรับฮาร์ดแวร์ผู้บริโภคระดับไฮเอนด์ นักพัฒนา Awni Hannun รายงาน ที่มีประสิทธิภาพมากกว่า 20 โทเค็นต่อวินาที

Beyond Moe และ FP8, V3 รวมคุณสมบัติทางสถาปัตยกรรมเช่นความสนใจแฝงหลายหัว (MLA) ที่ออกแบบมาเพื่อจับการพึ่งพาข้อมูลระยะยาวได้ดีขึ้นและการทำนายหลายครั้ง (MTP) ช่วยให้การสร้างโทเค็นหลายขั้นตอนต่อการอนุมานแทนที่จะเป็นเพียงหนึ่งเดียว ในเวลานั้น นักวิจัย AI การทดสอบ ส่วนประกอบที่มีส่วนร่วมในองค์ประกอบการให้เหตุผลก่อนหน้านี้ได้รับการระบุว่ามีกลไกการกรองเนื้อหาโดยเฉพาะอย่างยิ่งในหัวข้อที่มีความอ่อนไหวภายในประเทศจีน

สิ่งนี้ถูกเน้นด้วยความงุนงง AI เมื่อปล่อยเวอร์ชั่นปลดล็อค R1 1776 ประมาณ 20 กุมภาพันธ์ href=”http://www.linkedin.com/posts/aravind-srinivas-16051987_Announcing-ของเรา-เปิด-เปิด—–weights-model-from-Activity-7297691221769039872-U6-4 การเซ็นเซอร์เสร็จสิ้นโดยไม่ทำร้ายความสามารถในการใช้เหตุผลหลักของแบบจำลอง…ตัวอย่างบางส่วนที่เราลบการเซ็นเซอร์:’รัฐบาลในรูปแบบของจีนคืออะไร’,’ใครคือจินผิง?’,’ความเป็นอิสระของไต้หวันอาจส่งผลกระทบต่อราคาหุ้นของ Nvidia’อย่างไร” วัสดุที่ปล่อยออกมาสำหรับความฝันไม่ได้ระบุว่าคุณลักษณะการกรองเหล่านี้จากผู้ปกครอง R1 ได้รับการจัดการในระหว่างกระบวนการรวม

ประสิทธิภาพในสภาพแวดล้อมที่ จำกัด

การพัฒนาที่มีอิทธิพลต่อการปรับเปลี่ยน การควบคุมการส่งออกเกี่ยวกับ GPU ขั้นสูง

วิธีการนี้ได้รับการตรวจสอบภายนอกเมื่อ Tencent ในระหว่างการโทรหารายได้ไตรมาส 4 ปี 2024 ยืนยันว่าใช้ประโยชน์จากแบบจำลอง Deepseek เพื่อลดการพึ่งพา GPU ของตัวเอง ผู้บริหารของ Tencent กล่าวว่า“ บริษัท จีนมักจะจัดลำดับความสำคัญของประสิทธิภาพและการใช้ประโยชน์-การใช้ประโยชน์อย่างมีประสิทธิภาพของเซิร์ฟเวอร์ GPU …ความสำเร็จของ Deepseek เป็นสัญลักษณ์และเป็นสัญลักษณ์ของความแข็งแกร่ง-แสดงให้เห็นว่า-ความจริงนั้น”

แบบจำลอง R1 ของ AI บริษัท ยังมีส่วนประกอบโครงสร้างพื้นฐานที่เปิดกว้างเมื่อเร็ว ๆ นี้ซึ่งรองรับการมุ่งเน้นนี้เช่นระบบไฟล์แบบกระจาย 3FS และเคอร์เนลความสนใจของ Flashmla

เงาของการตรวจสอบ

a

เกี่ยวกับการโจรกรรม IP ที่มีศักยภาพ OpenAI ได้ให้คำแถลงแก่คณะกรรมการคัดเลือกโดยอ้างว่า:“ จากการตรวจสอบของเราเราพบว่าพนักงานที่ลึกล้ำหลีกเลี่ยงการป้องกันในแบบจำลองของ OpenAI การตอบสนองและการกรองและแปลงข้อมูลการฝึกอบรม… Deepseek น่าจะใช้โมเดล AI โอเพนซอร์ซชั้นนำในการสร้างข้อมูลสังเคราะห์คุณภาพสูง”

ประธานคณะกรรมการ John Moolenaar กล่าวว่า”รายงานนี้ทำให้ชัดเจน: Deepseek ไม่ได้เป็นเพียงแอพ AI งานพื้นฐาน การให้คำปรึกษาด้านเทคโนโลยี TNG สามารถเข้าถึงได้ผ่าน [อีเมลป้องกัน] เพื่อสอบถามข้อมูลเกี่ยวกับโมเดลความฝันของพวกเขา