บริษัท TNG Technology Consulting บริษัท ไอทีของเยอรมันได้เปิดตัวโมเดล AI โอเพนซอร์ซใหม่ที่มีรายงานว่าเร็วกว่าตัวแปร R1-0528 Deepseek R1-0528 สองครั้งจากเดือนพฤษภาคม เปิดตัวในสัปดาห์นี้ที่

วิธีนี้รวมส่วนประกอบจากรุ่นแม่สามรุ่นที่แตกต่างกันรวมถึงรุ่น Deepseek R1 และ V3 ดั้งเดิม ผลที่ได้คือแบบจำลองที่ยังคงความสามารถในการใช้เหตุผลระดับสูงในขณะที่สร้างคำตอบด้วยโทเค็นน้อยลง 60% ลดค่าใช้จ่ายในการลดค่าใช้จ่ายและเวลาตอบสนองสำหรับนักพัฒนาอย่างมาก

ชุมชนนักพัฒนา AI ได้ตอบสนองด้วยความกระตือรือร้น บน X, Hugging Face ผู้นำอาวุโส Vaibhav Srivastav เขียนว่า“ Dyn! Deepseek R1T2-เร็วกว่า R1-0528 และเร็วกว่า R1 20%,” >>>

การประกอบของ Experts: วิธีการใหม่ในการสร้างแบบจำลองการสร้างโมเดล

วิธีการ“ การประกอบของ Experts” (AOE) ของ TNG แสดงให้เห็นถึงการออกเดินทางที่สำคัญจากการสร้างแบบจำลองทั่วไป แทนที่จะปรับแต่งหรือฝึกอบรมใหม่ AOE จะสร้างโมเดลใหม่โดยเลือกผสานเครื่องวัดน้ำหนักจากผู้ปกครองที่ผ่านการฝึกอบรมมาหลายครั้งกระบวนการที่มีรายละเอียดใน

วิธีการนี้แตกต่างจากสถาปัตยกรรมผสม (MOE) ที่ใช้ในแบบจำลองผู้ปกครอง ในขณะที่ Moe เป็นสถาปัตยกรรมรันไทม์ที่เปิดใช้งานเศษส่วนของ”ผู้เชี่ยวชาญ”ของโมเดลสำหรับงานใด ๆ ที่กำหนด AOE เป็นเทคนิคการก่อสร้างที่อบความเชี่ยวชาญรวมกันเป็นรุ่นสุดท้ายที่มีประสิทธิภาพมากขึ้น

benchmarks: ความสมดุลของความชาญฉลาด ตามมาตรฐานที่ตีพิมพ์โดย TNG, R1T2 Chimera ประสบความสำเร็จระหว่าง 90% ถึง 92% ของประสิทธิภาพการใช้เหตุผลของผู้ปกครองที่ทรงพลังที่สุด R1-0528 ในการทดสอบการทดสอบเช่น AIME และ GPQA อย่างไรก็ตามข้อได้เปรียบที่สำคัญของโมเดลนั้นกระชับ มันสร้างคำตอบที่ถูกต้องโดยใช้โทเค็นประมาณ 40% ที่ต้องการโดย R1-0528 การลดความยาวของเอาต์พุต 60%

สิ่งนี้แปลโดยตรงเป็นการตอบสนองที่เร็วขึ้นและลดค่าใช้จ่ายในการคำนวณ ประสิทธิภาพนี้เป็นจุดเด่นของผู้ปกครอง V3 หลังจากการเปิดตัวในเดือนมีนาคมนักพัฒนา Awni Hannun กล่าวถึงการปรับปรุง มีนาคม 2025 ตัวแปรของ V3 href=”https://twitter.com/awnihannun/status/1904177084609827054″target=”_ blank”> ทำงานบนแล็ปท็อปของเขา R1T2 Chimera ประสบความสำเร็จในการปลูกฝังประสิทธิภาพนี้ไปสู่แกนหลักที่มีเหตุผลมากขึ้น

นวัตกรรมท่ามกลางลมทางภูมิศาสตร์และลมขององค์กร

การเปิดตัวโมเดลที่มีประสิทธิภาพสูงนี้มาในช่วงเวลาที่วุ่นวาย โมเมนตัมของ บริษัท จีนได้หยุดชะงักด้วยรุ่น R2 ที่คาดการณ์ไว้ในขณะนี้ล่าช้าอย่างไม่มีกำหนด นี่เป็นเพราะทั้งความไม่พอใจในประสิทธิภาพภายในและผลกระทบของการควบคุมการส่งออกของสหรัฐในชิป AI ที่สำคัญ

พร้อมกัน Deepseek เผชิญกับแรงกดดันด้านกฎระเบียบในตะวันตก ในประเทศเยอรมนีหน่วยงานคุ้มครองข้อมูลของกรุงเบอร์ลินได้ขอให้ Apple และ Google ลบแอพ Deepseek ออกจากร้านค้าติดฉลากว่า“ เนื้อหาที่ผิดกฎหมาย” เนื่องจากความเสี่ยงต่อการถ่ายโอนข้อมูลที่ผิดกฎหมายไปยังประเทศจีน John Moolenaar ประธานคณะกรรมการกล่าวว่า“ รายงานนี้ทำให้ชัดเจน: Deepseek ไม่ได้เป็นเพียงแอพ AI อื่น-เป็นอาวุธในคลังแสงของพรรคคอมมิวนิสต์จีน…” โดยอ้างว่าแอพนี้เป็นเครื่องมือสำหรับการจารกรรมและการเก็บเกี่ยวข้อมูล แรงกดดันจากภายนอกเหล่านี้สร้างฉากหลังที่ซับซ้อนสำหรับเทคโนโลยีใด ๆ ที่ได้มาจากการทำงานของ Deepseek

การปรับใช้องค์กร: ความพร้อมใช้งานการออกใบอนุญาตและข้อ จำกัด

สำหรับผู้นำด้านเทคนิคขององค์กร R1T2 Chimera นำเสนอตัวเลือกที่น่าสนใจ ใบอนุญาต MIT ให้ความยืดหยุ่นสูงสุดสำหรับโฮสติ้งส่วนตัวการปรับแต่งและการปรับใช้ในแอปพลิเคชันเชิงพาณิชย์โดยไม่ต้องมีค่าธรรมเนียมใบอนุญาต การลดลงของต้นทุนการอนุมานที่สำคัญทำให้เหมาะสำหรับสภาพแวดล้อมที่มีปริมาณงานสูงหรือแบบเรียลไทม์

การประหยัดต้นทุนมีความเกี่ยวข้องโดยเฉพาะอย่างยิ่งสำหรับแอปพลิเคชันเช่นแชทสนับสนุนลูกค้าแบบเรียลไทม์การสรุปเอกสารขนาดใหญ่หรือการค้นหาฐานความรู้ภายใน มันวางโมเดลไว้ใน Quadrant ที่ต้องการบนเส้นโค้งประสิทธิภาพเทียบกับค่าใช้จ่าย

อย่างไรก็ตาม TNG บันทึกข้อ จำกัด บางประการบางอย่าง ยังไม่แนะนำตัวแบบสำหรับกรณีการใช้งานที่ต้องการการเรียกใช้ฟังก์ชันหรือการใช้เครื่องมือซึ่งหมายความว่ามันไม่สามารถโต้ตอบกับ API ภายนอกได้อย่างน่าเชื่อถือ สิ่งนี้ จำกัด การใช้งานในเวิร์กโฟลว์อัตโนมัติที่ซับซ้อนแม้ว่าการอัปเดตในอนาคตอาจระบุช่องว่างนี้

นอกจากนี้ บริษัท ยังแนะนำให้ผู้ใช้ในยุโรปประเมินการปฏิบัติตามพระราชบัญญัติ EU AI ซึ่งมีการเข้าถึงนอกเขต แม้จะมีข้อแม้เหล่านี้ แต่การเปิดตัว R1T2 Chimera โดย TNG นับเป็นขั้นตอนที่โดดเด่นในการพัฒนา AI แบบแยกส่วนซึ่งนำเสนอเหลือบในอนาคตที่มีการประกอบโมเดลไม่ใช่แค่ฝึกอบรม

Categories: IT Info