DeepSeek ซึ่งเป็นสตาร์ทอัพด้านปัญญาประดิษฐ์ของจีน ครองตำแหน่งสูงสุดใน App Store ของ Apple ในสหรัฐอเมริกาเมื่อสุดสัปดาห์ที่แล้ว ซึ่งเหนือกว่า ChatGPT ของ OpenAI ในการดาวน์โหลด

เหตุการณ์สำคัญเกิดขึ้นหลังจากการเปิดตัวโมเดลการให้เหตุผลหลักอย่าง R1 ของ DeepSeek เมื่อวันที่ 20 มกราคม ซึ่งได้รับการยอมรับอย่างรวดเร็วถึงความสามารถในการแข่งขันกับระบบ AI ขั้นสูง ในขณะที่ดำเนินการโดยใช้ทรัพยากรเพียงเล็กน้อยที่ปกติแล้วต้องใช้

ที่มา: หอเซ็นเซอร์

DeepSeek R1 มอบประสิทธิภาพที่ล้ำสมัย ในขณะเดียวกันก็ถูกเซ็นเซอร์ตามกฎของ CCP

การเพิ่มขึ้นอย่างรวดเร็วของแอปที่ขับเคลื่อนด้วย R1 สะท้อนให้เห็นถึงนวัตกรรมทางวิศวกรรมของ DeepSeek และการใช้งานเชิงกลยุทธ์ของ GPU Nvidia H800 ซึ่งถูกจำกัดสำหรับการส่งออกไปยังประเทศจีนเนื่องจากการคว่ำบาตรของสหรัฐอเมริกา

ที่เกี่ยวข้อง: เหตุใดการคว่ำบาตรของสหรัฐฯ อาจต้องดิ้นรนเพื่อลดการเติบโตของเทคโนโลยีของจีน

ด้วยการพัฒนาวิธีการฝึกอบรมที่มีประสิทธิภาพ บริษัทในหางโจวได้แสดงให้เห็นว่าความก้าวหน้าของ AI นั้น เป็นไปได้แม้ภายใต้ข้อจำกัดทางภูมิรัฐศาสตร์ การพัฒนานี้ท้าทายการรับรู้ถึงการครอบงำของสหรัฐฯ ในด้านปัญญาประดิษฐ์ และทำให้เกิดคำถามเกี่ยวกับประสิทธิผลของข้อจำกัดการส่งออกที่มีจุดมุ่งหมายเพื่อลดความสามารถทางเทคโนโลยีของจีน

การสร้าง AI ภายใต้การจำกัด: แนวทางการใช้ทรัพยากร

โมเดล R1 ของ DeepSeek ได้รับการฝึกฝนโดยใช้ GPU Nvidia H800 เพียง 2,048 ตัว ในราคารวมต่ำกว่า 6 ล้านเหรียญสหรัฐ ตามรายงานการวิจัยที่บริษัทเผยแพร่ใน ธันวาคม 2024

GPU เหล่านี้เป็นชิป H100 ในเวอร์ชันควบคุมการใช้งานโดยบริษัทในสหรัฐฯ เช่น OpenAI และ Meta โดยเจตนา แม้จะมีข้อจำกัดด้านฮาร์ดแวร์ แต่วิศวกรของ DeepSeek ได้พัฒนาเทคนิคการเพิ่มประสิทธิภาพแบบใหม่ที่ช่วยให้ R1 บรรลุผลลัพธ์ที่เทียบเคียงได้กับโมเดลที่ได้รับการฝึกบนโครงสร้างพื้นฐานที่ทรงพลังกว่ามาก

ผู้ก่อตั้ง Liang Wenfeng อดีตผู้จัดการกองทุนเฮดจ์ฟันด์ อธิบายแนวทางของบริษัทในระหว่าง สัมภาษณ์กับ 36Kr. “เราจำเป็นต้องใช้พลังการประมวลผลเพิ่มขึ้นสี่เท่าเพื่อให้ได้ผลลัพธ์เดียวกัน”

ที่เกี่ยวข้อง: DeepSeek AI Open Sources VL2 Series ของโมเดลภาษาวิชั่น

เหลียงกล่าวว่า “สิ่งที่เราต้องทำคือจำกัดช่องว่างเหล่านี้ให้แคบลงอย่างต่อเนื่อง” การมองการณ์ไกลของ Liang ในการสะสม GPU Nvidia ก่อนที่ข้อจำกัดของสหรัฐอเมริกาจะมีผลบังคับใช้ถือเป็นปัจจัยสำคัญต่อความสามารถของบริษัทในการสร้างสรรค์นวัตกรรมภายใต้สถานการณ์ที่ท้าทาย

วิศวกรของ DeepSeek ยังมุ่งเน้นไปที่การลดการใช้หน่วยความจำและค่าใช้จ่ายในการคำนวณ ซึ่งช่วยให้มีความแม่นยำสูงแม้จะมีข้อจำกัดด้านฮาร์ดแวร์. Dimitris Papailiopoulos นักวิจัยหลักของห้องปฏิบัติการ AI Frontiers ของ Microsoft เน้นย้ำถึงประสิทธิภาพของการออกแบบของ R1

“พวกเขามุ่งเป้าไปที่คำตอบที่แม่นยำมากกว่าการให้รายละเอียดทุกขั้นตอนเชิงตรรกะ ซึ่งช่วยลดเวลาในการประมวลผลลงอย่างมากในขณะที่ยังคงรักษาประสิทธิภาพในระดับสูงไว้” เขากล่าวกับ MIT Technology Review

ประสิทธิภาพ เกณฑ์มาตรฐานและการยอมรับในอุตสาหกรรม

ประสิทธิภาพของ R1 มีความแข็งแกร่งเป็นพิเศษในด้านเกณฑ์มาตรฐานทางเทคนิค โดยได้คะแนน 97.3% สำหรับ MATH-500 และ 79.8% สำหรับ AIME พ.ศ. 2567 ผลลัพธ์เหล่านี้ทำให้ R1 อยู่เคียงข้างซีรีส์ o1 ของ OpenAI ซึ่งแสดงให้เห็นว่าโมเดลที่ประหยัดทรัพยากรของ DeepSeek สามารถแข่งขันกับผู้นำในอุตสาหกรรมได้

นอกเหนือจากรุ่นเรือธงแล้ว DeepSeek ยังได้เปิดตัว R1 เวอร์ชันเล็กกว่าที่สามารถทำงานบนผู้บริโภคได้ ฮาร์ดแวร์เกรด ความสามารถในการเข้าถึงนี้ทำให้โมเดลนี้ได้รับความสนใจมากขึ้นในหมู่นักพัฒนา นักการศึกษา และผู้ที่ชื่นชอบงานอดิเรก บนโซเชียลมีเดีย ผู้ใช้ได้แชร์ตัวอย่างของ R1 ในการจัดการงานที่ซับซ้อน เช่น การพัฒนาเว็บ การเขียนโค้ด และ การแก้ปัญหาทางคณิตศาสตร์ขั้นสูง

ที่เกี่ยวข้อง: Mistral AI เปิดตัว Pixtral 12B สำหรับการประมวลผลข้อความและรูปภาพ

ความสำเร็จของ DeepSeek ได้รับการยกย่องจากบุคคลสำคัญใน AI สนาม. Yann LeCun หัวหน้านักวิทยาศาสตร์ AI ของ Meta เน้นย้ำถึงบทบาทของการทำงานร่วมกันแบบโอเพ่นซอร์สต่อความสำเร็จของ DeepSeek ““DeepSeek ได้รับประโยชน์จากการวิจัยแบบเปิดและโอเพ่นซอร์ส (เช่น PyTorch และ Llama จาก Meta) พวกเขาเกิดแนวคิดใหม่ ๆ และสร้างมันขึ้นมาจากงานของคนอื่น”LeCun เขียนบน LinkedIn เนื่องจากงานของพวกเขาได้รับการเผยแพร่และเป็นโอเพ่นซอร์ส ทุกคนจึงสามารถทำกำไรจากมันได้ นั่นคือพลังของการวิจัยแบบเปิดและโอเพ่นซอร์ส”

ในทำนองเดียวกัน Marc Andreessen ผู้ร่วมก่อตั้ง Andreessen Horowitz อธิบายว่า R1 เป็น “หนึ่งในความก้าวหน้าที่น่าทึ่งที่สุดที่ฉันเคยเห็นมา” การรับรองเหล่านี้เน้นย้ำถึงผลกระทบระดับโลกของแนวทางการใช้ AI อย่างชาญฉลาดของ DeepSeek การพัฒนา

ความสามารถในการจ่ายได้และจริยธรรมแบบโอเพ่นซอร์ส

ต่างจากแพลตฟอร์มที่เป็นกรรมสิทธิ์ เช่น ChatGPT ของ OpenAI ตรงที่ DeepSeek ได้นำเอาปรัชญาโอเพ่นซอร์สที่บริษัทสร้างขึ้นมาใช้ น้ำหนัก สูตรการฝึกอบรม และเอกสารประกอบของโมเดล R1 เปิดเผยต่อสาธารณะ ช่วยให้นักพัฒนาทั่วโลกสามารถทำซ้ำหรือต่อยอดผลงานได้ ความโปร่งใสนี้ทำให้ DeepSeek แตกต่างในอุตสาหกรรมที่มักมีลักษณะเฉพาะ การรักษาความลับ

ความสามารถในการจ่ายยังเป็นปัจจัยสำคัญที่ทำให้ R1 ได้รับความนิยม แอปนี้ใช้งานได้ฟรี และการเข้าถึง API มีราคาต่ำกว่าข้อเสนอของคู่แข่งอย่างมาก กลยุทธ์การกำหนดราคาเหล่านี้ เมื่อรวมกับความสามารถที่แข็งแกร่งของโมเดล ทำให้ DeepSeek เป็นตัวเลือกที่น่าสนใจสำหรับบุคคลและธุรกิจ

ที่เกี่ยวข้อง: LLaMA AI Under Fire – สิ่งที่ Meta ไม่ได้บอก คุณเกี่ยวกับโมเดล”โอเพ่นซอร์ส”

ผลกระทบทางภูมิรัฐศาสตร์ต่อความสำเร็จของ DeepSeek

การเพิ่มขึ้นของ DeepSeek เกิดขึ้นในช่วงเวลาแห่งภูมิรัฐศาสตร์ที่เพิ่มสูงขึ้น ความตึงเครียดระหว่างสหรัฐอเมริกาและจีน โดยเฉพาะอย่างยิ่งในด้านปัญญาประดิษฐ์

ตั้งแต่ปี 2021 ฝ่ายบริหารของ Biden ได้ขยายข้อจำกัดในการส่งออกชิปขั้นสูงไปยังประเทศจีน โดยมีเป้าหมายเพื่อจำกัดความสามารถของประเทศในการพัฒนาความสามารถในการแข่งขัน เทคโนโลยี AI อย่างไรก็ตาม ความสำเร็จของ DeepSeek ชี้ให้เห็นว่ามาตรการดังกล่าวอาจไม่สามารถป้องกันนวัตกรรมได้อย่างสมบูรณ์

ความสำเร็จของบริษัททำให้เกิดการถกเถียงกันในแวดวงเทคโนโลยีของสหรัฐฯ เกี่ยวกับผลที่ตามมาจากการควบคุมการส่งออกโดยไม่ได้ตั้งใจ ผู้บริหารแย้งว่าข้อจำกัดเหล่านี้อาจผลักดันให้เกิดนวัตกรรมอันทรงคุณค่าในหมู่บริษัทจีน กลยุทธ์ของ Liang ในการสะสม GPU และการมุ่งเน้นไปที่ประสิทธิภาพได้พิสูจน์แล้วว่าข้อจำกัดสามารถกระตุ้นการแก้ปัญหาอย่างสร้างสรรค์ได้ แทนที่จะปิดกั้นมันโดยสิ้นเชิง

ที่เกี่ยวข้อง: กฎการส่งออกชิป AI ใหม่ของสหรัฐฯ เผชิญกับฟันเฟืองของอุตสาหกรรม โดย Nvidia และอื่น ๆ

การเคลื่อนไหวที่กว้างขึ้นใน AI จีน

แนวทางโอเพ่นซอร์สของ DeepSeek สอดคล้องกับแนวโน้มที่กว้างขึ้นใน ภาค AI ของจีน บริษัทอื่นๆ รวมถึง Alibaba Cloud และ 01.AI ของ Kai-Fu Lee ยังได้ให้ความสำคัญกับโครงการริเริ่มโอเพ่นซอร์สในช่วงไม่กี่ปีที่ผ่านมา Liang ได้อธิบายถึงความจำเป็นในการจัดการกับสิ่งที่เขาเรียกว่า”ช่องว่างด้านประสิทธิภาพ”ระหว่างการลงทุนด้าน AI ของจีนและตะวันตก โดยอธิบายว่าบริษัทในท้องถิ่นมักต้องการทรัพยากรสองเท่าเพื่อให้ได้ผลลัพธ์ที่เทียบเคียงได้

ที่เกี่ยวข้อง:

strong> Alibaba Qwen เปิดตัว QVQ-72B-แสดงตัวอย่างโมเดล AI การใช้เหตุผลหลายรูปแบบ

ในเดือนกรกฎาคม 2024 Liang กล่าวว่า”เราประเมินว่าโมเดลในประเทศและต่างประเทศที่ดีที่สุดอาจมีช่องว่าง 1 เท่าในโมเดล โครงสร้างและไดนามิกการฝึกอบรม ด้วยเหตุนี้ เราจึงจำเป็นต้องใช้พลังการประมวลผลเป็นสองเท่าเพื่อให้ได้ผลลัพธ์เดียวกัน นอกจากนี้ ประสิทธิภาพของข้อมูลอาจมีช่องว่างถึงหนึ่งเท่า นั่นคือ เราจำเป็นต้องใช้สองเท่า ข้อมูลการฝึกอบรมและพลังการประมวลผลมากที่สุดเท่าที่จะเป็นไปได้เพื่อให้บรรลุผลเช่นเดียวกัน เราจำเป็นต้องใช้พลังในการประมวลผลเพิ่มขึ้นสี่เท่า สิ่งที่เราต้องทำคือลดช่องว่างเหล่านี้ให้แคบลงอย่างต่อเนื่อง”

ความเป็นผู้นำของเขาทำให้ DeepSeek ได้รับการยอมรับทั้งในประเทศจีนและต่างประเทศ ในปี 2024 เขาได้รับเชิญให้เข้าร่วมการประชุมระดับสูงกับเจ้าหน้าที่ของจีนเพื่อหารือเกี่ยวกับกลยุทธ์ในการพัฒนาขีดความสามารถด้าน AI ของประเทศ

ความท้าทายและโอกาสในอนาคต

ในขณะที่ DeepSeek ยังคงปรับแต่งโมเดลอย่างต่อเนื่อง โดยบริษัทต้องเผชิญกับทั้งโอกาสและความท้าทาย แม้ว่าความสำเร็จได้พิสูจน์ให้เห็นถึงศักยภาพของ AI ที่ประหยัดทรัพยากรแล้ว แต่ก็ยังมีคำถามอยู่ว่าแนวทางดังกล่าวสามารถปรับขนาดเพื่อแข่งขันกับการลงทุนมหาศาลของยักษ์ใหญ่ด้านเทคโนโลยีอย่าง OpenAI และ Meta ได้หรือไม่

ในโพสต์หลังการเปิดตัว DeepSeek R1 Mark Zuckerberg ซีอีโอของ Meta ได้เน้นย้ำถึงความสำคัญของการลงทุนขนาดใหญ่ในโครงสร้างพื้นฐาน AI โดยกล่าวว่า”นี่จะเป็นปีที่กำหนดสำหรับ AI ในปี 2025 ฉันคาดว่า Meta AI จะเป็นผู้ช่วยชั้นนำที่ให้บริการผู้คนมากกว่า 1 พันล้านคน Llama 4 จะกลายเป็นโมเดลล้ำสมัยชั้นนำ และเราจะสร้างวิศวกร AI ที่จะเริ่มมีส่วนร่วมในโค้ดจำนวนมากขึ้น ต่อความพยายามด้านการวิจัยและพัฒนาของเรา เพื่อขับเคลื่อนสิ่งนี้ Meta กำลังสร้างศูนย์ข้อมูล 2GW+ ที่มีขนาดใหญ่มากจนครอบคลุมส่วนสำคัญของแมนฮัตตัน

เราจะนำการประมวลผลออนไลน์ ~1GW ในปี’25 และเราจะสิ้นปีนี้ด้วย GPU มากกว่า 1.3 ล้านตัว เรากำลังวางแผนที่จะลงทุน 60-65 พันล้านดอลลาร์ในฝ่ายทุนในปีนี้ ในขณะเดียวกันก็ทำให้ทีม AI ของเราเติบโตอย่างมีนัยสำคัญ และเรามีเงินทุนสำหรับการลงทุนต่อไปในปีต่อๆ ไป นี่เป็นความพยายามครั้งใหญ่ และในปีต่อๆ ไป ความพยายามดังกล่าวจะขับเคลื่อนผลิตภัณฑ์และธุรกิจหลักของเรา ปลดล็อกนวัตกรรมทางประวัติศาสตร์ และขยายความเป็นผู้นำด้านเทคโนโลยีของอเมริกา ไปสร้างกันเถอะ!”

ในตอนนี้ ความสำเร็จของ DeepSeek กับ R1 ได้แสดงให้เห็นว่านวัตกรรมไม่ได้เป็นเพียงโดเมนของผู้เล่นที่ได้รับทุนสนับสนุนมากที่สุดเท่านั้น บริษัทได้จัดลำดับความสำคัญของประสิทธิภาพ ความโปร่งใส และการเข้าถึงได้ โดยให้ความสำคัญกับประสิทธิภาพ ความโปร่งใส และการเข้าถึง ผลกระทบที่ยั่งยืนต่ออุตสาหกรรม AI ทั่วโลก

Categories: IT Info