Google DeepMind ได้เปิดตัวโมเดล AI ใหม่ที่อนุญาตให้หุ่นยนต์ทำงานด้วยความเป็นอิสระเต็มรูปแบบโดยไม่ได้รับการคัดค้านจากคลาวด์ ระบบใหม่ที่ชื่อว่า Gemini Robotics On Debice ทำงานบนฮาร์ดแวร์ในท้องถิ่นของหุ่นยนต์ทั้งหมดการพัฒนาที่สำคัญที่สัญญาว่าจะทำให้ระบบหุ่นยนต์เร็วขึ้นเชื่อถือได้มากขึ้นและสามารถทำงานในสภาพแวดล้อมที่มีการเชื่อมต่ออินเทอร์เน็ตเป็นระยะ ๆ หรือไม่มี นี่เป็นขั้นตอนที่สำคัญในการสร้างหุ่นยนต์อเนกประสงค์ทั่วไปสำหรับแอพพลิเคชั่นในโลกแห่งความเป็นจริง

Google DeepMind อธิบายว่ารุ่นใหม่ที่ออกแบบมาสำหรับหุ่นยนต์สองแขนไม่ได้มีประสิทธิภาพ แต่ยังปรับตัวได้สูงและออกแบบมาเพื่อต้องการทรัพยากรการคำนวณขั้นต่ำ มันเป็นรุ่นแรกของโมเดลวิสัยทัศน์-แอ็คชั่น-แอ็คชั่น (VLA) ของ บริษัท ที่มีให้สำหรับการปรับแต่งทำให้นักพัฒนาสามารถปรับให้เข้ากับงานใหม่ที่คล่องแคล่วสูงโดยมีการสาธิตเพียง 50 ถึง 100 ครั้ง ความสามารถในการสรุปจากข้อมูลใหม่จำนวนเล็กน้อยสามารถเร่งการปรับใช้หุ่นยนต์ในการตั้งค่าที่ซับซ้อน

เพื่ออำนวยความสะดวกนี้ บริษัท กำลังปล่อย

Google’s

การแลกเปลี่ยนหลักสำหรับ AI ในอุปกรณ์อย่างไรก็ตามเป็นข้อ จำกัด โดยธรรมชาติของฮาร์ดแวร์ในท้องถิ่นซึ่งมีกำลังการคำนวณและการจัดเก็บน้อยกว่าเซิร์ฟเวอร์คลาวด์ขนาดใหญ่ ความท้าทายนี้นำไปสู่การเดิมพันเชิงกลยุทธ์ที่แตกต่างกันในอุตสาหกรรม ยกตัวอย่างเช่นรูป AI ได้แนะนำโมเดล Helix AI ของหุ่นยนต์ในเดือนกุมภาพันธ์ซึ่งเช่นระบบใหม่ของ Google ทำงานบน GPU แบบฝังตัวทั้งหมด

ในทางตรงกันข้ามโมเดลแมกมา AI ของ Microsoft ได้รับการออกแบบมาเพื่อการรวมเข้ากับแพลตฟอร์มคลาวด์ Azure กลยุทธ์ของ Google ได้พัฒนาขึ้น แพลตฟอร์มหุ่นยนต์ราศีเมถุนของเรือธงที่เปิดตัวในเดือนมีนาคมใช้วิธีการไฮบริด โมเดลบนอุปกรณ์ใหม่เป็นวิธีแก้ปัญหาเฉพาะสำหรับสถานการณ์ที่ความเป็นอิสระเป็นสิ่งสำคัญยิ่ง

สนามอัจฉริยะทางกายภาพที่แออัด

การลงทุนร่วมทุนในหุ่นยนต์มนุษย์ target=”_ blank”> สามเท่าในปี 2024 ถึง $ 1.2 พันล้าน ส่งสัญญาณการแข่งขันที่รุนแรง ตามสมาพันธ์สากลของหุ่นยนต์ จากประสบการณ์มากกว่าการเขียนโปรแกรมที่เข้มงวด

ภูมิทัศน์การแข่งขันนี้รวมถึงผู้เล่นรายใหญ่ที่ติดตามปรัชญาที่เป็นเอกลักษณ์ ในขณะที่ Google และ Figure AI Champion ความเร็วในอุปกรณ์ Meta เพิ่งเปิดตัว V-Jepa 2 ซึ่งเป็น“ โมเดลโลก” โอเพนซอร์ซที่เรียนรู้สามัญสำนึกทางกายภาพจากวิดีโอ โมเดลเหล่านี้อนุญาตให้ AI ทำการจำลองภายในเพื่อ“ คิด” ก่อนที่จะทำหน้าที่ให้เครื่อง“ วางแผนการเคลื่อนไหวและการโต้ตอบในพื้นที่จำลอง” ก่อนที่จะพยายามในโลกทางกายภาพ

วิธีการนี้ช่วยลดการทดลองและข้อผิดพลาดที่มีค่าใช้จ่ายสูงและเร่งการเรียนรู้งานในการประกอบอุตสาหกรรม วิธีนี้มุ่งเน้นไปที่การสร้างความเข้าใจภายในของฟิสิกส์นำเสนอเส้นทางอื่นในการสร้างหุ่นยนต์ที่สามารถนำทางสภาพแวดล้อมของมนุษย์ที่คาดเดาไม่ได้

การสอนหุ่นยนต์เพื่อเรียนรู้เช่นมนุษย์

ที่หัวใจของโมเดลใหม่ของ Google คือการมุ่งเน้นไปที่การวางนัยทั่วไป นี่คือความสำเร็จผ่านเทคนิคที่เรียกว่าการเรียนรู้ไม่กี่ครั้ง (FSL) ซึ่งช่วยให้แบบจำลองเรียนรู้จากตัวอย่างจำนวนน้อยมาก วิธีการนี้พยายามที่จะ เลียนแบบความสามารถของมนุษย์ เพื่อเข้าใจแนวคิดใหม่อย่างรวดเร็ว สำหรับหุ่นยนต์ที่รวบรวมชุดข้อมูลขนาดใหญ่ที่มีป้ายกำกับสำหรับทุกงานที่เป็นไปได้นั้นไม่สามารถทำได้ FSL เป็นตัวเปลี่ยนเกม

Google อ้างว่า Gemini Robotics สามารถปรับเปลี่ยนได้ด้วยการสาธิตเพียง 50 ถึง 100 ครั้ง บริษัท ให้หลักฐานที่เป็นรูปธรรมเกี่ยวกับความสามารถในการปรับตัวนี้โดยสังเกตว่าในขณะที่แบบจำลองได้รับการฝึกฝนสำหรับหุ่นยนต์ Aloha ในขั้นต้น แต่ก็ประสบความสำเร็จในการปรับตัวให้เข้ากับหุ่นยนต์ Franka Franm Frank Bi-arm และ Apollo Humanoid Robot โดย Apptronik

ความสามารถนี้เป็นสิ่งที่ทำให้ระบบมีศักยภาพในวงกว้าง ในฐานะ Carolina Parada หัวหน้าหุ่นยนต์ที่ Google Deepmind อธิบายใน

ท่าทางที่เป็นกรรมสิทธิ์นี้แตกต่างอย่างมากกับบทบาทของเมตาในโอเพนซอร์ซ AI ด้วยโมเดล LLAMA ซึ่งเป็นกลยุทธ์ที่ออกแบบมาเพื่อเร่งนวัตกรรมชุมชน ในขณะที่การเปิดกว้างนี้ได้รับการยกย่องการแสดงของโมเดลแบบเปิดได้ตามมาในอดีต โมเดลโอเพนซอร์ซที่ดีที่สุดนั้นล้าหลังรุ่นที่เป็นกรรมสิทธิ์หลายเดือนแม้ว่าช่องว่างนั้นจะหดตัวลง ความแตกต่างของประสิทธิภาพนี้ช่วยอธิบายว่าทำไม บริษัท อย่าง Google จึงปกป้องเทคโนโลยีที่ทันสมัยที่สุดแม้ว่าจะมีเครื่องมือสำหรับนักพัฒนาที่จะสร้างขึ้นมา

การเปิดตัว Gemini Robotics ของ Google ในอุปกรณ์เป็นการเคลื่อนไหวที่คำนวณได้ในการแข่งขันที่มีสเตคสูงเพื่อสร้างเครื่องอัจฉริยะรุ่นต่อไป มันตอบสนองโดยตรงต่อความต้องการที่สำคัญของอุตสาหกรรมสำหรับระบบอิสระที่มีความล่าช้าและเป็นอิสระในขณะที่แสดงให้เห็นถึงความก้าวหน้าที่น่าทึ่งในการเรียนรู้อย่างรวดเร็วและเหมือนมนุษย์ กระนั้นผลกระทบสูงสุดของแบบจำลองจะไม่เพียง แต่มีความกล้าหาญทางเทคนิคเท่านั้น แต่ยังรวมถึงความตึงเครียดเชิงกลยุทธ์ระหว่างจิตวิญญาณการทำงานร่วมกันของการวิจัยแบบเปิดและความเป็นจริงของการแข่งขันเชิงพาณิชย์