Google DeepMind ได้เริ่มต้นความคิดริเริ่มใหม่เพื่อสร้างระบบปัญญาประดิษฐ์ขั้นสูง (AI) ที่สามารถจำลองสภาพแวดล้อมทางกายภาพและเสมือนได้
Tim Brooks อดีตนักวิจัยของ OpenAI เป็นผู้นำในความพยายามซึ่งมุ่งเน้นไปที่ ใน “แบบจำลองโลก”—ระบบ AI ที่ออกแบบมาเพื่อคาดการณ์และโต้ตอบกับไดนามิกในโลกแห่งความเป็นจริง ในโพสต์บน X นั้น Brooks กล่าวว่า “DeepMind มีแผนอันทะเยอทะยานที่จะสร้างแบบจำลองกำเนิดขนาดใหญ่ที่จำลองโลก”
โครงการนี้เชื่อมโยงอย่างใกล้ชิดกับกลยุทธ์ที่ใหญ่กว่าของ Google เพื่อพัฒนาปัญญาประดิษฐ์ทั่วไป (AGI) แบบจำลองโลกถือเป็นก้าวสำคัญในการบรรลุ AGI ซึ่งเป็นรูปแบบหนึ่งของ AI ที่สามารถทำงานทางปัญญาใดๆ ที่มนุษย์สามารถทำได้
ทีมใหม่จะร่วมมือกับโครงการ DeepMind ที่มีอยู่ รวมถึง Gemini multimodal AI แพลตฟอร์มการสร้างวิดีโอ Veo และ Genie โปรแกรมสร้างสภาพแวดล้อมสำหรับการจำลอง 3 มิติเชิงโต้ตอบ
DeepMind มีแผนอันทะเยอทะยานที่จะสร้างโมเดลกำเนิดขนาดใหญ่ที่จำลองโลก ฉันกำลังจ้างทีมใหม่ด้วยภารกิจนี้ มาสร้างกับเรา!https://t.co/pqvALtAvLs https://t.co/vtwgeXl9Dl
— ทิม บรูคส์ (@_tim_brooks) 6 มกราคม 2025
โมเดลโลกของ AI
แบบจำลองของโลกแสดงถึงการเบี่ยงเบนไปจากระบบ AI แบบดั้งเดิม ซึ่งตอบสนองต่อการป้อนข้อมูลเป็นหลัก แต่โมเดลเหล่านี้จะจำลองสภาพแวดล้อมที่ซับซ้อนโดยการวิเคราะห์ข้อมูลหลายรูปแบบ เช่น ข้อความ รูปภาพ และวิดีโอ ความสามารถในการคาดการณ์นี้ช่วยให้สามารถนำไปใช้งานในสาขาต่างๆ ได้ ตั้งแต่การฝึกอบรมด้านหุ่นยนต์ไปจนถึงการเล่นเกมแบบโต้ตอบ
a> สำหรับทีมใหม่เน้นย้ำถึงเป้าหมายที่กว้างขึ้น: “เราเชื่อว่าการปรับขนาดการฝึกอบรมล่วงหน้าเกี่ยวกับวิดีโอและข้อมูลหลายรูปแบบอยู่บนเส้นทางที่สำคัญสู่ปัญญาประดิษฐ์ทั่วไป โมเดลโลกจะขับเคลื่อนโดเมนต่างๆ มากมาย เช่น การใช้เหตุผลและการจำลองด้วยภาพ การวางแผนสำหรับตัวแทนที่เป็นตัวเป็นตน และความบันเทิงเชิงโต้ตอบแบบเรียลไทม์”
ด้วยการจำลองไดนามิกในโลกแห่งความเป็นจริง โมเดลโลกจึงมีแซนด์บ็อกซ์เสมือนสำหรับการทดสอบและ การเรียนรู้ ช่วยเพิ่มความสามารถของ AI ในการปรับตัวและตอบสนองในสถานการณ์จริง
โปรเจ็กต์ Genie ของ DeepMind เผยให้เห็นถึงความเป็นไปได้ต่างๆ ที่เปิดตัวในเดือนธันวาคม โดย Genie 2 สามารถสร้างสิ่งที่สามารถเล่นได้ โลก 3 มิติตามการแจ้งเตือนของผู้ใช้ การสาธิตประกอบด้วยการจำลองการสำรวจการเดินเรือและธีมตะวันตกในธีมไซเบอร์พังค์ ซึ่งแสดงให้เห็นถึงความเก่งกาจของแพลตฟอร์มในการสร้างสภาพแวดล้อมแบบโต้ตอบ
การสาธิตการจำลอง AI แบบโต้ตอบทีละเฟรมที่สร้างขึ้นด้วย Google Genie 2 (ที่มา: Google)
งานเกี่ยวกับแบบจำลองโลกมีความซับซ้อนโดยเนื้อแท้ โดยต้องใช้โครงสร้างพื้นฐานที่ล้ำสมัยและทรัพยากรการคำนวณจำนวนมหาศาล การเสนองานของ DeepMind สำหรับบทบาทวิศวกรวิจัยในการสร้างแบบจำลองโลกได้สรุปถึงความท้าทายทางเทคนิคที่เกี่ยวข้อง หน้าที่รับผิดชอบ ได้แก่:
การฝึกอบรมหม้อแปลงหลายรูปแบบขนาดใหญ่ ที่สามารถวิเคราะห์ประเภทข้อมูลที่หลากหลายได้ การสร้างโครงสร้างพื้นฐานสำหรับไปป์ไลน์ข้อมูลวิดีโอ เพื่อให้มั่นใจถึงการดูแลจัดการและคำอธิบายประกอบที่มีประสิทธิภาพ การเพิ่มประสิทธิภาพระบบการอนุมาน สำหรับแอปพลิเคชันแบบเรียลไทม์ ช่วยให้สามารถโต้ตอบได้อย่างราบรื่น การพัฒนาตัวชี้วัดการประเมินเชิงปริมาณเพื่อวัดความแม่นยำและความฉลาดทางกายภาพ การสำรวจหม้อแปลงที่มีบริบทยาวเป็นพิเศษ ซึ่งช่วยให้ AI สามารถวิเคราะห์ลำดับข้อมูลที่ขยายออกไปได้
การเน้นย้ำถึงการปรับขนาดสะท้อนให้เห็นถึงความมุ่งมั่นในการทำให้ระบบเหล่านี้ทั้งแข็งแกร่งและมีประสิทธิภาพ ปรัชญาของ DeepMind ซึ่งสรุปได้ว่าเป็นความรับผิดชอบหลักในรายละเอียดงาน เน้นย้ำแนวทางนี้:
“ใช้โครงสร้างพื้นฐานหลักและดำเนินการวิจัยเพื่อสร้างแบบจำลองกำเนิดของโลกทางกายภาพ แก้ไขปัญหาสำคัญเพื่อฝึกฝนเครื่องจำลองโลกในขนาดมหึมา พัฒนาหน่วยเมตริกและกฎมาตราส่วนสำหรับความฉลาดทางกายภาพ จัดการและใส่คำอธิบายประกอบข้อมูลการฝึกอบรม เปิดใช้งานการสร้างเชิงโต้ตอบแบบเรียลไทม์ และศึกษาการบูรณาการโมเดลโลกเข้ากับโมเดลภาษาหลายรูปแบบ ยอมรับบทเรียนอันขมขื่นและแสวงหาวิธีการง่ายๆ ที่ขยายขนาดได้ โดยเน้นที่ระบบและโครงสร้างพื้นฐานที่แข็งแกร่ง”
แอปพลิเคชันและผลกระทบ
แบบจำลองของโลกมีแอปพลิเคชันที่หลากหลายทั่ว ในอุตสาหกรรมหุ่นยนต์ ช่วยให้สามารถสร้างสภาพแวดล้อมเสมือนจริงที่เครื่องจักรสามารถเรียนรู้การนำทางและจัดการวัตถุได้ ซึ่งช่วยลดเวลาและค่าใช้จ่ายในการทดสอบทางกายภาพ
Genesis ซึ่งเป็นแพลตฟอร์มจำลองฟิสิกส์แบบโอเพ่นซอร์สที่พัฒนาโดย มหาวิทยาลัยคาร์เนกีเมลลอนและอุตสาหกรรมเอกชน นักวิจัยแสดงให้เห็นว่าระบบ AI สามารถฝึกฝนฟิสิกส์ 3 มิติในสภาพแวดล้อมเสมือนจริงได้เร็วกว่าในโลกแห่งความเป็นจริงมากเพียงใด
ในเกม โมเดลโลกสร้างประสบการณ์ที่ดื่มด่ำด้วยสภาพแวดล้อมแบบไดนามิกและตอบสนองได้ดี เทคโนโลยีนี้ก็มีเช่นกัน ศักยภาพในการดูแลสุขภาพ โดยที่การจำลองสามารถช่วยในการวินิจฉัยและการวางแผนการรักษาเฉพาะบุคคลได้
แม้จะมีคำมั่นสัญญา แต่ความก้าวหน้าเหล่านี้มาพร้อมกับความท้าทายด้านจริยธรรม โดยเฉพาะอย่างยิ่งเกี่ยวกับการโยกย้ายคนงาน Animation Guild ประมาณการว่างานด้านภาพยนตร์ โทรทัศน์ และแอนิเมชั่นในสหรัฐฯ มากกว่า 100,000 ตำแหน่งอาจได้รับผลกระทบจากเทคโนโลยี AI ภายในปี 2569
ปัญหาทางกฎหมายก็เกิดขึ้นเช่นกัน เนื่องจากโมเดลระดับโลกบางรุ่นต้องอาศัยฟุตเทจวิดีโอเกมที่ไม่มีใบอนุญาตสำหรับ การฝึกอบรม. แม้ว่า Google ยืนยันว่าแนวทางปฏิบัติของตนเป็นไปตามข้อกำหนดในการให้บริการของ YouTube แต่ก็ไม่ได้เปิดเผยแหล่งข้อมูลที่เฉพาะเจาะจง
การแข่งขันใน AI Space
ตำแหน่งริเริ่มของ DeepMind Google ในการแข่งขันกับผู้เล่นหลักรายอื่น แพลตฟอร์ม Cosmos ใหม่ของ Nvidia มุ่งเน้นไปที่ AI ทางกายภาพและหุ่นยนต์ ในขณะที่ World Labs ของ Fei-Fei Li พัฒนาโมเดลโลกขนาดใหญ่ที่มีความฉลาดเชิงพื้นที่สำหรับ แอพพลิเคชั่นที่หลากหลาย สตาร์ทอัพอย่าง Odyssey และ Decart ก็กำลังสร้างธุรกิจนี้เช่นกัน ความก้าวหน้า ซึ่งมีส่วนทำให้การจำลองโลก AI เติบโตขึ้น
การเข้าถึง Gemini AI, Veo และ Genie ของ DeepMind มอบข้อได้เปรียบที่ไม่เหมือนใคร ด้วยการบูรณาการระบบเหล่านี้ ทีมงานมีเป้าหมายที่จะสร้าง AI ที่ไม่เพียงแต่คาดการณ์ผลลัพธ์ แต่ยังปรับให้เข้ากับสถานการณ์ที่เปลี่ยนแปลงไปแบบเรียลไทม์ ความสามารถนี้อาจมีความสำคัญอย่างยิ่งต่อการบรรลุ AGI โดยที่ความสามารถในการปรับตัวและลักษณะทั่วไปเป็นกุญแจสำคัญ
วิสัยทัศน์ของ DeepMind สำหรับ AGI
ในขณะที่ปัญญาประดิษฐ์ทั่วไปยังคงอยู่ห่างไกลแต่สามารถทำได้ เป้าหมาย โมเดลโลกถือเป็นก้าวสำคัญบนเส้นทางนี้ ด้วยการจำลองสภาพแวดล้อมทางกายภาพและเสมือนจริง โมเดลเหล่านี้จึงเป็นรากฐานสำหรับระบบ AI ที่สามารถให้เหตุผล วางแผน และโต้ตอบได้เหมือนมนุษย์
คำอธิบายงานของวิศวกรวิจัยรวบรวมแก่นแท้ของวิสัยทัศน์ของ DeepMind: “แบบจำลองของโลกจะขับเคลื่อน โดเมนมากมาย เช่น การใช้เหตุผลและการจำลองด้วยภาพ การวางแผนสำหรับตัวแทนที่รวบรวมไว้ และความบันเทิงเชิงโต้ตอบแบบเรียลไทม์”