Google DeepMind ได้เปิดเผย Genie 3 ซึ่งเป็นโมเดล AI ใหม่ที่สร้างโลก 3D ที่เล่นได้จากคำสั่งข้อความง่าย ๆ ประกาศเมื่อวันอังคารที่ผ่านมาระบบจะสร้างสภาพแวดล้อมแบบโต้ตอบเหล่านี้แบบเรียลไทม์ซึ่งเป็นขั้นตอนสำคัญที่เพิ่มขึ้นจากรุ่นก่อนหน้า
การย้ายครั้งนี้ทำให้เกิดการเร่งความเร็วเชิงกลยุทธ์ในการแข่งขันเพื่อสร้างแบบจำลองพื้นฐานของโลก DeepMind มองว่าเทคโนโลยีนี้เป็นส่วนหนึ่งของเส้นทางสู่การประดิษฐ์ทางปัญญาทั่วไป (AGI) โดยการทดสอบตัวแทนในโลกใหม่ที่นับไม่ถ้วนห้องปฏิบัติการมีจุดมุ่งหมายเพื่อสร้าง AI ที่สามารถจัดการงานที่ซับซ้อนและเป็นจริง
การประกาศดังต่อไปนี้การก่อตัวของทีมโมเดลโลกพิเศษที่ DeepMind เมื่อต้นปีนี้ มันเน้นย้ำถึงความมุ่งมั่นที่ชัดเจนในการสร้าง AI ที่เข้าใจและจำลองความเป็นจริงทางกายภาพด้วยแอพพลิเคชั่นในอนาคตในการเล่นเกมการออกแบบและหุ่นยนต์
รุ่นก่อนหน้านี้ เป็นศูนย์กลางของความสำเร็จ Shlomi Fruchter ผู้อำนวยการวิจัยที่ Google Deepmind อธิบายว่าเป็น“ แบบจำลองการโต้ตอบแบบเรียลไทม์ทั่วไปครั้งแรกของโลก”
เขาอธิบายกลไกเพิ่มเติมโดยระบุว่า“ แบบจำลองนั้นเกิดขึ้นโดยอัตโนมัติ กระบวนการตามลำดับหน่วยความจำนี้เป็นสิ่งที่อนุญาตให้ Genie 3 สร้างความเข้าใจที่ใช้งานง่ายและสม่ำเสมอของฟิสิกส์โดยไม่ต้องพึ่งพาเครื่องยนต์ที่มีรหัสยาก
เส้นทางสู่ Agi: การฝึกอบรมที่ชาญฉลาดกว่านั้นเป็นสิ่งสำคัญ วิจัย. ห้องปฏิบัติการวางตำแหน่งโมเดลเป็นเครื่องมือสำคัญสำหรับการฝึกอบรมตัวแทน AI ที่เป็นตัวเป็นตน-ระบบเช่นหุ่นยนต์หรืออวตารเสมือนจริงที่ออกแบบมาเพื่อใช้งานในพื้นที่ทางกายภาพ
เป้าหมายสูงสุดคือการเร่งความก้าวหน้าไปสู่การขุดเจาะที่ไม่สามารถทำได้ ในการพัฒนาหุ่นยนต์และ AI ตัวแทนการฝึกอบรมในโลกแห่งความเป็นจริงนั้นช้าราคาแพงและอาจเป็นอันตราย โมเดลโลกเช่น Genie 3 เสนอวิธีแก้ปัญหาโดยการจัดหาแซนด์บ็อกซ์ที่ปลอดภัยปรับขนาดได้และปรับขนาดได้อย่างไม่สิ้นสุดสำหรับการเรียนรู้
แจ็คปาร์กเกอร์-โฮลเดอร์นักวิทยาศาสตร์การวิจัยในทีมเปิดกว้างของ DeepMind เน้นกลยุทธ์นี้ ของสถานการณ์“ เกิดอะไรขึ้นถ้า” Genie 3 สามารถใช้ในการสอนระบบ AI ถึงวิธีการจัดการสถานการณ์ที่ไม่ได้กล่าวถึงในการฝึกอบรมครั้งแรก ตัวอย่างเช่นตามที่ระบุไว้โดยผู้อำนวยการวิจัยของ DeepMind มันสามารถใช้ในการฝึกอบรมรถยนต์ที่ขับเคลื่อนด้วยตนเองเกี่ยวกับวิธีการตอบสนองต่อคนเดินเท้าที่ปรากฏขึ้นอย่างกระทันหันโดยไม่จำเป็นต้องเสี่ยงต่อการปะทะกันในโลกแห่งความเป็นจริง
ความสามารถในการจำลองการต่อต้าน 3 ด้วย Sima Agent ในการสาธิตตัวแทนได้รับเป้าหมายที่แตกต่างกันและต้องบรรลุเป้าหมายโดยการส่งคำสั่งการนำทางไปยัง Genie 3 โมเดลโลกโดยไม่ทราบถึงวัตถุประสงค์ของตัวแทนจะจำลองผลทางกายภาพของการกระทำเหล่านั้นบังคับให้ Sima วางแผนและดำเนินการตามลำดับการกระทำที่ยาวนานขึ้น สิ่งนี้กลายเป็นพื้นที่ฝึกอบรมในอุดมคติที่ตัวแทนถูกผลักดันไปยังขีด จำกัด ของพวกเขาถูกบังคับให้ต้องดิ้นรนและปรับปรุงผ่านการทดลองและข้อผิดพลาดในลักษณะที่สะท้อนให้เห็นว่ามนุษย์เรียนรู้ได้อย่างไร
กลยุทธ์นี้ทำให้ Google ในการแข่งขันโดยตรงกับคู่แข่งเช่น Meta ซึ่งกำลังพัฒนาแบบจำลองโลกของตัวเองเช่น V-Jepa 2 ความเชื่อพื้นฐานที่ใช้ร่วมกันในอุตสาหกรรมคือ AI จะต้องเรียนรู้ที่จะ“ คิด” และวางแผนภายในการจำลองภายในที่ถูกต้องของความเป็นจริงก่อนที่จะสามารถเชื่อถือได้ที่จะกระทำอย่างน่าเชื่อถือในโลกทางกายภาพ
แม้จะมีความคืบหน้า เขาแนะนำว่าอุตสาหกรรมยังไม่ได้มี“ การเคลื่อนไหว 37 ช่วงเวลาสำหรับตัวแทนที่เป็นตัวเป็นตน” ซึ่งพวกเขาสามารถ“ ดำเนินการใหม่ในโลกแห่งความเป็นจริง”
สิ่งนี้หมายถึงการเคลื่อนไหวที่แปลกใหม่และยอดเยี่ยมโดยอัลฟาโกของ DeepMind สำหรับ AI ที่เป็นตัวเป็นตนช่วงเวลาดังกล่าวยังคงเป็นสุดยอดที่ยังไม่สามารถเข้าถึงได้ซึ่งเป็นแบบจำลองของโลกเช่น Genie 3 ได้รับการออกแบบมาเพื่อเปิดใช้งานหนึ่งวัน
การวิจัยดูตัวอย่าง แบบจำลองนี้ได้รับการปล่อยตัวเป็น“ ตัวอย่างการวิจัยที่ จำกัด ” ให้กับกลุ่มนักวิชาการและผู้สร้างกลุ่มเล็ก ๆ ไม่ใช่ประชาชนทั่วไป วิธีการที่ระมัดระวังนี้สะท้อนให้เห็นถึงขั้นตอนที่พึ่งของเทคโนโลยี
ข้อ จำกัด ที่สำคัญรวมถึงพื้นที่ปฏิบัติการที่ จำกัด สำหรับตัวแทนภายในการจำลอง นอกจากนี้โมเดลต้องดิ้นรนกับข้อความที่แสดงผลอย่างถูกต้องและยังไม่สามารถจำลองการโต้ตอบที่ซับซ้อนระหว่างตัวแทนอิสระหลายรายตามรายละเอียดในเอกสารของมัน
ระยะเวลาของการจำลองในขณะที่ดีขึ้นยังคงอยู่ไกลจากชั่วโมงที่จำเป็นสำหรับการฝึกอบรมตัวแทนที่ครอบคลุม Fruchter ยอมรับถนนข้างหน้าโดยสังเกตว่า“ มีหลายสิ่งหลายอย่างที่ต้องเกิดขึ้นก่อนที่รุ่นจะสามารถนำไปใช้ในโลกแห่งความเป็นจริงได้ แต่เราเห็นว่ามันเป็นวิธีการฝึกอบรมแบบจำลองที่มีประสิทธิภาพมากขึ้นและเพิ่มความน่าเชื่อถือ” สิ่งนี้เน้นบทบาทปัจจุบันของโมเดลในฐานะเครื่องมือการวิจัยแทนที่จะเป็นผลิตภัณฑ์ที่ปรับใช้ได้
การเปิดตัวที่วัดได้นี้ช่วยให้ DeepMind สามารถรวบรวมข้อเสนอแนะและเข้าใจความเสี่ยงที่เกี่ยวข้องกับเครื่องมือกำเนิดที่ทรงพลังเช่นนี้ได้ดีขึ้น เป็นการตอกย้ำความท้าทายทางเทคนิคอันยิ่งใหญ่ที่ยังคงอยู่ในการสร้าง AI ที่สามารถสะท้อนความซับซ้อนของโลกของเราได้อย่างแท้จริง
ข้อ จำกัด ที่สำคัญรวมถึงพื้นที่ปฏิบัติการที่ จำกัด สำหรับตัวแทนภายในการจำลอง นอกจากนี้โมเดลต้องดิ้นรนกับข้อความที่แสดงผลอย่างถูกต้องและยังไม่สามารถจำลองการโต้ตอบที่ซับซ้อนระหว่างตัวแทนอิสระหลายรายตามรายละเอียดในเอกสารของมัน
ระยะเวลาของการจำลองในขณะที่ดีขึ้นยังคงอยู่ไกลจากชั่วโมงที่จำเป็นสำหรับการฝึกอบรมตัวแทนที่ครอบคลุม Fruchter ยอมรับถนนข้างหน้าโดยสังเกตว่า“ มีหลายสิ่งหลายอย่างที่ต้องเกิดขึ้นก่อนที่รุ่นจะสามารถนำไปใช้ในโลกแห่งความเป็นจริงได้ แต่เราเห็นว่ามันเป็นวิธีการฝึกอบรมแบบจำลองที่มีประสิทธิภาพมากขึ้นและเพิ่มความน่าเชื่อถือ” สิ่งนี้เน้นบทบาทปัจจุบันของโมเดลในฐานะเครื่องมือการวิจัยแทนที่จะเป็นผลิตภัณฑ์ที่ปรับใช้ได้
การเปิดตัวที่วัดได้นี้ช่วยให้ DeepMind สามารถรวบรวมข้อเสนอแนะและเข้าใจความเสี่ยงที่เกี่ยวข้องกับเครื่องมือกำเนิดที่ทรงพลังเช่นนี้ได้ดีขึ้น เป็นการตอกย้ำความท้าทายทางเทคนิคอันยิ่งใหญ่ที่ยังคงอยู่ในการสร้าง AI ที่สามารถสะท้อนความซับซ้อนของโลกของเราได้อย่างแท้จริง