Google DeepMind เปิดตัว SIMA 2 ในวันพฤหัสบดี ซึ่งเป็นตัวแทน AI ใหม่ที่ใช้โมเดล Gemini เพื่อเรียนรู้และดำเนินการในวิดีโอเกม 3 มิติ SIMA 2 แตกต่างจากรุ่นก่อนตรงที่สามารถคิดถึงเป้าหมายระดับสูง พูดคุยกับผู้ใช้ และสอนทักษะใหม่ๆ ให้กับตัวเอง
ได้รับการฝึกฝนในเกมยอดนิยมอย่าง Goat Simulator 3 และยังเล่นได้ในโลกที่ไม่เคยเห็นมาก่อนอีกด้วย โครงการของ DeepMind ถือเป็นก้าวสำคัญสู่เป้าหมายในการสร้าง AI ทั่วไป ห้องแล็บหวังว่าทักษะที่เรียนรู้ในเกมจะช่วยขับเคลื่อนหุ่นยนต์ที่เป็นประโยชน์ในโลกแห่งความเป็นจริงสักวันหนึ่ง
จากผู้ปฏิบัติตามคำสั่งไปจนถึงเพื่อนร่วมใช้เหตุผล
ด้วยการฝังโมเดล Gemini ไว้ที่แกนกลาง SIMA 2 ก้าวไปไกลกว่าคำสั่งง่ายๆ SIMA รุ่นเดิมที่เปิดตัวในเดือนมีนาคม 2024 ถือเป็นก้าวแรกที่สำคัญในการเรียนรู้ที่จะดำเนินการทักษะการติดตามภาษามากกว่า 600 รายการ เช่น”ปีนบันได”ในโลกเสมือนจริงต่างๆ
ตัวแทนนั้นดำเนินการโดยการดูหน้าจอและใช้แป้นพิมพ์และเมาส์เสมือน เช่นเดียวกับที่ผู้เล่นมนุษย์ทำ SIMA 2 สร้างบนรากฐานนี้แต่เพิ่มชั้นการรับรู้ที่สำคัญ โดยพัฒนาจากเครื่องมือไปสู่พันธมิตรแบบโต้ตอบได้
ตอนนี้ เจ้าหน้าที่สามารถเข้าใจเป้าหมายระดับสูงของผู้ใช้และเหตุผลเกี่ยวกับขั้นตอนที่จำเป็นเพื่อให้บรรลุเป้าหมายได้
สิ่งนี้เปลี่ยนการโต้ตอบจากการออกคำสั่งเป็นการทำงานร่วมกับเพื่อน
“เกมเป็นแรงผลักดันเบื้องหลังการวิจัยของตัวแทนมาระยะหนึ่งแล้ว”Joe Marino นักวิทยาศาสตร์การวิจัยของ Google DeepMind ในระหว่างการแถลงข่าว
การบูรณาการของ Gemini ทำให้ SIMA 2 สามารถอธิบายความตั้งใจและอธิบายการดำเนินการได้ ทำให้กระบวนการมีความโปร่งใสและโต้ตอบได้มากขึ้นสำหรับผู้ใช้
[เนื้อหาที่ฝัง]
การฝึกอบรมเกี่ยวข้องกับการผสมผสานระหว่างวิดีโอสาธิตของมนุษย์และป้ายกำกับที่สร้างโดย Gemini DeepMind ร่วมมือกับผู้พัฒนาเกมมากมาย รวมถึง Coffee Stain (Valheim, Satisfactory, Goat Simulator 3), Hello Games (No Man’s Sky) และ Tuxedo Labs (Teardown) เพื่อ สร้างการฝึกอบรมที่หลากหลาย ground.
การได้สัมผัสกับเกมประเภทต่างๆ และกลไกของเกมเป็นกุญแจสำคัญในการพัฒนาตัวแทนทั่วไปที่ไม่ยึดติดกับกฎเกณฑ์ของสภาพแวดล้อมใดสภาพแวดล้อมหนึ่ง
วงจรอันบริสุทธิ์: การพัฒนาตนเองในโลกที่สร้างขึ้น
หนึ่งในความก้าวหน้าที่สำคัญที่สุดของ SIMA 2 คือความสามารถในการปรับปรุงด้วยตัวเอง หลังจากช่วงเริ่มต้นของการเรียนรู้จากการสาธิตของมนุษย์ เจ้าหน้าที่สามารถเข้าสู่วงจรการพัฒนาตนเองได้
ฝึกฝนในเกมใหม่ผ่านการเล่นด้วยตนเอง โดยใช้การลองผิดลองถูกและรับข้อเสนอแนะจากโมเดล Gemini เพื่อปรับแต่งทักษะ
กระบวนการนี้ช่วยให้เชี่ยวชาญงานใหม่ ๆ โดยไม่ต้องใช้ข้อมูลที่มนุษย์สร้างขึ้นเพิ่มเติม ซึ่งเป็นหลักชัยสำคัญสู่การเรียนรู้ที่ปรับขนาดได้
เพื่อผลักดันขีดจำกัดของความสามารถนี้ DeepMind ได้รวม SIMA 2 เข้าด้วยกัน กับอีกหนึ่งโปรเจ็กต์อันทะเยอทะยาน: Genie 3
Genie 3 เป็นโมเดลโลกที่สามารถสร้างสภาพแวดล้อม 3 มิติใหม่ที่เล่นได้จากการแจ้งข้อความธรรมดา สถาปัตยกรรมของมันได้รับการออกแบบมาให้มีความสอดคล้อง และดังที่ผู้อำนวยการฝ่ายวิจัย Shlomi Fruchter อธิบายว่า”การถดถอยอัตโนมัติซึ่งหมายความว่าจะสร้างทีละเฟรม โดยจะต้องย้อนกลับไปดูสิ่งที่ถูกสร้างขึ้นก่อนที่จะตัดสินใจว่าจะเกิดอะไรขึ้นต่อไป”
การสร้างตามลำดับมีความสำคัญสำหรับการสร้างโลกที่มั่นคงซึ่งตัวแทนสามารถเรียนรู้ได้
เมื่อ SIMA 2 ถูกวางไว้ในโลกที่สร้างขึ้นใหม่โดย AI นี้ มันแสดงให้เห็นถึงความสามารถที่น่าทึ่งในการปรับตัวและกำหนดทิศทาง และปฏิบัติตามคำแนะนำของผู้ใช้
การทำงานร่วมกันนี้สร้างโดโจการฝึกอบรมที่ทรงพลัง Genie 3 สามารถสร้างสถานการณ์ที่หลากหลายจนแทบจะไม่มีที่สิ้นสุด โดยมีหลักสูตรที่ไม่มีที่สิ้นสุดสำหรับ SIMA 2 เพื่อเรียนรู้
กลยุทธ์ของ DeepMind ในการสร้าง AI ที่แข็งแกร่งและปรับตัวได้มากขึ้นนั้นอาศัยแนวทางนี้
“เราคิดว่าแบบจำลองโลกเป็นกุญแจสำคัญบนเส้นทางสู่ AGI โดยเฉพาะสำหรับตัวแทนที่เป็นตัวเป็นตน ซึ่งการจำลองสถานการณ์ในโลกแห่งความเป็นจริงนั้นมีความท้าทายเป็นพิเศษ” Jack Parker-Holder นักวิทยาศาสตร์การวิจัยในทีมอธิบาย
การจำลองสถานการณ์นับไม่ถ้วนเป็นวิธีที่ปลอดภัยกว่าและมีประสิทธิภาพมากกว่าในการสอน AI เกี่ยวกับความซับซ้อนของการโต้ตอบ
นอกเหนือจากเกม: เส้นทางสู่ AGI ที่เป็นตัวเป็นตนและอุปสรรคของมัน
แม้ว่าบริบททันทีคือวิดีโอเกม แต่ความทะเยอทะยานสูงสุดของ DeepMind อยู่ที่โลกทางกายภาพ ทักษะ SIMA 2 คือการเรียนรู้ ทั้งการนำทาง การใช้เครื่องมือ การวางแผน และการทำงานร่วมกัน ถือเป็นองค์ประกอบพื้นฐานสำหรับความฉลาดที่รวมอยู่ในตัว
บริษัทมองว่าการวิจัยนี้เป็นเส้นทางตรงสู่การสร้างผู้ช่วย AI และหุ่นยนต์ที่มีความสามารถ ซึ่งสามารถทำงานได้อย่างปลอดภัยและมีประสิทธิภาพในสภาพแวดล้อมของมนุษย์
“SIMA 2 ยืนยันว่า AI ที่ได้รับการฝึกอบรมเพื่อความสามารถในวงกว้าง… สามารถรวมความสามารถของระบบพิเศษมากมายให้กลายเป็นตัวแทนทั่วไปที่เชื่อมโยงกันและเชื่อมโยงกันได้สำเร็จ”ทีม SIMA กล่าวใน การประกาศดังกล่าวได้กำหนดกรอบโครงการให้เป็นการรวมระบบเฉพาะทางเข้าด้วยกันเป็นหนึ่งเดียวและเป็นตัวแทนที่สอดคล้องกัน
อย่างไรก็ตาม เส้นทางจากโลกเสมือนจริงสู่ความเป็นจริงนั้นเต็มไปด้วยความท้าทาย ผู้เชี่ยวชาญในสาขานี้ยอมรับถึงความสำเร็จด้านเทคนิค แต่ก็ขอเตือนเกี่ยวกับการนำไปใช้โดยตรงของทักษะเหล่านี้
Julian Togelius นักวิจัย AI ที่มหาวิทยาลัยนิวยอร์ก เน้นย้ำถึงความยากลำบากของแนวทางนี้ โดยสังเกตว่า”การเล่นแบบเรียลไทม์จากอินพุตภาพเท่านั้นคือ’โหมดยาก'”เจ้าหน้าที่ต้องตีความพิกเซลดิบโดยไม่มีข้อมูลเกมที่เกี่ยวข้อง ซึ่งเป็นงานที่ต้องใช้การคำนวณสูงและมีแนวโน้มที่จะเกิดข้อผิดพลาด
นอกจากนี้ยังมีคำถามว่าพฤติกรรมที่เรียนรู้เหล่านี้จะถ่ายโอนไปยังวิทยาการหุ่นยนต์ได้ดีเพียงใด