Google ได้เปิดตัว Project Astra แอปพลิเคชันใหม่ที่ขับเคลื่อนโดย Gemini AI และกล้องสมาร์ทโฟนของ Google เพื่อช่วยเหลือผู้ใช้ในกิจกรรมประจำวัน โครงการริเริ่มนี้ได้ประกาศในระหว่างการกล่าวสุนทรพจน์ของ Google I/O 2024 โดยเน้นย้ำถึงความพยายามอย่างต่อเนื่องของ Google ในการพัฒนาตัวแทน AI อเนกประสงค์ที่สามารถให้ความช่วยเหลือได้จริง
ฟีเจอร์นี้คล้ายกับ ChatGPT เวอร์ชันที่ทำงานบน GPT-4o หลายรูปแบบมาก โมเดลซึ่งเพิ่งประกาศเมื่อวานนี้โดย OpenAI Project Astra เป็นส่วนหนึ่งของชุดประกาศ Gemini ที่กว้างขึ้นที่ Google I/O 2024 ซึ่งรวมถึงโมเดลใหม่ๆ เช่น Gemini 1.5 Flash สำหรับงานที่รวดเร็วยิ่งขึ้น Veo สำหรับการสร้างวิดีโอจากข้อความแจ้ง และ Gemini Nano สำหรับการใช้งานในอุปกรณ์ในเครื่อง หน้าต่างบริบทสำหรับ Gemini Pro เพิ่มขึ้นสองเท่าเป็น 2 ล้านโทเค็น ซึ่งช่วยเพิ่มความสามารถในการปฏิบัติตามคำแนะนำ
การช่วยเหลือด้วยการมองเห็นที่ขับเคลื่อนด้วย AI
Project Astra ทำงานเป็น แอปพลิเคชัน AI ที่ใช้กล้อง โดยใช้ช่องมองภาพเป็นอินเทอร์เฟซเป็นหลัก ผู้ใช้สามารถเล็งกล้องโทรศัพท์ไปที่วัตถุต่าง ๆ และโต้ตอบกับ AI ที่ชื่อว่า Gemini ตัวอย่างเช่น เมื่อผู้ใช้ขอให้ AI ระบุวัตถุที่สร้างเสียงในสำนักงาน Gemini จดจำผู้พูดได้และให้ข้อมูลโดยละเอียดเกี่ยวกับส่วนประกอบต่างๆ เช่น การระบุทวีตเตอร์และอธิบายการทำงานของลำโพง
แอป ยังแสดงให้เห็นถึงความสามารถเชิงสร้างสรรค์ เมื่อได้รับแจ้งให้สร้างสัมผัสอักษรสำหรับดินสอสีหนึ่งถ้วย ราศีเมถุนตอบกลับด้วยว่า “ดินสอสีสร้างสรรค์ให้สีอย่างร่าเริง พวกเขาสร้างสรรค์ผลงานสร้างสรรค์ที่มีสีสันอย่างแน่นอน”
การผสานรวมที่สวมใส่ได้และการเรียกคืนความทรงจำ
การสาธิตประกอบด้วยส่วนที่ AI จดจำตำแหน่งของสิ่งของที่ไม่ได้อีกต่อไป ในมุมมองของกล้อง เมื่อถามถึงตำแหน่งของแว่นตาที่วางผิดที่ Gemini จำได้แม่นยำว่าพวกเขาอยู่บนโต๊ะใกล้กับแอปเปิ้ลสีแดง จากนั้นผู้ใช้ก็สวมแว่นตาซึ่งดูเหมือนจะเป็น Google Glass เวอร์ชันขั้นสูงและมุมมองก็เปลี่ยนไป ไปยังมุมมองของอุปกรณ์ที่สวมใส่ได้ แว่นตาจะสแกนสภาพแวดล้อมและให้ข้อมูลตามบริบท เช่น การแนะนำการปรับปรุงทางเทคนิคสำหรับไดอะแกรมระบบบนไวท์บอร์ด
[เนื้อหาที่ฝัง]
ความสามารถของ AI ในการประมวลผลข้อมูลภาพแบบเรียลไทม์และจดจำการสังเกตในอดีต ทำได้โดยการเข้ารหัสเฟรมวิดีโออย่างต่อเนื่อง รวมอินพุตวิดีโอและเสียงพูดเข้ากับไทม์ไลน์ของเหตุการณ์ และแคชข้อมูลนี้เพื่อการเรียกคืนที่มีประสิทธิภาพ ความก้าวหน้าทางเทคโนโลยีนี้ช่วยให้ AI สามารถตอบสนองได้อย่างรวดเร็วและแม่นยำ เพิ่มอรรถประโยชน์ในทางปฏิบัติ
การโต้ตอบหลายรูปแบบ
Astra ได้รับการออกแบบให้เป็นหลายรูปแบบ ทำให้ผู้ใช้สามารถ โต้ตอบผ่านการพูดคุย การพิมพ์ การวาดภาพ การถ่ายภาพ และวิดีโอ นอกจากนี้ Google ยังเปิดตัว Gemini Live ซึ่งเป็นผู้ช่วยที่ใช้เสียงเท่านั้นสำหรับการสนทนาไปมา และฟีเจอร์ใหม่ใน Google Lens สำหรับการค้นหาเว็บผ่านการบรรยายวิดีโอ
ปัจจุบัน Google กำลังทำงานเกี่ยวกับแอปพลิเคชันต่างๆ เช่น การวางแผนการเดินทาง โดยที่ Gemini สามารถช่วยสร้างและแก้ไขแผนการเดินทางได้ ทีม DeepMind ยังคงค้นคว้าวิธีการผสานรวมโมเดลหลายรูปแบบได้ดีที่สุด และสร้างสมดุลระหว่างโมเดลทั่วไปขนาดใหญ่กับโมเดลที่เล็กกว่าและมุ่งเน้น
ความพร้อมใช้งานและการปรับปรุงในอนาคต
ในขณะที่โปรเจ็กต์ Demis Hassabis ซีอีโอของ Google DeepMind ยังอยู่ในช่วงเริ่มต้นโดยไม่มีกำหนดเปิดตัว ระบุว่าความสามารถบางอย่างของ AI จะถูกรวมเข้ากับผลิตภัณฑ์ของ Google เช่น แอป Gemini ในปลายปีนี้ บริษัทยังทำงานเพื่อปรับปรุงการแสดงออกของเสียงพูดของ AI โดยมีเป้าหมายเพื่อให้การโต้ตอบเป็นธรรมชาติและเป็นบทสนทนามากขึ้น การประยุกต์ใช้เทคโนโลยีดังกล่าวที่มีศักยภาพ ไม่ว่าจะผ่านสมาร์ทโฟนหรืออุปกรณ์สวมใส่ขั้นสูง สามารถปรับปรุงประสบการณ์ผู้ใช้และประสิทธิภาพการทำงานได้อย่างมาก