Google มี ประกาศตัวอย่างนักพัฒนา ของ Gemini 2.5 ตอนนี้เครื่องมือคือ มีให้กับนักพัฒนาผ่าน Google Ai Studio target=”_ blank”> และ vertex ai .
รุ่นนี้วาง Google ในการแข่งขันโดยตรงกับตัวแทน AI ที่คล้ายกันจากคู่แข่งเช่น Openai และมานุษยวิทยา เทคโนโลยีอนุญาตให้ AI ดูสิ่งที่อยู่บนหน้าจอแล้วคลิกพิมพ์และนำทางเว็บไซต์เพื่อทำงานบ้านดิจิตอลที่ซับซ้อนโดยอัตโนมัติ
การย้ายเป็นขั้นตอนที่สำคัญเกินกว่าแชทบอทที่เรียบง่าย มันมีจุดมุ่งหมายเพื่อสร้างผู้ช่วยที่สามารถทำงานให้เสร็จสมบูรณ์ในนามของผู้ใช้เพิ่มการแข่งขันเพื่อสร้างตัวแทน AI อิสระอย่างแท้จริง
>
วิธีที่ราศีเมถุนเรียนรู้ที่จะคลิกพิมพ์และเลื่อน
ที่แกนกลางของมันคอมพิวเตอร์ใช้รุ่น Gemini 2.5 ใช้งานในเอกสารของ Google อธิบายว่าเป็น
แทนที่จะสร้างข้อความเป้าหมายของ AI คือการสร้างการกระทำ กระบวนการเริ่มต้นเมื่อนักพัฒนาส่งคำขอเริ่มต้นซึ่งรวมถึงเป้าหมายระดับสูงของผู้ใช้ภาพหน้าจอของสภาพแวดล้อมปัจจุบันและประวัติของการกระทำล่าสุด
สร้างขึ้นจากความเข้าใจด้านภาพขั้นสูงและความสามารถในการให้เหตุผลของ Gemini 2.5 Pro จากนั้นสร้างการตอบสนองโดยทั่วไปแล้วคำสั่งที่มีโครงสร้างที่เรียกว่า `function_call` ซึ่งแสดงถึงการกระทำ UI เฉพาะเช่นคลิกที่พิกัดหรือพิมพ์ข้อความลงในฟิลด์
[เนื้อหาฝังตัว]
อย่างมากโมเดลไม่ได้ดำเนินการเหล่านี้เอง รหัสฝั่งไคลเอ็นต์ของนักพัฒนาได้รับ `function_call’และรับผิดชอบในการแปลเป็นคำสั่งจริงในสภาพแวดล้อมเป้าหมายเช่นเว็บเบราว์เซอร์ โมเดลได้รับการปรับให้เหมาะสมที่สุดสำหรับเบราว์เซอร์ แต่ยังแสดงสัญญาสำหรับการควบคุม UI มือถือตาม Google.
หลังจากดำเนินการดำเนินการแอปพลิเคชันไคลเอนต์จะจับภาพหน้าจอใหม่และ URL ปัจจุบัน สถานะใหม่นี้จะถูกส่งกลับไปยังโมเดลการใช้คอมพิวเตอร์เป็น `function_response`, รีสตาร์ทลูป กระบวนการวนซ้ำนี้ช่วยให้เอเจนต์สามารถ
ผู้ทดสอบหนึ่งคนผู้ช่วย AI Poke.com กล่าวว่า“ การใช้คอมพิวเตอร์ Gemini 2.5 นั้นอยู่ไกลออกไปจากการแข่งขันซึ่งมักจะเร็วขึ้น 50% บริบทการแยกวิเคราะห์ในกรณีที่ซับซ้อนเพิ่มประสิทธิภาพมากถึง 18% ใน Evals ที่ยากที่สุดของเรา”
แม้จะมีนวัตกรรมที่รวดเร็ว แต่คำถามเกี่ยวกับประสิทธิภาพในโลกแห่งความเป็นจริงของตัวแทนเหล่านี้ยังคงอยู่
การศึกษาจากมหาวิทยาลัย Carnegie Mellon ความสงสัยนี้ถูกแบ่งปันโดยผู้นำอุตสาหกรรมบางคนโดยมีซีอีโอที่น่าพิศวง Aravind Srinivas กระตุ้นว่า“ ใครก็ตามที่พูดว่าตัวแทนจะทำงานในปี 2568 ควรสงสัย”
เพื่อจัดการกับความเสี่ยงที่อาจเกิดขึ้น โมเดลสามารถ ออก `Safety_decision` ที่ต้องมีการยืนยันผู้ใช้ที่ชัดเจน วิธีการของมนุษย์ในวงนี้เป็นวิธีการป้องกันที่สำคัญเนื่องจากเทคโนโลยีเติบโตขึ้น