La búsqueda de la industria tecnológica de la IA que puede operar activamente las computadoras, no solo responder a las consultas, está viendo a otro participante potencial, ya que los signos apuntan a Google explorando una función de”uso de computadora”dentro de su estudio de IA.
este desarrollo, insinuado por el código de código que aparece brevemente en el 5 de mayo, sugiere que Google busca equipar su desarrollador para las herramientas para las herramientas de AI a las agentes interactúas directamente con los usuarios de los usuarios grafáticos, y los usuarios de mayo, y las aplicaciones de mayo, y sugiere que Google está buscando equipar su desarrollador con las herramientas para las herramientas de AI a las agentes interactúas directamente con los usuarios de los usuarios de los áreas y el nativo de mayo. campo ya activo con competidores como Microsoft, Anthrope y OpenAI.
La incursión de Google en el ai de agente
, mientras que Google no ha hecho un anuncio formal, el uso de la etiqueta de”uso de la computadora”con la terminología de la industria para los sistemas AI capaces de los sistemas AI de Google, el contenido de los cursors, y la entrada de texto. Modelos de lámpara de peso más ligero Gemma 3, como un mensaje del sistema que acompaña al avistamiento de código declarado: “Gemma 3 se implementará como un servicio de ejecución en la nube en su proyecto GCP. Actualice su SDK para apuntar al punto final de ejecución de nubes.”
Tal integración podría permitir a los desarrolladores que usan AI Studio implementar instancias de Gemma contenedoras con relativa facilidad, potencialmente con un solo clic. La ejecución de la nube ya es compatible con la gemma sin serporto inhole. Los modelos abiertos y livianos de Google diseñados para la eficiencia, a menudo capaces de ejecutarse en una sola GPU o TPU.
la documentación oficial de Google de marzo confirma la compatibilidad de Gemma 3 con AI studio y lists en blanco”y Google Kubernetes Engine (GKE), como objetivos de implementación compatibles.
La documentación también apunta a los tutoriales existentes que muestran cómo empaquetar GEMMA utilizando marcos como VLLM o Ollama y exponer puntos finales HTTPS públicos, un proceso que dirija la integración en AI Studio podría simplificar aún más. La integración de tales controles podría proporcionar a AI Studio una capa de orquestación y una caja de arena de ejecución local, lo que permite que algunas tareas ejecuten en disposición, mientras que los cálculos más exigentes se manejan de forma remota, acortando potencialmente la distancia entre el diseño rápido y una API en vivo para los desarrolladores.
Esta no es la primera exploración de Google en los agentes AI que controlan los entornos digitales.”Project Mariner”, un prototipo de investigación temprano que usa Gemini 2.0, fue detallado por Google en diciembre Como agente de AI que puede entender y razonamiento a través de la información de la pantalla browser, incluidos los píxeles, y los píxeles, y formos en diciembre. Google declaró que Mariner, como configuración de un solo agente,”logró un resultado de última generación del 83.5% en WebVoyager”.
Mariner se conocía internamente como”Proyecto Jarvis”y se filtró brevemente en la tienda web Chrome en noviembre de 2024, descrita entonces como un compañero para la surf web. La plataforma AI Studio ha estado evolucionando, con características como Gemini 2.5 Pro de integración y capacidades de intercambio de pantalla desde el 3 de mayo, lo que lo convierte en un hogar lógico para herramientas de agente más avanzadas.
El campo competitivo del campo de control de computadoras ai
El movimiento potencial de Google sigue varias otras compañías que ya han introducido o están desarrollando similares AI de AI. Microsoft comenzó a obtener una vista previa de una función de”uso de computadora”en su estudio de copilot en abril, dirigiendo la automatización empresarial al permitir que AI simule acciones humanas en escritorios y aplicaciones web. Charles Lamanna, vicepresidente corporativo de Microsoft para el copiloto de negocios e industria, comentó en ese momento:”Si una persona puede usar la aplicación, el agente también puede”.
antrópico fue anterior a la escena, actualizando su modelo Claude 3.5 Sonnet en octubre de 2024 con una característica de”uso informático”basado en API, lo que permitió a los desarrolladores dirigir la IA en las tareas que involucran la interacción y el control de la pantalla. Según los informes, los primeros usuarios como Asana y Doordash lo usaron para procesos de varios pasos, aunque la característica se describió como experimental y, a veces, era propensa a errores en el lanzamiento.
OpenAI introdujo su agente de”operador”en enero de 2025 para los suscriptores de ChatGPT Pro, una herramienta basada en el navegador que usa un agente informático (CUA) modelo de Interprets para las pantallas de detección de sitios web para los sitios web de los sitios web para los sitios web de los sitios web, requeriendo que las pruebas de los sitios web de los sitios web de los sitios web, las acciones de los sitios web de los sitios web. En febrero, Operai amplió la disponibilidad del operador.
Una verificación de la realidad en el rendimiento del agente
A pesar de los avances, la efectividad práctica de los agentes actuales de IA en el manejo de deberes profesionales complejos de forma autónoma todavía está bajo escrutinio. Un estudio de la Universidad Carnegie Mellon publicado el 5 de mayo, titulado”Teagent Company”, proporcionó una evaluación sobria. Al simular una empresa de software, el estudio encontró que incluso la IA líder, el soneto Claude 3.5 de Anthrope, solo completó completamente el 24% de las tareas asignadas, a un costo operativo promedio de más de $ 6 por tarea. Gemini 2.0 Flash de Google logró una finalización del 11.4%, mientras que el GPT-4O de OpenAI logró 8.6%.
Los investigadores destacaron”una falta de sentido común, malas habilidades sociales e incompetencia en la navegación web”como problemas comunes. Por ejemplo, los agentes lucharon con la comprensión básica de los archivos o la descarga de ventanas emergentes simples en pantalla. La conclusión fue que, si bien los agentes de IA pueden ayudar con partes del trabajo humano,”probablemente no sean un reemplazo para todas las tareas en este momento”. Esto presenta un punto de referencia de rendimiento notable que cualquier característica nueva de”uso de la computadora”de Google se midería implícitamente.
La frontera autónoma y sus implicaciones
más allá de las herramientas que ayudan o automatizan bajo supervisión, la industria también está viendo el aumento de agentes más independientes. Manus AI, del efecto de mariposa de la startup china, se lanzó alrededor del 6 de marzo, y se comercializa como un agente autónomo capaz de planificar y ejecutar tareas digitales sin supervisión humana constante, según los informes, utilizando modelos como el Claude de Anthrope y el QWEN de Alibaba. ha llamado rápidamente la atención de los reguladores, con Manus Ai enfrentando prohibiciones en las redes estatales en Tennessee y Alabama debido a la seguridad y las preocupaciones de propaganda. href=”https://www.fiercehealthcare.com/health-tech/google-cloud-sees-multi-agent-ai-systems-next-frontier-advancing-tools-build-and-manage”Target=”_ en blanco”> Google Cloud referiendo a los sistemas AI multi-AI como el”siguiente”Conferencia En abril de 2025. A medida que Google prepara potencialmente una característica de”uso de la computadora”para AI Studio, su éxito dependerá no solo de las capacidades técnicas y la facilidad de implementación para modelos como Gemma 3, sino también en abordar la fiabilidad y las consideraciones de seguridad que se están volviendo cada vez más prominentes en el campo de la operación de computadora de AI. Alojamiento, potencialmente convirtiendo el estudio de IA en una plataforma más integral para desarrollar con Gemma y modelos futuros. Es probable que esta característica de”uso de la computadora”sea ampliamente un experimento interno dependerá de estas evaluaciones de seguridad en curso y la estrategia de agente en evolución de Google.