Trend agentów AI wykraczających poza czat, aby aktywnie robić rzeczy na komputerze, robi kolejny krok naprzód. Microsoft w tym tygodniu zaczął podgląd funkcji „używania komputera” na platformie niskiego kodu Copilot Studio, zaprojektowana tak, aby umożliwić firmom budowanie asystentów AI, które mogą nawigować i obsługiwać zarówno strony internetowe, jak i tradycyjne aplikacje komputerowe. Agenci te działają, symulując ludzkie działania-kliknięcie przycisków, wpisując pola, wybierając menu-w celu automatyzacji zadań nawet w systemach, w których brakuje nowoczesnych interfejsów programowania do bezpośredniej integracji. W przeciwieństwie do bardziej ograniczonej funkcji „akcji” w wersji konsumenckiej Copilot, ta funkcja Copilot Studio Contease jest kierowana do szerszych scenariuszy Automation Enterprise.

Prowadzenie konkurencyjnego krajobrazu

Microsoft nie jest pierwszym, który daje agentom AI kontroli nad interfejsami komputerowymi. Anthropiczne fale wykonane w październiku 2024 r., Wprowadzając funkcję o dokładnie takiej samej nazwie: „Użycie komputera”, dla swojego modelu sonetowego Claude 3.5, umożliwiając zarządzanie zadaniami stacjonarnymi.

Openai, a następnie agenta operatora w styczniu, chociaż działa ona z bardziej bezpośrednim nadzorem użytkownika, wymagając zatwierdzenia zadań przed wykonaniem tasów. Wiadomo również, że Google opracowuje podobne możliwości pod nazwą Project Mariner. Wpis Microsoft, umieszczony w swoim narzędziu Copilot Studio (który integruje się z platformą energetyczną), jest skierowany zarówno do przeglądarki Web (Edge, Chrome i Firefox według oficjalnego bloga), jak i środowisk komputerowych, potencjalnie oferując szerszy zakres automatyzacji niż operator, działający bezpośrednio na infrastrukturze w chmurze Microsoft.

Podejście AI do automatyzacji interfejsu

problemu MicroSoft to automatyczne interakcje, które nie jest w stanie zaplanować interakcje, aby nie było zbudowane do oprogramowania do łatwego interakcji, które nie jest przeznaczone do automatyki do interakcji, które nie było do automatyki do interakcji, które nie było do automatyki dla tego, że to jest to interakcje interakcje, które nie było interakcji, które nie było interakcjami, które nie było interakcji, które nie było interakcji, które było interakcjami. Kontrola maszyny. „Jeśli dana osoba może korzystać z aplikacji, agent też może,”

Microsoft pozycjonuje tę funkcję jako awans w stosunku do tradycyjnej automatyzacji procesu robotycznego (RPA), co sugeruje, że umiejętności rozumowania AI sprawiają, że umiejętności rozumowania AI sprawiają, że jest to mniejsze do przełomu, gdy Layouts w przypadku Layouts w ramach scenariuszy RPA. Microsoft: „Dostosowuje się w czasie rzeczywistym za pomocą wbudowanego rozumowania, aby samodzielnie rozwiązać problemy, więc praca trwa bez przerwy”. Budowanie tych automatyzacji obejmuje opisanie pożądanego zadania w języku naturalnym, a programiści otrzymują informacje zwrotne wideo w czasie rzeczywistym pokazującym planowane kroki agenta w celu łatwiejszego udoskonalania.

Strategia, bezpieczeństwo i dostępność

Ta nowa funkcja jest częścią szerszego popychania przez Microsoft do Anemutycznej AI. Firma niedawno wyszczególniła inne wyspecjalizowane agenci dla Microsoft 365 („Badacz” i „analityk”) oraz cyberbezpieczeństwo, oraz zaprezentowała swój model Magma AI Multimodal Foundation w lutym 2025 r., Zaprojektowany do złożonych zadań interakcji obejmujących wizję i działanie. Funkcja korzystania z komputera korzysta z tego tła, teoretycznie pozwalając mu na lepsze zrozumienie i interakcję z GUIS.

Microsoft zapewnia klientów korporacyjnych, że proces działa w środowisku chmur Azure, dane nie są wykorzystywane do szkolenia podstawowej sztucznej inteligencji, a administratorzy mają nadzór. Oficjalny blog zauważa, że ​​„twórcy mogą przeglądać historię aktywności korzystania z komputera, w tym przechwycone zrzuty ekranu i kroki rozumowania”. Niemniej jednak danie sztucznej inteligencji kluczy do obsługi interfejsów oprogramowania z natury skupiają się na bezpieczeństwie.

Badacze bezpieczeństwa wcześniej wykazali potencjalne ryzyko, pokazując, w jaki sposób podobne narzędzia agentów AI można teoretycznie wykorzystywać do złośliwych celów, takich jak wyrafinowane ataki phishingowe, jeśli nie zostali ostrożnie zabezpieczani. Kluczem będzie właściwa równowaga między funkcjonalnością a bezpieczeństwem.

Funkcja „Komputer” jest obecnie dostępna jako podgląd badań wczesnego dostępu. Zainteresowane strony potrzebują środowiska podglądu zlokalizowanego w USA, aby zastosować się za pośrednictwem formularz rejestracji Microsoft . Microsoft wskazuje więcej informacji na jego buduj konferencję programistów w maju 2025 r. .

.

Categories: IT Info