Microsoft przekształca system Windows 11 w „komputer ze sztuczną inteligencją” poprzez ogłoszoną dzisiaj dużą aktualizację rozwiązania Copilot, której celem jest uczynienie interakcji z komputerami bardziej naturalną i inteligentną.
Nowe słowo budzące „Hej, Copilot” umożliwia użytkownikom wydawanie poleceń głosowych, a obecnie dostępna na całym świecie funkcja Copilot Vision pozwala sztucznej inteligencji zobaczyć i zrozumieć, co jest na ekranie, aby zapewnić pomoc.
Microsoft planuje także udostępnienie wersji eksperymentalnej Akcje Copilot, które umożliwiają asystentowi wykonywanie zadań bezpośrednio na komputerze użytkownika. Wdrażane obecnie aktualizacje odzwierciedlają wizję Microsoft zakładającą głębokie osadzenie proaktywnego partnera w zakresie sztucznej inteligencji w rdzeniu systemu operacyjnego.
Dyrektor ds. marketingu konsumenckiego firmy, Yusuf Mehdi jasno sformułował tę ambicję, stwierdzając: „nasza wizja jest następująca: napiszmy od nowa cały system operacyjny wokół sztucznej inteligencji i zbudujmy zasadniczo coś, co stanie się prawdziwym komputerem PC opartym na sztucznej inteligencji”.
Przebudowa sygnalizuje strategiczne założenie, że przyszłość komputerów osobistych nie polega tylko na mocy obliczeniowej, ale na inteligentnej interakcji konwersacyjnej. Celem jest uczynienie każdego urządzenia z systemem Windows 11 platformą dla tego nowego paradygmatu, który obejmuje również złącza Copilot dla usług takich jak Gmail.
„Hej, Copilot”: głos staje się głównym sygnałem wejściowym komputera
Microsoft ponownie i ambitnie dąży do ustanowienia głosu jako podstawowej metody interakcji z komputerem. Najważniejszym elementem tego wysiłku jest nowe, ogólnie dostępne słowo budzące „Hej, drugi pilot”, które usuwa problem kliknięcia ikony w celu rozpoczęcia rozmowy. Ta funkcja ma kluczowe znaczenie w strategii firmy mającej na celu uczynienie jej potężnej sztucznej inteligencji bardziej dostępną dla szerszego grona odbiorców.
Nie jest to pierwsza próba integracji głosu firmy. Krytycy szybko zwracają uwagę na spektakularną porażkę Cortany w Windows 10 dziesięć lat temu. Microsoft obstawia jednak, że zaawansowanie nowoczesnej sztucznej inteligencji w końcu przekona użytkowników, że rozmowa z komputerem nie jest dziwna, wywołując rzeczywistą zmianę w zachowaniu tam, gdzie nie udało się to wcześniej.
Zaufanie firmy potwierdzają wewnętrzne dane sugerujące, że gdy ludzie używają głosu, korzystają z Copilot dwa razy częściej niż w przypadku tekstu.
Microsoft wskazuje na istniejące zachowania, takie jak miliardy minut spędzonych na rozmowach w aplikacji Teams spotkania i korzystanie z narzędzi ułatwień dostępu, co stanowi dowód, że użytkownicy już swobodnie rozmawiają ze swoimi urządzeniami.
Doświadczenie zostało zaprojektowane tak, aby przebiegało bezproblemowo. Po włączeniu funkcji wyrażania zgody w ustawieniach powiedzenie „Hej, drugi pilot” powoduje wyświetlenie ikony mikrofonu i sygnału dźwiękowego, co oznacza, że asystent słucha. Użytkownicy mogą zakończyć rozmowę, mówiąc „Do widzenia” lub po prostu przerywając interakcję. Ta łatwość obsługi jest tym, co według Microsoftu stanowi „magiczne odblokowanie” głosu.
[treści osadzone]
Yusuf Mehdi, szef konsumentów w Microsoft, uważa, że ta zmiana będzie głęboka. „Naszym zdaniem głos stanie się teraz trzecim mechanizmem wprowadzania danych używanym na komputerze” – wyjaśnił podczas odprawy.
Te ambicje wykraczają poza proste dyktowanie i pozycjonują głos jako narzędzie do wykonywania złożonych poleceń i zapytań, które może wypełnić lukę między intencjami użytkownika a umiejętnością podpowiedzi AI.
Ostateczną wizją jest komputer rzeczywiście konwersacyjny i responsywny. „Powinieneś móc rozmawiać ze swoim komputerem, sprawić, by cię zrozumiał, a potem móc sprawić, że wydarzy się magia.”
Dodał Mehdi. Stanowi to poważne ryzyko, obstawiając, że sztuczna inteligencja w końcu uczyniła interakcję głosową na tyle atrakcyjną, że może zmienić dziesięciolecia nawyków użytkowników zbudowanych wokół klawiatury i myszy.
Sztuczna inteligencja, która widzi Twój ekran: Copilot Vision wprowadza się na całym świecie
Kluczowym elementem przyszłości skoncentrowanej na sztucznej inteligencji jest Copilot Vision, który jest obecnie dostępny na wszystkich rynkach, na których oferowany jest Copilot. Ta funkcja pozwala sztucznej inteligencji „widzieć” i analizować ekran użytkownika, zapewniając pomoc kontekstową w dowolnej aplikacji.
Ta funkcja szybko ewoluowała od czasu jej pierwszego ograniczonego podglądu, który ograniczał się do przeglądarki Edge i wymagał płatnej subskrypcji.
Ta funkcja przekształca Copilot z pasywnego chatbota w aktywny, wizualny przewodnik. W przeciwieństwie do kontrowersyjnej funkcji Przywoływania, Vision wymaga ścisłej zgody i nie zawsze jest włączony.
Użytkownicy muszą wyraźnie udzielić pozwolenia na każdą sesję, klikając odrębną „ikonę okularów”, zasadniczo przesyłając strumieniowo widok ekranu w sposób podobny do połączenia w aplikacji Teams.
Po aktywacji Vision może oferować instrukcje krok po kroku, rozwiązywać problemy z komputerem lub odpowiadać na pytania dotyczące treści wyświetlanych na ekranie. Możliwości rozszerzyły się z przeglądania pojedynczych aplikacji do pełnego trybu „Udostępnianie pulpitu”, który pozwala sztucznej inteligencji zrozumieć kontekst w całym przepływie pracy użytkownika.
[treść osadzona]
Zespół Microsoft Copilot wyjaśnił tę funkcjonalność, stwierdzając: „kiedy udostępniasz swój pulpit (lub dowolne okno przeglądarki lub aplikacji), Copilot może zobaczyć, co widzisz, i porozmawiać z Tobą o tym w czasie rzeczywistym.”
Praktyczne zastosowania są szerokie. Użytkownik może poprosić o wskazówki dotyczące kreatywnego projektu, uzyskać pomoc w ulepszeniu swojego CV lub otrzymać wskazówki podczas poruszania się po nowej grze. Funkcja „Najciekawsze” pozwala nawet Copilotowi wizualnie wskazać, gdzie kliknąć, aby ukończyć zadanie. Aby zwiększyć produktywność, może przeanalizować całą prezentację programu PowerPoint pod kątem wniosków bez konieczności przeglądania każdego slajdu przez użytkownika.
Chociaż Vision może przeglądać i doradzać, nie może podejmować działań w imieniu użytkownika; ta funkcja jest zarezerwowana dla osobnej funkcji akcji drugiego pilota. Aby uczynić tę usługę bardziej wszechstronną, Microsoft przygotowuje również tryb „Wprowadzanie tekstu, wysyłanie tekstu”, umożliwiający użytkownikom interakcję z Vision za pomocą tekstu, a nie tylko głosu.
Ta ogólnosystemowa świadomość jest kluczowa dla zapewnienia prawdziwie kontekstowej pomocy. Rozumiejąc, co robi użytkownik, Copilot może zaoferować odpowiednie wsparcie bez konieczności długich wyjaśnień, przybliżając się do celu, jakim jest bycie „towarzyszem na co dzień”. przeprojektowany pasek zadań zapewnia dostęp do tych narzędzi jednym kliknięciem, dodatkowo integrując je z podstawowym systemem Windows.
Od asystenta do agenta: drugi pilot Actions przejmuje kontrolę nad Twoim komputerem
Być może najbardziej przyszłościowym elementem aktualizacji jest eksperymentalny podgląd akcji Copilot dla plików lokalnych. Ta funkcja, dostępna dla niejawnych testerów systemu Windows za pośrednictwem Copilot Labs, umożliwia sztucznej inteligencji wykonywanie wieloetapowych zadań bezpośrednio na komputerze użytkownika. Oznacza to znaczący krok w kierunku przyszłości agentycznej sztucznej inteligencji, w której asystent nie tylko odpowiada, ale aktywnie działa w Twoim imieniu.
Ta nowa funkcja przekształca Copilot w to, co Microsoft nazywa „agentem ogólnego przeznaczenia”. Zamiast odpowiadać na pytania, może otwierać aplikacje, pisać, przewijać i wykonywać złożone łańcuchy czynności.
Użytkownicy mogą opisać zadanie własnymi słowami — na przykład sortowanie zdjęć z wakacji lub wyodrębnianie informacji z pliku PDF — a agent spróbuje je wykonać, wchodząc w interakcję z aplikacjami komputerowymi i internetowymi.
System został zaprojektowany tak, aby działać jak prawdziwy cyfrowy współpracownik. Podczas gdy agent działa w tle, użytkownicy mogą skupić się na innych rzeczach. W dowolnym momencie mogą monitorować postęp agenta, przeglądać konkretne podjęte przez niego działania, a nawet całkowicie przejąć kontrolę nad zadaniem. Ta funkcja rozszerza się w ramach akcji internetowych, które Microsoft ogłosił po raz pierwszy w kwietniu, przenosząc moc automatyzacji bezpośrednio na pulpit systemu Windows.
Firma jednak nie ujawnia swojej eksperymentalnej natury i zaczyna od wąskiego zestawu przypadków użycia, aby zoptymalizować wydajność i uczyć się na podstawie rzeczywistych zastosowań.
Navjot Virk, wiceprezes Microsoft ds. doświadczeń systemu Windows, przestrzegł, że system wciąż się uczy. „Na początku możesz zauważyć, że agent popełnia pewne błędy lub napotyka pewne wyzwania podczas próby korzystania z naprawdę złożonych aplikacji” – zauważyła.
Ta przejrzystość jest częścią przemyślanej strategii mającej na celu zarządzanie oczekiwaniami użytkowników w stosunku do tej potężnej, ale rodzącej się technologii.
[treść osadzona]
Uczenie się na podstawie wycofania: nowy nacisk na zgodę i bezpieczeństwo
Microsoft wyraźnie to podkreśla podkreślając zorientowany na prywatność i opcjonalny projekt tych nowych funkcji. To ostrożne podejście jest bezpośrednią i konieczną reakcją na ostry sprzeciw wobec funkcji Windows Recall, która po jej ujawnieniu została ostro skrytykowana ze względu na istotne luki w zabezpieczeniach.
Recall został początkowo sprzedany w zamian za obietnicę zachowania prywatności na urządzeniu. W tamtym czasie Yusuf Mehdi stwierdził: „Recall wykorzystuje Twój osobisty indeks semantyczny, zbudowany i przechowywany w całości na Twoim urządzeniu. Twoje migawki są Twoje i pozostają lokalnie na Twoim komputerze.”
Ta obietnica została zniweczona, gdy badacze odkryli, że funkcja przechowuje dane w niezaszyfrowanej lokalnej bazie danych, tworząc, co wielu nazywa „kopalnią złota dla złośliwego oprogramowania”.
Ostra krytyka zmusiła firmę do ostrej krytyki. odłożyć tę funkcję i ponownie zaprojektować jej bezpieczeństwo. Dzięki Copilot Vision and Actions Microsoft nie ryzykuje.
Firma opublikowała jasny zestaw zobowiązań w zakresie bezpieczeństwa, podkreślając, że te zaawansowane rozwiązania agentowe są wprowadzane w sposób odpowiedzialny.
Co najważniejsze, funkcja Copilot Actions jest domyślnie wyłączona. Użytkownicy muszą wyraźnie zdecydować się na jej włączenie i mogą ją wstrzymać, przejąć kontrolę lub wyłączyć w dowolnym momencie.
Microsoft obiecuje również pełną widoczność, umożliwiając użytkownikom monitorowanie postępu agenta i sprawdzanie każdego jego kroku. W przypadku wrażliwych decyzji agent może nawet poprosić o konkretną zgodę przed podjęciem dalszych działań.
To odejście od pasywnego przechwytywania danych przez Recall ma kluczowe znaczenie dla budowania zaufania użytkowników. Nowy model Copilot Actions zaprojektowano tak, aby użytkownik miał zawsze kontrolę, co stanowi wyraźny kontrast w porównaniu z początkowym podejściem firmy Recall, w którym firma Recall zawsze była aktywna. Celem tego ostrożnego wdrożenia obejmującego najpierw wersję zapoznawczą jest zebranie opinii i udoskonalenie mechanizmów zabezpieczeń przed wydaniem na szerszą skalę.
Ostatecznie Microsoft pozycjonuje swój komputer PC ze sztuczną inteligencją jako godnego zaufania partnera. Jak stwierdził Mehdi: „chcemy, aby każda osoba podejmująca decyzję o przeprowadzce mogła przekonać się, co to znaczy mieć komputer, który jest nie tylko narzędziem, ale prawdziwym partnerem.”
Powodzenie tej ambitnej wizji będzie zależeć nie tylko od możliwości technologii, ale także od zdolności firmy do przekonania użytkowników, że jej nowe, potężne narzędzia AI są bezpieczne.
[treść osadzona]