Firma Microsoft Research zaprezentowała Fara-7B, kompaktowy model sztucznej inteligencji o wartości 7 miliardów parametrów, zaprojektowany do uruchamiania agentów „korzystających z komputera” bezpośrednio na urządzeniach lokalnych.

Przetwarzając piksele ekranu całkowicie na urządzeniu, nowy model ma na celu ustanowienie „suwerenności pikseli”, umożliwiając przedsiębiorstwom automatyzację wrażliwych przepływów pracy bez udostępniania danych w chmurze.

Wypuszczona dzisiaj na licencji MIT Fara-7B podobno przewyższa masową technologię opartą na chmurze rywalom, takim jak GPT-4o OpenAI, w kluczowych testach nawigacji, jednocześnie obniżając koszty wnioskowania o ponad 90%.

Suwerenność pikseli: przejście na agentów lokalnych

Przełamując trend branżowy dotyczący scentralizowanego przetwarzania, wypuszczenie Fara-7B przez Microsoft Research stanowi strategiczny zwrot od sztucznej inteligencji zależnej od chmury do tego, co nazywają „suwerennością pikseli”, zapewniającą, że wrażliwe dane nigdy nie opuszczą urządzenia użytkownika.

Pod maską architektura opiera się na podstawowym modelu Alibaba Qwen2.5-VL-7B, przetwarza dane wizualne bezpośrednio ze zrzutów ekranu, zamiast polegać na drzewach dostępności lub leżących u ich podstaw strukturach kodu.

Przyjmując strategię „najpierw wizja”, agent wchodzi w interakcję z dowolnym interfejsem aplikacji w taki sam sposób, jak zrobiłby to człowiek, omijając potrzebę niestandardowych integracji API.

Lokalne wykonanie rozwiązuje krytyczne obawy przedsiębiorstw dotyczące prywatności danych, szczególnie w przypadku regulowanych branż obsługujących dane finansowe lub dotyczące opieki zdrowotnej. Zachowując wszystkie wnioski na komputerze lokalnym, organizacje mogą wdrażać autonomicznych agentów bez udostępniania zastrzeżonych przepływów pracy lub informacji o klientach serwerom stron trzecich. Microsoft twierdzi, że

„Niewielki rozmiar Fara-7B umożliwia teraz uruchamianie modeli CUA bezpośrednio na urządzeniach. Skutkuje to zmniejszeniem opóźnień i poprawą prywatności, ponieważ dane użytkownika pozostają lokalne”.

Usuwając opóźnienia w przypadku żądań do chmury w obie strony, agenci na urządzeniach mogą szybciej reagować na zmiany w interfejsie użytkownika, zapewniając płynniejszą obsługę. Taka elastyczność okazuje się kluczowa w przypadku złożonych, wieloetapowych przepływów pracy, w których opóźnienia mogą przełożyć się na znaczne straty produktywności. Według firmy Microsoft:

„Agent oparty wyłącznie na pikselach może działać w wielu aplikacjach bez wyrównania i integracji, co jest dużą zaletą. Jednak w przypadku zmiany interfejsu użytkownika agent może mieć problemy. Jest potężny, ale także delikatny.”

Zoptymalizowana pod kątem sprzętu konsumenckiego, kompaktowa architektura zawierająca 7 miliardów parametrów jest dostosowana do możliwości NPU komputerów Copilot+. Możliwości te, dostępne bez kosztownej infrastruktury, zapewniają, że zaawansowane funkcje agentowe pozostają w zasięgu standardowych wdrożeń w przedsiębiorstwach.

Wydajność i testy porównawcze: koszt autonomii

Stawiając bezpośrednie wyzwanie rzuconym zastrzeżonym gigantom, Fara-7B osiąga wskaźnik sukcesu na poziomie 73,5% w teście porównawczym WebVoyager, przewyższając wynik 65,1% testu GPT-4o OpenAI (SoM). Takie wyniki sugerują, że mniejsze, wyspecjalizowane modele mogą przewyższać większe modele ogólnego przeznaczenia w przypadku określonych zadań.

Zgodnie z dokumentacją techniczną Fara-7B działa jako model obsługujący wyłącznie dekoder multimodalny, zbudowany w oparciu o architekturę Qwen2.5-VL-7B firmy Alibaba. System przetwarza cele użytkownika, zrzuty ekranu przeglądarki i historię działań w oknie kontekstowym zawierającym 128 000 tokenów.

Lokalni agenci AI właśnie osiągnęli ogromny punkt zwrotny. 🚨

Microsoft porzucił Fara-7B i pokonuje GPT-4o w nawigacji internetowej, działając całkowicie lokalnie.

Technologia jest sprytna: zamiast skrobać kod (DOM) jak stare skrypty, wykorzystuje rozpoznawanie wizualne, aby „zobaczyć” Twój ekran… pic.twitter.com/UEzYkTTcop

— Yi (@imhaoyi) 25 listopada 2025

Badania firmy Microsoft wykazały, że zestaw narzędzi modelu jest zgodny z interfejsem Magentic-UI, umożliwiając wykonywanie takich czynności, jak pisanie, klikanie i przewijanie, a jednocześnie przewidywanie współrzędnych bezpośrednio w postaci pozycji pikseli na ekranie.

Niezależne testy przeprowadzone przez Browserbase potwierdzają status modelu „najnowocześniejszego” w swojej klasie wielkości, chociaż w rzeczywistych warunkach odnotowano nieco niższy wskaźnik powodzenia wynoszący 62%. Pomimo tej rozbieżności model pozostaje wysoce konkurencyjny, oferując realną alternatywę dla rozwiązań wymagających większej ilości zasobów.

Efektywność kosztowa jest głównym wyróżnikiem, a firma Microsoft szacuje średni koszt zadania na 0,025 USD w porównaniu z ~0,30 USD w przypadku modeli takich jak GPT-5 lub o3. Obniżając barierę wejścia, ta struktura kosztów mogłaby znacznie przyspieszyć powszechne wdrażanie agentów.

Jak szczegółowo opisano w oficjalnym ogłoszeniu:

„W przypadku WebVoyagera Fara-7B używa średnio 124 000 tokenów wejściowych i 1100 tokenów wyjściowych na zadanie, przy około 16,5 działaniach, zespół badawczy szacuje średni koszt na zadanie na 0,025 dolara w porównaniu z około 0,30 dolara w przypadku agentów SoM wspieranych przez zastrzeżone modele rozumowania, takie jak GPT-5 i o3.”

Testy porównawcze szybkości wykazują znaczne zalety, przy czym model wykonuje zadania w około 154. według Browserbase w porównaniu do 254 sekund w przypadku konkurencyjnego modelu UI-TARS-1.5-7B.

W połączeniu z niskimi kosztami operacyjnymi, szybkie wykonanie sprawia, że Fara-7B jest atrakcyjną opcją w przypadku zadań automatyzacji o dużej objętości.

Pomimo niewielkich rozmiarów Fara-7B posiada znaczne okno kontekstowe na 128 000 tokenów, umożliwiając zachowanie historii podczas długich, wieloetapowych przepływów pracy, jak zauważono w oficjalne ogłoszenie.

„W przyszłości będziemy dążyć do utrzymania małych rozmiarów naszych modeli. Nasze ciągłe badania skupiają się na tym, aby modele agentowe były mądrzejsze i bezpieczniejsze, a nie tylko większe” – mówi Microsoft.

Firma przyznaje, że model ma charakter eksperymentalny, wskazując na jego ograniczenia:

„Można swobodnie eksperymentować i tworzyć prototypy na Fara-7B w ramach licencji MIT, ale najlepiej nadaje się on do celów pilotażowych i weryfikacji koncepcji, a nie wdrożeń o znaczeniu krytycznym.”

Ekosystem agentyczny: bezpieczeństwo i konkurencja

Aby wytrenować model bez kosztownych adnotacji ze strony człowieka, Microsoft opracował „FaraGen”, syntetyczny potok danych, który generował ponad 145 000 zweryfikowanych trajektorii zadań.

Ta metoda szybko skaluje dane szkoleniowe i eliminuje kluczowe wąskie gardło w rozwoju agenta.

Bezpieczeństwo jest egzekwowane poprzez mechanizm „Punktu krytycznego”, który wstrzymuje agenta i wymaga zgody użytkownika przed nieodwracalnymi działaniami, takimi jak zakupy lub wysyłanie e-maili. Według repozytorium modeli:

„Punkt krytyczny definiuje się jako każdą sytuację wymagającą danych osobowych użytkownika lub jego zgody, zanim nastąpi nieodwracalna czynność, np. wysłanie wiadomości e-mail lub sfinalizowanie transakcji finansowej. Po osiągnięciu takiego momentu Fara-7B zatrzymuje się i wyraźnie prosi użytkownika o zgodę przed kontynuowaniem”. […] „To podejście pomaga organizacjom spełnić rygorystyczne wymagania w sektorach regulowanych, w tym HIPAA i GLBA.”

Ta wersja, intensyfikując wyścig zbrojeń „agentnej sztucznej inteligencji”, bezpośrednio konkuruje z funkcją Computer Use firmy Anthropic, uruchomieniem agenta ChatGPT z OpenAI i podglądem Gemini 2.5 Computer Use od Google.

Podczas gdy konkurenci skupiają się na rozwiązaniach opartych na chmurze, Fara-7B pozostawia lukę dla lokalnych, zorientowanych na prywatność alternatywy.

W przeciwieństwie do konkurencji, która często wymaga łączności z chmurą, otwarta konstrukcja Fara-7B pozwala programistom na dostrojenie i wdrożenie modelu w środowiskach całkowicie pozbawionych powietrza. 

Microsoft udostępnił model na liberalnej licencji MIT na platformach Hugging Face i Azure Foundry, zachęcając do szerokiego przyjęcia i iteracji przez społeczność. W przeciwieństwie do zamkniętych ekosystemów swoich głównych rywali, to otwarte podejście potencjalnie przyspiesza innowacje w przestrzeni lokalnych agentów.

Categories: IT Info