A Microsoft Research bemutatta a Fara-7B-t, egy kompakt, 7 milliárd paraméteres mesterséges intelligencia-modellt, amelyet arra terveztek, hogy „számítógép-használati” ügynököket futtasson közvetlenül a helyi eszközökön.

A képernyő képpontjainak teljes mértékben az eszközön történő feldolgozásával az új modell célja a „pixel-szuverenitás” megteremtése, amely lehetővé teszi a vállalatok számára, hogy automatizálják az érzékeny munkafolyamatokat anélkül, hogy a mai felhő licence alá tennék. A Fara-7B állítólag felülmúlja az olyan hatalmas felhőalapú riválisokat, mint az OpenAI GPT-4o a kulcsfontosságú navigációs referenciaértékeken, miközben több mint 90%-kal csökkenti a következtetések költségeit.

Pixel szuverenitás: átállás a helyi ügynökök felé

A központosított feldolgozás iparági trendjéből kitörve, a Microsoft Research Fara-7B kiadása stratégiai fordulatot jelent a felhőfüggő mesterséges intelligencia felől az úgynevezett „pixelszuverenitás” felé, biztosítva, hogy az érzékeny adatok soha ne hagyják el a felhasználó eszközét, az irányítást.

Qwen2.5-VL-7B alapmodell, amely közvetlenül a képernyőképekből dolgozza fel a vizuális adatokat, ahelyett, hogy a kisegítő fákra vagy a mögöttes kódstruktúrákra hagyatkozna.

A „látás-első” stratégia elfogadásával az ügynök ugyanúgy kommunikál bármely alkalmazási felülettel, mint egy ember, megkerülve az egyéni API-integrációk szükségességét, különösen a kritikus adatbeviteli, helyi szintű adatbeviteli adatok végrehajtását illetően. pénzügyi vagy egészségügyi adatokat kezelő iparágak. Azáltal, hogy minden következtetést a helyi gépen tartanak, a szervezetek önálló ügynököket telepíthetnek anélkül, hogy szabadalmaztatott munkafolyamatokat vagy ügyféladatokat tennének fel harmadik fél szerverei számára. A Microsoft szerint:

“A Fara-7B kis mérete lehetővé teszi a CUA modellek közvetlenül az eszközökön történő futtatását. Ez csökkenti a késleltetést és javítja az adatvédelmet, mivel a felhasználói adatok helyi maradnak.”

Az oda-vissza felhőkérések késleltetésének megszüntetésével az eszközön lévő ügynökök gyorsabban reagálhatnak a felhasználói felület változásaira, így simább felhasználói élményt biztosítanak. Az ilyen agilitás kritikus fontosságú az összetett, többlépcsős munkafolyamatoknál, ahol a késések jelentős termelékenységi veszteségeket okozhatnak. A Microsoft szerint:

“A csak pixeleket tartalmazó ügynök sok alkalmazásban képes működni összehangolás vagy integráció nélkül, ami nagy előny. De ha a felhasználói felület megváltozik, az ügynök nehézségekbe ütközhet. Erőteljes, de törékeny is.”

A fogyasztói hardverhez optimalizált, kompakt, 7 milliárdos paraméteres architektúra a Copilot+ PC-k NPU képességeit célozza meg. A drága infrastruktúra nélkül hozzáférhetők ezek a képességek biztosítják, hogy a fejlett ügynöki funkciók elérhetők maradjanak a szabványos vállalati telepítésekhez.

Hatékonyság és referenciaértékek: Az autonómia költsége

A szabadalmaztatott óriáscégek közvetlen kihívásaként a Fara-7B 73,5%-os sikerarányt ér el a Webben Vmarkán felülmúlva. Az OpenAI GPT-4o (SoM) 65,1%-a. Az ilyen eredmények azt sugallják, hogy a kisebb, speciális modellek bizonyos feladatoknál jobban teljesítenek, mint a nagyobb, általános célú modellek.

A műszaki dokumentáció szerint a Fara-7B csak multimodális dekóderrel használható modellként működik, amely az Alibaba Qwen2.5-VL-7B architektúrájára épül. A rendszer egy 128 000 tokenből álló kontextusablakon belül dolgozza fel a felhasználói célokat, a böngésző képernyőképeit és a műveleti előzményeket.

A helyi mesterséges intelligencia-ügynökök hatalmas fordulóponthoz érkeztek. 🚨

A Microsoft elvetette a Fara-7B-t, és a webes navigációban veri a GPT-4o-t, miközben teljesen helyben fut.

A technológia okos: a régi szkriptekhez hasonlóan a kód (DOM) lekaparása helyett vizuális felismerést használ a képernyő „látására”… pic.twitter.com/UEzYkTTcop

— Yi (@imhaoyi) Nove,5″target=”_5″2025

A Microsoft Research meghatározza, hogy a modell eszközkészlete igazodik a Magentic-UI felülethez, lehetővé téve az olyan műveleteket, mint a gépelés, kattintás és görgetés, miközben a koordinátákat közvetlenül a képernyőn lévő pixelpozíciókként jósolja meg.

A Browserbase által végzett független tesztelés igazolja a modell „korszerű” státuszát a méretosztályában, bár valós körülmények között valamivel alacsonyabb, 62%-os sikerarányról számolt be. E szórás ellenére a modell továbbra is rendkívül versenyképes, és életképes alternatívát kínál az erőforrás-igényesebb megoldásokhoz.

A költséghatékonyság jelentős különbséget jelent, a Microsoft becslése szerint az átlagos költsége feladatonként 0,025 USD, míg a GPT-5 vagy az o3 modellek esetében körülbelül 0,30 USD. A belépési korlátok csökkentése révén ez a költségstruktúra jelentősen felgyorsíthatja az ügynökök széles körben történő bevezetését.

Amint azt a a hivatalos közleményben a hivatalos A sebességmérők jelentős előnyöket mutatnak, mivel a modell körülbelül 154 másodperc alatt teljesíti a feladatokat, szemben a konkurens UI-TARS-1.5-7B modell 254 másodpercével, a Browserbase szerint.

Az alacsony működési költségekkel kombinálva a gyors végrehajtás vonzóvá teszi a Fara-7B.p> automatizálási lehetőséget a high-7B.p> feladatokhoz.

Kis mérete ellenére a Fara-7B jelentős, 128 000 tokenből álló kontextusablakot tart fenn, amely lehetővé teszi számára, hogy megőrizze a történelmet a hosszú, többlépcsős munkafolyamatok során, amint azt a the official target=”_blank-use”bejelentése.

„A továbbiakban arra törekszünk, hogy megőrizzük modelljeink kis méretét. Folyamatban lévő kutatásaink az ügynökmodellek intelligensebbé és biztonságosabbá tételére összpontosítanak, nem csak nagyobbra” – mondja a Microsoft.

A vállalat elismeri, hogy a modell kísérleti jellegű, és rámutat a korlátokra:

„A Far’s MIT-vel szabadon kísérletezhet és licencelhet, és a legjobban prototípust készíthet a Far’s7-tel. a kritikus bevetések helyett a koncepció bizonyítása.”

Az ügynökök ökoszisztémája: biztonság és verseny

A modell drága emberi megjegyzések nélküli betanítása érdekében a Microsoft kifejlesztette a „FaraGen”szintetikus adatfolyamot, amely több mint 145 000 ellenőrzött feladat-módszert generált,

megfelelve az adatpályákat. kulcsfontosságú szűk keresztmetszet az ügynökfejlesztésben.

A biztonságot egy „kritikus pont” mechanizmus kényszeríti ki, amely szünetelteti az ügynököt, és visszafordíthatatlan műveletek, például vásárlások vagy e-mailek küldése előtt a felhasználó jóváhagyását kéri. A modelltárház szerint:

„Kritikus pontnak minősül minden olyan helyzet, amelyhez a felhasználó személyes adataira vagy beleegyezésére van szükség ahhoz, hogy visszafordíthatatlan műveletet hajtsanak végre, például e-mailt küldjenek vagy pénzügyi tranzakciót hajtsanak végre. a folytatás előtt kérje a felhasználói jóváhagyást.”[…] „Ez a megközelítés segít a szervezeteknek megfelelni a szigorú követelményeknek a szabályozott szektorokban, beleértve a HIPAA-t és a GLBA-t is.”

Az „agentic AI” fegyverkezési verseny fokozásával a kiadás közvetlenül versenyez az Anthropic Computer Use funkciójával, az OpenAI ChatGPT Agent elindításával és a Gemini 2.5 Computer Use előnézetével a Google-tól.

Whaile a felhőalapú megoldásokra fókuszál. rés a helyi, adatvédelemre összpontosító alternatívák között.

A gyakran felhőalapú kapcsolatot igénylő versenytársakkal ellentétben a Fara-7B nyílt súlyú természete lehetővé teszi a fejlesztők számára, hogy finomhangolják és teljesen légrés környezetben alkalmazzák a modellt. 

A Microsoft kiadta a modellt a Hugging Face és az Azure Foundry megengedő MIT licence alatt, ösztönözve a széles körű közösségi alkalmazást és iterációt. Az elsődleges riválisok zárt ökoszisztémáival ellentétben ez a nyitott megközelítés potenciálisan felgyorsítja az innovációt a helyi ügynöki térben.

Categories: IT Info