Microsoft wprowadził Magma AI, multimodalny model sztucznej inteligencji zaprojektowany do redefiniowania automatyzacji i robotyki przedsiębiorczości napędzanej przez AI.

W przeciwieństwie do konwencjonalnych modeli AI, które koncentrują się wyłącznie na przetwarzaniu języka, Magma AI integruje wizję, język i działania w celu działania zarówno w środowiskach cyfrowych, jak i fizycznych. Szkolenie robotyki zasilane przez Chatgpt oraz autogen/magentic-One, ramy dla koordynowania agentów AI w automatyzacji zadań.

Dzięki Magma AI, Microsoft pozycjonuje się jako lider w multimodalnych systemach AI nowej generacji, konkurując z Google, Openai i Nvidia.

Jak Magma Ai działa

Magma IS IS ai> ai. Multimodalny system sztucznej inteligencji, który integruje przetwarzanie wizji, języka i akcji w celu automatyzacji złożonych zadań w interfejsach cyfrowych i robotyce.

W przeciwieństwie do konwencjonalnych modeli AI, które często specjalizują się w pojedynczej modalności, Magma AI synchronizuje wiele rodzajów danych w czasie rzeczywistym, umożliwiając im analizę obrazów, rozumieć naturalny język i wykonywanie zadań w zakresie oprogramowania i fizycznych. Osiągnij to, Magma AI jest zbudowana na najnowocześniejszych architekturach uczenia maszynowego, w tym ConvNext-XXL do przetwarzania wizualnego i LLAMA-3-8B dla zrozumienia języka.

Te komponenty pozwalają modelowi interpretować graficzne interfejsy użytkownika (GUIS), rozpoznawanie obiektów w prawdziwym środowisku i angażowanie się w działanie. Interfejsy, podobne do funkcji użytkowania komputera Anthropic w Claude, Project Mariner w Google lub niedawno uruchomiony operator AI Agent.

Przykład nawigacji Microsoft Magma AI UI (Źródło: Microsoft)

Magma Ai rozszerza swoje możliwości na sektor robotyki. Zdolność modelu do przetwarzania danych wizualnych w czasie rzeczywistym pozwala dostosowywać się do środowisk dynamicznych, dzięki czemu jest dobrze odpowiednia do zastosowań przemysłowych, takich jak logistyka i produkcja.

Magma AI Real Robot Application Przykłady aplikacji (Źródło: Microsoft)

Trening Dane i Model Development

Microsoft wyszkolił AI Magma AI w rozległym zestawie danych 39 milionów próbek multimodalnych, w tym:

-2,7 miliona zbiorowisk internetowych w zakresie automatyzacji oprogramowania i nawigacji interfejsu.-970 000 robotycznych trajektorii działania w celu poprawy precyzji kontroli ruchu.-25 milionów próbek wideo w celu udoskonalenia świadomości sytuacyjnej opartej na AI.

Te zestawy danych pochodzą z wielu testów porównawczych badań AI, w tym Seeclick, Vision2Ui, Open-X-Embodiment, EGO4D i Epic-Kitchen, zapewniając, że Magma AI uczy się zarówno z strukturalnych przepływów pracy przedsiębiorstwa, jak i interakcji w świecie rzeczywistym.

Set-MankaaAow=(SOM) i Trace-of-Mark (TOM): Jak Magma AI automatyzuje interakcję

Aby skutecznie interakcja z interfejsami cyfrowymi i środowiskami robotycznymi, Magma AI zawiera elementy zestawu zestawu (SOM) i Trace-of-Mark (TOM) Techniki:

som identyfikuje interaktywne elementy UI, fields, menu) i obietnice). manipulowany.

Set-of-Mark (SOM) W celu uziemienia akcji (źródło: Microsoft)

src=”data: image/svg+xml; nitro-empty-id=mtczmzoxmjq5-1; base64, phn2zyB2awv3qm94psiWidagmtaYncaxot Qiiihdpzhropixmdi0iibozwlnahq9ije5ncigeg1sbnm9imh0dha6ly93d3cUdzmub3jnlziwmdavc3znij48l3nzz4=”Trace-of-Mark (TOM) do planowania akcji (Źródło: Microsoft)

Podczas gdy SOM dotyczy uczenia się zarówno opartego na interfejsie użytkownika, jak i robotycznym, Tom koncentruje się przede wszystkim na analizie danych opartych na wideo i robotyce, umożliwiając Magma AI udoskonalenia jego zdolności do przetwarzania ruchu rzeczywistego i zachowania obiektowego.

w jaki sposób Magma AI wyróżnia się na rynku konkurencyjnym AI

Agentspace Google to system automatyzacji przedsiębiorstw napędzany AI, podczas gdy operator Openai specjalizuje się w zarządzaniu zadaniami online i optymalizacji przepływu pracy.

NVIDIA, który był agresywnie rozwijającym AI-ai-aiven, niedawno uruchamiając NEMOTRON i plany i plany i plany i plany i plany. Platforma Jetson Thor, w 2025 r., Oba miały na celu zwiększenie podejmowania decyzji AI w aplikacjach przemysłowych.

W przeciwieństwie do tych modeli, Magma AI jest idealnie zbudowana do integracji bezpośrednio z istniejącą infrastrukturą Azure Enterprise.

, biorąc pod uwagę silną koncentrację Microsoft na temat chmury AI. W skali.

Magma AI może zintegrować się z Azure Openai Service, Azure AI Agents i Microsoft Copilot. Dzięki osadzeniu Magma Ai w Azure, Microsoft może zapewnić w pełni zasilany w chmurze system automatyzacji AI, umożliwiając przedsiębiorstwom wdrażanie multimodalnych modeli AI zarówno w operacjach cyfrowych, jak i przepływach pracy robotyki.

Wyzwania związane z automatyzacją AI w AUTOLOMATION AUTOLOMATION AUTOLOPIND AUTOLOMATION AUTOLOPOLENTOWANE AUTOLOMATION II DETOLOPOLENTOWANE AUTOLUMATION DEPOLOPENTOWANE I DETOPOLENCJI. Enterprise i środowiska przemysłowe stanowi poważne wyzwania.

Modele AI, które oddziałują z aplikacjami w świecie rzeczywistym, muszą być w stanie obsłużyć nieprzewidywalne warunki, od przesuwanych interfejsów oprogramowania po dynamiczne środowiska mechaniczne. Zapewnienie spójności i niezawodności w podejmowaniu decyzji zasilanych przez sztuczną inteligencję pozostaje kluczowym problemem.

Jednym z największych wyzwań dla Microsoft będzie minimalizacja błędów w wykonywaniu zadań opartych na AI. Modele AI mogą zmagać się z przypadkami krawędziami, w których nieoczekiwane zmienne zakłócają predefiniowane wzorce decyzyjne.

Jest to szczególnie istotne w robotyce, w których Magma AI musi dostosować się do czynników zewnętrznych, takich jak zmiany środowiska lub awarie mechaniczne.

Microsoft już podjęło wysiłki w celu rozwiązania tych problemów. Wykorzystując szkolenie AI oparte na symulacji, jak widać w symulatorze AI Genesis, modele AI mogą być testowane i udoskonalane w kontrolowanych środowiskach cyfrowych przed wdrożeniem w świecie rzeczywistym. Podejście to znacznie zmniejsza ryzyko, ale nie eliminuje potrzeby ciągłego uczenia się w świecie rzeczywistym.

podejmowanie decyzji AI i przejście w kierunku pełnej autonomii

Jednym z najbardziej ambitnych celów multimodalnych AI zmienia się w kierunku w pełni autonomicznych systemów AI, które mogą podejmować kompleksowe decyzje bez ludzkich. Długoterminowa wizja Microsoftu dla Magma AI sugeruje, że buduje ona w kierunku agentów AI, które wykonują więcej niż tylko wykonane predefiniowane polecenia-muszą analizować sytuacje, planować działania i stale uczyć się z nowych danych wejściowych.

podejmowane przez AUR decyzyjne podejmowanie ryzyka. Ponieważ Magma AI jest zintegrowana z oprogramowaniem do przedsiębiorstw i robotyki, wyzwaniem będzie zapewnienie, że działania napędzane przez AI-AI pozostaną przejrzyste i możliwe do wyjaśnienia. Obawy regulacyjne dotyczące stronniczości AI, rozliczalności i śledzenia decyzji rosną, ponieważ systemy AI stają się bardziej niezależne.

Dla Microsoft, zapewniając zasadnicze znaczenie dla standardów bezpieczeństwa przedsiębiorstwa i standardów ochrony danych. Z Magma AI, która ma działać w ramach Microsoft Azure, firma ma tę zaletę, że integracja warstw bezpieczeństwa bezpośrednio z opartymi na AI narzędzi automatyzacji, odróżniają je od konkurencyjnych platform AI.

Następne kilka lat określi, czy modele AI, takie jak MAGMA AI, mogą skutecznie przejść z eksperymentalnych ram AI w pełne wdrażane rozwiązania automatyczne. Jeśli Microsoft może udoskonalić zdolność Magmy AI do radzenia sobie z nieprzewidywalnością w świecie rzeczywistym, model może przekształcić nie tylko przepływy pracy przedsiębiorstwa, ale także sposób, w jaki AI oddziałuje ze światem fizycznym.