OpenAI Heute hat der bisher leistungsstärkste KI-Assistenten gestartet, ein Tool erstellen, das die Arbeit für Benutzer aktiv erledigt, anstatt nur Fragen zu beantworten. Der neue Agent betreibt einen”virtuellen Computer”, um komplexe, mehrstufige Aufgaben auszuführen. Dieser Start eskaliert das Rennen um die Vorherrschaft in der Agentic AI, die OpenAI gegen Initiativen von Google, Anthropic und Microsoft stellt. Es ersetzt das Bediener-Tool des Unternehmens, das erstmals im Januar 2025 als begrenzter, browserbasierter Agent eingeführt wurde. Bidding

Chatgpt-Agent repräsentiert OpenAs mutigsten Versuch, ein wirklich agentisches Produkt zu erstellen. Es ist von einem neuen, unbenannten Modell der OpenAI O3-Familie angetrieben. Das System wurde entwickelt, um komplexe Aufgaben von Benutzern zu entlasten, z. B. die Planung von Ereignissen, indem ein Kalender geprüft oder ein Dia-Deck generiert wird. Diese interne Umstrukturierung unterstreicht die strategische Bedeutung, sich über einfache Chatbots hinaus zu bewegen. Es kombiniert einen Remote-visuellen Browser mit einem Terminal zum Ausführen von Code, der Durchführung von Datenanalysen und sogar zum Erstellen von Tabellenkalkulationen. Externe Datenquellen und Anwendungen wie Google Drive, ein wesentlicher Schritt aus früheren Angeboten. Bei FrontierMath, einem herausfordernden Mathe-Test, erzielte der Agent bei der Verwendung seiner Werkzeuge 27,4%. Forschungsleiter Isa Fulford stellte fest, dass Benutzer nicht dazu bestimmt sind, es zu beobachten und es als Hintergrundassistent zu fordern.”Selbst wenn es 15 Minuten, eine halbe Stunde dauert, ist es eine große Geschwindigkeit im Vergleich dazu, wie lange es dauert, bis Sie es tun würden”, sagte sie und betonte seine Rolle bei der Behandlung zeitaufwändiger Prozesse. href=”https://cdn.openai.com/pdf/18a02b5d-6b67-4cec-ab64-68cdfbddebcd/Preparedness-framework-v2.pdf”Target=”_ Blank”> Safeguards aus dem Vorbereitungsgerüst . Dies ist eine Vorsichtsmaßnahme gegen potenziellen Missbrauch, insbesondere in biologischen und chemischen Bereichen, auch ohne direkte Hinweise auf das Risiko.

Benutzerkontrolle ist ein zentrales Thema. Fulford bestätigte, dass”Bevor Chatgpt Agent alles”Irreversible”macht, wie das Senden einer E-Mail oder eine Buchung, die Erlaubnis zuerst um Erlaubnis bittet.”Dieser Benutzerbestätigungsschritt ist für Aktionen mit realen Konsequenzen von entscheidender Bedeutung und baut auf der Sicherheits-ersten Gestaltung des früheren Bedienungsagenten auf.

Weitere Sicherheitsschichten enthalten einen „Uhrenmodus“. Diese Funktion pausiert automatisch die Ausführung des Agenten auf sensiblen Websites wie Finanzportalen, wenn der Benutzer von der Registerkarte wegnavigiert. Darüber hinaus hat OpenAI die Memory-Funktion von ChatGPT beim Start deaktiviert, um das Exfiltrationsrisiko von Daten durch schnelle Injektionsangriffe zu mildern. Es ist eine direkte Antwort auf ähnliche Tools von Konkurrenten. Anthropic war früh mit seiner”Computer-Use”-Funktion für Claude-Modelle, die im Oktober 2024 veröffentlicht wurde. Auch Microsoft einbettet agentenähnliche Funktionen in sein Copilot Studio ein. Charles Lamanna, ein Microsoft VP, erfasste das Ziel kurz und bündig: „Wenn eine Person die App verwenden kann, kann der Agent auch vor diesem Start einen wettbewerbsfähigen Rand zeigten, über die Brewser-und System-Level-Taskks übertroffen wurden. Diese Geschichte setzt eine hohe Bar für den neuen, fähigeren Agenten. Eine kürzlich durchgeführte Carnegie Mellon-Studie ergab, dass selbst Top-KI-Modelle mit Aufgaben der Geschäftautomatisierung zu kämpfen haben und Probleme mit dem gesunden Menschenverstand und dem Surfen von Websachen hervorheben. OpenAIs neuer Agent wird anhand dieser realen Leistungsbenchmarks gemessen.

Categories: IT Info