Microsoft stärkt sein KI-Portfolio mit dem Start von PHI-4-Mini und PHI-4-Multimodal und erweitert ihre Phi-4-Familie. Diese neuen Modelle verstärken den Fokus des Unternehmens auf die Entwicklung kompakter KI-Systeme, die eine hohe Effizienz aufrechterhalten und gleichzeitig die Leistung mit größeren Modellen ermöglichen. Die Entscheidung von Microsoft, im Januar 2025 das Open-Source-PHI-4 zu erstellen, wodurch es unter einer MIT-Lizenz frei verfügbar ist.

PHI-4-Mini setzt diesen Trend der Zugänglichkeit fort, während phi-4-multimodal Funktionen einführt, die den jüngsten AI-Fortschritten durch OpenAI, Google und Meta ausrichten. Beide Modelle sind jetzt in azure ai integriert.

Microsofts Vorschub auf kleinere KI-Modelle wurde im Dezember 2024 validiert, als PHI-4 in Argumentationsaufgaben größere KI-Modelle übertroffen hat, was demonstriert, dass ein optimiertes Training kleinere Modelle ermöglichen kann, ihre größeren Gegenstücke zu entsprechen oder zu übertreffen. href=”https://huggingface.co/microsoft/phi-4/blob/main/readme.md#phi-4-model-card”> veröffentlichen die Modellgewichte von PHI-4 auf dem Umarmungsgesicht . Der Microsoft-Ingenieur Shital Shah bestätigte die Entscheidung und erklärte: „Viele Leute hatten uns um Gewichtsfreigabe gebeten. Nur wenige haben sogar mit dem Bootlegled PHI-4-Gewicht auf dem Umarmungsface 😬 hochgeladen. Warten Sie nicht mehr. Wir veröffentlichen heute ein offizielles PHI-4-Modell auf Huggingface! Mit MIT-Lizenz !!”

phi-4-multimodal ist ein 5,6B-Parametermodell, das die Sprache, das Sehen und die Textverarbeitung nahtlos in eine einzelne, einheitliche Architektur integriert. Laut Microsoft, das„ Modell, ermöglicht es mehr natürlichere und kontextbekannte Interaktionen. Die Analyse von Bildern oder die Verarbeitung von Textinformationen liefert eine hocheffiziente Inferenz mit geringer Latenz-und optimiert gleichzeitig die Ausführung von On-Geräte und einen reduzierten Rechenaufwand. (Quelle: Microsoft)

PHI-4-Multimodal hat auch große Fähigkeiten in sprachbezogenen Aufgaben gezeigt, die in mehreren Bereichen ein führendes offenes Modell ergeben. href=”https://huggingface.co/spaces/hf-audio/open_asr_leaderboard”target=”_ leer”> openasr Rangliste mit beeindruckender Wortfehlerrate von 6,14%. GPT-4O-RealTime-Präview, auf Aufgaben zur Beantwortung von Sprachfragen (QA) als kleinere Modellgröße führt zu einer geringeren Fähigkeit, sachliches QA-Wissen aufzubewahren. Src=”Daten: Bild/SVG+XML; Nitro-Treppy-ID=Mty2Mdoxodqz-1; Base64, Phn2zyb2awv3qm94psiwidagmtaynca0OTQIIIIHDPZH ROPSIXMDI0IIBOZWLAHQ9IJQ5NCIGEG1SBNM9IMH0DHA6LY93D3CUDZMUB3JNLZIWMDAVC3ZNIJ48L3N2ZZ4=”> PHI-4-Multimodal Sprachbenchmarks (Quelle: Microsoft)

phi-4-multimodal, die seine kleinere Größe mit nur 5,6B-Parametern aufnehmen, zeigen bemerkenswerte Sehfunktionen in verschiedenen Benchmarks, insbesondere die starke Leistung bei der mathematischen und wissenschaftlichen Begründung. (OCR) und Visual Science-Argumentation, Anpassung oder Überstieg von engen Modellen wie Gemini-2-Flash-Lite-Preview/Claude-3,5-SONNET. Src=”Daten: Bild/SVG+XML; Nitro-Treppy-ID=Mty3mjoxnzcx-1; Base64, Phn2zyb2awv3qm94psiwidagmtaynca0ntgiihdpzh ROPSIXMDI0IIBOZWLAHQ9IJQ1OCIG1SBNM9IMH0DHA6LY93D3CUDZMUB3JNLZIWMDAVC3ZNIJ48L3N2ZZ4=”> PHI-4-Multimodal Vision Benchmarks (Quelle: Microsoft)

Das andere Modell, phi-4-mini, ist ein 3,8B-Parametermodell mit einer dichten, decoder-Transformator-Architektur mit Aufmerksamkeit mit Gruppierquerien, 200.000 Vokabeln und gemeinsam genutzten Eingängen-Ausgängen. Es unterstützt Sequenzen bis zu 128.000 Token mit hoher Genauigkeit und Skalierbarkeit.

Nach Microsoft kann „PHI-4-Mini relevante Funktionen mit geeigneten Parametern identifizieren und aufrufen, die Funktionsausgänge empfangen und diese Ergebnisse in seine Antworten einbeziehen. Dadurch werden ein erweiterbares agentenbasiertes System erstellt, bei dem die Funktionen des Modells verbessert werden können, indem es mit externen Tools, Anwendungsprogramm-Schnittstellen (APIs) und Datenquellen über gut definierte Funktionen Schnittstellen verbessert werden. Src=”Daten: Bild/SVG+XML; Nitro-Treppy-ID=Mty4ndoxnziz-1; Base64, Phn2zyb2AWV3QM94psiwidagmtaynca1nzyiihd pzhropsixmdi0iibozwlnahq9iju3niigg1Sbnm9imh0dha6ly93d3cudzMub3jnlZiwmdavc3znij48l3n2zz4=”> phi-4-mini Sprachbenchmarks (Quelle: Microsoft)

Warum Microsoft auf kleinere AI-Modelle setzt

Der Start von PHI-4-Mini-und PHI-4-Multimodal-Ausrichtungen mit Microsoft-Verschiebung in Richtung effizienter AI-Modelle, die die Leistung von Microsoft ausbalancieren. Der Betrieb bei niedrigerer kostengünstiger Infrastruktur. Durch die Schulung von KI in kuratierten synthetischen Datensätzen, anstatt sich ausschließlich auf webklappende Inhalte zu verlassen, kann Microsoft ein besseres logisches Denken ohne unnötigen Rechenaufwand sicherstellen. Diese Methode spielte eine Schlüsselrolle bei der starken mathematischen Leistung von PHI-4 und verstärkt, dass gut ausgebildete kleine Modelle größere KI-Systeme in Frage stellen können. Microsoft macht den Phi-4-Mini offen verfügbar, während er das PHI-4-Multimodal innerhalb des Azure-Ökosystems hält, und sorgt für unabhängige Entwickler und Unternehmen, die auf verwaltete AI-Lösungen angewiesen sind.

Dieser doppelte Ansatz steht im Gegensatz zu OpenAI, der den Zugriff auf seine neuesten Modelle eingeschränkt hat, und Mistral AI, das sich eher auf lokale Bereitstellungen als auf Cloud-basierte AI-Dienste konzentriert. kleinere KI-Modelle. Das Umarmungsgesicht hat SMOLVLM-256M und SMOLVLM-500M auf den Markt gebracht, leichte multimodale Modelle, die so konzipiert sind, dass sie auf Geräten mit geringer Leistung mit weniger als 1 GB RAM funktionieren. Diese Modelle richten sich an Entwickler, die nach KI-Lösungen suchen, für die keine High-End-Infrastruktur erforderlich ist. Dadurch werden sie direkte Konkurrenten für den PHI-4-Multimodal von Microsoft geleitet. Im Gegensatz zu Cloud-abhängigen KI sind diese Modelle ausgelegt, um vollständig auf lokaler Hardware zu funktionieren, wobei die wachsende Nachfrage nach Datenschutz-KI, für die keine Internetverbindung erforderlich ist, befasst. Laut Mistral haben „Kunden auf Optionen angewiesen, die sich nicht auf Cloud-Infrastruktur verlassen, aber dennoch schnelle Reaktionszeiten anbieten.“ Das Unternehmen behauptet auch, dass diese Modelle ähnliche Angebote von Microsoft und Google übertreffen, insbesondere bei Anweisungsverfolgung. Versionen sind diese Modelle für das AI-Ökosystem von Google optimiert und können über die Vertex-AI in der Google Cloud bereitgestellt werden. selbst als Führungskräfte in der effizienten KI-Bereitstellung, wobei die PHI-4-Aufstellung von Microsoft nun in einen Markt eintritt, der sich schnell zugänglichen, multimodalen und lokal verarbeiteten AI-Lösungen entwickelt. Durch die Integration dieser Funktionen in PHI-4 erweitert Microsoft seine KI-Anwendungen über herkömmliche textbasierte Modelle hinaus und behält gleichzeitig die Effizienzvorteile ihrer kompakten Architektur bei. Die Expansion der Mistral AI in den asiatisch-pazifischen Märkten und ihre Pläne für einen Börsengang unterstreichen die zunehmende Investition in die leichte KI. In der Zwischenzeit wird das Umarmungsgesicht weiterhin seine Position als Führungskräfte in der Open-Source-KI festigt und Alternativen zu proprietären Modellen durch kleinere, anpassbare KI-Systeme bietet. Während das Unternehmen OpenAI finanziell unterstützt hat, baut seine eigene KI-Abteilung Modelle, die eine Alternative zu OpenAIs Closed-Source-Ansatz bieten. Dies bringt Microsoft in eine Position, in der es gleichzeitig ein Unterstützer und Konkurrent in der sich entwickelnden AI-Landschaft ist. Die neuesten PHI-4-Veröffentlichungen von Microsoft zeigen, dass kleine Hochleistungsmodelle eine größere Rolle bei der Entwicklung der Unternehmens-KI spielen können. Anstatt sich ausschließlich auf die Erweiterung der Parameterzahlen zu konzentrieren, optimieren Unternehmen jetzt Trainingstechniken und Feinabstimmung Architekturen, um die Effizienz ohne Kompromissgenauigkeit zu verbessern.

Categories: IT Info