Microsoft har avslöjat två nya internt utvecklade AI-modeller, vilket markerar ett betydande steg i sin strategi för att bygga äganderätt AI tillsammans med sitt partnerskap med OpenAI. Modellerna tillkännages på torsdag och inkluderar Mai-Voice-1, ett mycket effektivt talgenereringsverktyg och MAI-1-PREVIEW, företagets första slutliga grundläggande textmodell.
Detta drag gör det möjligt för Microsoft att diversifiera sin AI-portfölj, minska sin enda beroende av OpenAI och främja en mer elastisk AI-ekosystem för sin produkter. De nya modellerna signalerar Microsofts ambition att bli ledande inom både AI-applikation och grundläggande forskning, vilket ger den större kontroll över dess tekniska färdplan.
Initiativet leds av Microsoft AI (MAI), divisionen ledd av VD Mustafa Suleyman. Det understryker en strategisk pivot mot att utveckla interna kapaciteter för att komplettera sina investeringar med flera miljarder dollar i OpenAI.
Generera en hel minut av ljud med hög trovärdighet i under en andra på en enda GPU. Denna prestationsmetrisk gör den till en av de mest effektiva och”blixt-snabba”tallsystemen som finns tillgängliga idag.
Företaget ser denna teknik som grundläggande för framtiden för interaktion mellan mänskliga och datorer och säger att”röst är framtidens gränssnitt för AI-följeslagare.”MAI-VOICE-1 är utformad för att leverera denna vision genom att producera uttrycksfulla ljud som är lämpliga för både enstaka och flera högtalarscenarier, en viktig kapacitet för att skapa dynamiska och interaktiva AI-upplevelser.
Detta är inte bara ett forskningsprojekt; Tekniken integreras redan i Microsofts produktuppställning. MAI-VOICE-1 driver för närvarande funktioner inom copilot dagligen och podcasts, vilket ger mer naturligt klingande och engagerande röster till användare som interagerar med dessa tjänster dagligen.
För att visa upp sin kreativa potential har Microsoft lanserat en offentlig rättegång via ett nytt”ljuduttryck”-verktyg i Copilot Labs. Denna upplevelse gör det möjligt för alla att klistra in text, välj röster och stilar och ladda ner utgången . Företaget föreslår att man använder fall från att skapa”Välj ditt eget äventyr”-historier till skräddarsydda guidade meditationer.
MAI-1-PREVIEW: Microsofts första grundmodell
Den andra avslöjandet, MAI-1-PREVIEW, representerar en mer betydande strategisk milsten för företaget. Microsoft beskriver det som sin First Foundation Model trai n helt inom sina egna labb. Detta drag är ett kritiskt steg för att bygga oberoende AI-utvecklingsmuskel och erbjuder vad företaget kallar ett”glimt av framtida erbjudanden inom copilot.”
Modellen är byggd på en sofistikerad blandning av experter (MOE) arkitektur, en teknik känd för att balansera enorm kraft med beräkningseffektivitet. Dess utveckling involverade en massiv hårdvaruinvestering, eftersom den var förutbildad och efterutbildad på ett kluster av cirka 15 000 av NVIDIAs mycket eftertraktade H100 GPU: er.
Enligt Microsoft är MAI-1-förebyggande specifikt utformat för att ge kraftfulla kapaciteter för konsumenter. Företaget hävdar att modellen utmärker sig för att specialisera sig i följande instruktioner och ge användbara svar på vardagliga användarfrågor och placera den som ett praktiskt och användbart verktyg för en bred publik.
För att validera dess prestanda, bedriver Microsoft en dubbelspår teststrategi. Det har öppnat MAI-1-för-förekomst för allmän granskning av LMarena, en populär samhällsplattform för benchmarking AI-modeller mot varandra. Denna transparenta tillvägagångssätt möjliggör direkt jämförelse och opartisk feedback från den bredare AI-samhället.
Samtidigt kommer modellen att noggrant integreras i Microsofts flaggskepp AI-produkt. Under de kommande veckorna kommer det att rullas ut för att hantera vissa textbaserade uppgifter inom copilot. Det angivna målet är att lära av användaråterkoppling för att förbättra modellen. För utvecklare och forskare erbjuder Microsoft också Begränsad API-åtkomst via en applikationsprocess för att samla in mer tekniska insikter.