Alibaba akselererer det globale AI-løpet med Websailor, en ny open source webagent som ble utgitt 4. juli. Utviklet av Tongyi-laboratoriet, er WebSailor konstruert for å mestre svært komplekse informasjonssøkende oppgaver som forvirrer de fleste nåværende modeller. Selskapet hevder at agenten lukker ytelsesgapet med ledende proprietære systemer fra konkurrenter som Openai.

Ved å bruke en ny treningsmetodikk med fokus på høye undervisninger, kan WebSailor navigere i enorme digitale landskap for å finne svar, et viktig skritt mot å oppnå”superhuman”resonnement. Denne strategiske utgivelsen, Tilgjengelig på GitHub Sikt for å klare til å klare til å pleie. Resonnement

Hjertet av WebSailor er en sofistikert treningsstrategi designet for å lære modeller hvordan man kan håndtere tvetydighet. Tilnærmingen beveger seg utover enkle spørsmål-swering, og fokuserer i stedet på det forskerne kaller”nivå 3″-problemer: oppgaver uten klar løsningssti som krever dyp utforskning.

For å generere disse utfordringene, opprettet teamet Det bygger komplekse kunnskapsgrafer fra nettsteder i den virkelige verden og skjuver deretter bevisst informasjon-som å gjøre presise datoer til vage perioder-for å tvinge agenten til å resonnere og koble forskjellige fakta.

Målet, i henhold til

Disse dataene brukes i et totrinns treningsregime. Det begynner med en avvisning av finjustering av avvisning (RFT) “kald start” for å bygge grunnleggende ferdigheter. Dette blir fulgt av forsterkningslæring ved bruk av en tilpasset algoritme, dupliserer prøvetakingspolitikkoptimalisering (DUPO), for å avgrense agentens utforskende strategier effektivt.

Sette en ny open-source-benchmark

alibaba’s Performance Requarchmark

alibaba’s Performance-posisjonsposisjon. I følge de publiserte benchmarkene oppnår 72B-versjonen av modellen toppscore på de vanskelige bryncomp-testene på både engelsk og kinesisk.

På den kinesiske versjonen av referansen, scoret Websailor-72B 30.1, og oppnådde paritet med proprietære agenter. På den engelske testen scoret den 12,0. Forskerne hevder at “Websailor overgår betydelig alle open source-agenter i komplekse informasjonssøkende oppgaver, samsvarer med proprietære agenters ytelse og lukker kapasitetsgapet.”

Alibaba Websailor AI Agent Benchmarks vs. konkurrenter (kilde: Aliba)

Betydelige, resultatene som antyder gevinster (kilde: Alibaba)

Betydelige benchmarks mot gevinstene (kilde: Aliba). Oppgaven fremhever at den beskjedne WebSailor-7B-modellen avgjørende overgår agenter som er bygget på mye større 32B-modeller, noe som understreker effekten av det nye paradigmet.

Agent viser også sterk nedoverkompatibilitet. Til tross for at de er trent på ekstremt vanskelige problemer, overgår WebSailor andre metoder på det enklere, faktabaserte SimpleQA-referanseindeksen, og viser at dens avanserte resonnementferdigheter er allsidige og ikke kompromitterer ytelsen på grunnleggende oppgaver.

Navigering av Kinas Fierce AI-løp

Det lander midt i en voldsom”krig med hundre modeller”i Kina, der tech-giganter aggressivt åpner arbeidet sitt for å fange markedsandeler. Flyttingen plasserer strategisk Alibaba som ledende innen avansert, åpen AI-utvikling.

Konkurransespenningen ble nylig fremhevet da en forskningsgruppe påsto Huaweis nye Pangu-modell var en kopi av Alibabas egen Qwen-modell. Huaweis laboratorium ga ut en fast benektelse, og uttalte at modellen var”… ikke basert på trinnvis opplæring av andre produsenters modeller…”og utviklet seg uavhengig.

Dette bakteppet av intens innenlandsk rivalisering inkluderer store aktører som Baidu med sine Ernie-modeller og Tencent med Hunyuan, alle som kjører på Dominance. Dette skyvet er drevet av bredere geopolitiske press, ettersom amerikanske sanksjoner begrenser tilgangen til toppnivå maskinvare og tvinger kinesiske firmaer til å bygge selvhjulpne økosystemer.

Dette presset strekker seg utover maskinvare. Store partnerskap står overfor internasjonal granskning, sett når Apples potensielle AI-omhandler Alibaba trakk tilbakeslag i Washington over bekymring for nasjonale sikkerhet. Dette tvinger kinesiske tech-giganter til å navigere i et komplekst landskap av innenlandsk konkurranse og global politikk.