Amazon utfordrer status quo i Voice AI med Nova Sonic, en ny tale-til-tale-modell som tolker ikke bare hva brukerne sier, men hvordan de sier det. Nova Sonic er designet for å håndtere vokal bøyning, tone og tråkkfrekvens i sanntid, hopper over den tradisjonelle tale-til-tekst-rørledningen helt. Den lytter i stedet og reagerer direkte i ekspressiv syntetisk tale, og gir brukerne følelsen av en menneskelignende samtale.
Amazon sier at Nova Sonic er en generativ talefundamentsmodell som er designet for å forstå ikke bare hva folk sier, men hvordan de sier det, og hevder ytelse under 200 millisekunder under ideelle forhold. Amazon rapporterer også at modellen ble trent på over 100 000 timer med tale, og dekket hundrevis av høyttalerstiler, aldre og aksenter. På den flerspråklige Librispeech-referansen oppnådde den en 4,2% ordfeilrate på tvers av engelsk, fransk, italiensk, tysk og spansk.
Når det gjelder tilgjengelighet, er Nova Sonic nå tilgjengelig gjennom en toveis streaming API via Amazon Bedrock, og gir utviklere i sanntid i sanntids interaksjon kapasiteter. Amazon har også innrammet modellen som kostnadseffektiv, og sier at den er omtrent 80% rimeligere enn Openais GPT-4O.

For utviklere introduserer Nova Sonics tilgjengelighet gjennom Bedrocks API i sanntids evner i stemmesponsering-et viktig trinn utover statisk transkripsjonsbasert stemme. Det signaliserer Amazons intensjon om å gi byggesteinene for tilpassede samtalesystemer, i stedet for å gi ut en agent i én størrelse.
del av en bredere AI-overhaling
Nova Sonic er bare en del av Amazons voksende Nova AI-økosystem. I desember 2024 introduserte Amazon Nova Model-familien-NOVA Micro, Lite, Pro og Premier-som spenner over tekst, bilde og videopenerering. Nova Pro-modellen postet konkurransedyktige poengsum i benchmarks som GSM8K (94,8%nøyaktighet i matematikk), Python Code Generation (89,0%) og flertrinns resonnement (86,9%).
For visuell innholdsoppretting, Nova og nov Reel, for eksempel, støtter for tiden seks sekunders klipp med fremtidig støtte for to minutters sekvenser i utvikling. Disse kreative verktøyene er designet for bedriftsbruk og innlemmer revisjonbarhet for å adressere bekymringer rundt misbruk av syntetiske medier.
Amazon utvidet offentlig tilgang til modellene gjennom Nova Act SDK og Nova.amazon.com, der utviklere kan teste Nova-modellene direkte. NOVA Act muliggjør opprettelse av AI-agenter som kan operere i nettlesere-klikke, skrive og navigere sider gjennom et visuelt bevisst grensesnitt. I motsetning til Googles modulære kjede-av-agenter-rammeverk, prioriterer Amazons SDK utviklerkontroll over forhåndsbygget koordinasjonslogikk.
Kommende resonnementsmodell kan lukke loopen
for å konkurrere på et dypsmodell for å gi ut
for å konkurrere på et dypsmodell for å frigjøre en dyktig nivå. Den kommende modellen er rettet mot å bygge bro raskt, sanntidssamtale med mer gjennomtenkt, analytisk prosessering. Internt er det posisjonert til å konkurrere Claude 3.7 Sonnet, Openais O3-Mini og Googles Gemini 2.5 Pro.
Denne utviklingen markerer også Amazons trekk for å redusere avhengigheten av tredjeparts partnere som antropisk og i stedet bygge en vertikalt integrert AI-stabel-fra sine tilpassede treningssjekker til applikasjonslag innen Aws Ags. Hvis det lykkes, kan det gi selskapet strammere kontroll over dataflyt, latens og kostnadsoptimalisering sammenlignet med API-First-konkurrenter som Openai.
konkurrerende stemmer: Openai, Xai og Sesame Ai
Openai har utvidet rekkevidden til sin avanserte stemmemodus, og lagt til nettbasert tilgang og oppdateringer som reduserer avbrudd og gir rom for naturlige pauser i samtalen. Microsoft laget i mellomtiden sine Copilot-stemmefunksjoner og tenkte dypere verktøy gratis for alle brukere i februar 2025.
På eksperimentell kant skyver Sesame AIs eksperimentelle stemmeassistent grenser ved å etterligne menneskelignende nølende og tonale uregelmessigheter så overbevisende at noen tester beskrev det som”eery menneskelig. Mens realismen var imponerende, vakte den også etiske bekymringer for AI-etterligning og emosjonell manipulasjon.
Motsatt tar Xai’s Grok 3-stemmemodus en radikalt annen rute, slik at brukerne kan muliggjøre en banningslitt, følelsesmessig reaktiv stemmeassistent. Markedsføres som et”ytringsfrihet”-alternativ, ofrer funksjonen rekkverk og moderasjon for å muliggjøre svært uttrykksfulle, noen ganger skurrende svar-som gir en sterk kontrast til Amazons mer regulerte tilnærming.
Nova Sonic tar sikte på å slå en midtbane-å prioritere uttrykkelig og responsivitet mens du opprettholder sikkerhetsfunksjoner og bedriftskvalitet. Hvorvidt den balansen kan vinne over både utviklere og sluttbrukere gjenstår å se, spesielt ettersom forventningene rundt samtale AI fortsetter å skifte.