Amazon utmanar status quo i röst AI med Nova Sonic, en ny tal-till-tal-modell som inte bara tolkar vad användare säger, utan hur de säger det. Nova Sonic är utformad för att hantera vokal böjning, ton och kadens i realtid helt och hållet. Det lyssnar istället och svarar direkt i uttrycksfullt syntetiskt tal, vilket ger användarna känslan av en mänsklig liknande konversation.

Amazon säger att Nova Sonic är en generativ tal Foundation-modell som är utformad för att inte bara förstå vad folk säger, utan hur de säger det och hävdar prestanda under 200 millisekunder i idealiska förhållanden. Amazon rapporterar också att modellen utbildades på över 100 000 timmars tal och täcker hundratals högtalarstilar, åldrar och accenter. På det flerspråkiga Librispeech-riktmärket uppnådde det en 4,2% ordfelfrekvens över engelska, franska, italienska, tyska och spanska.

När det gäller tillgänglighet är Nova Sonic nu tillgängligt genom ett dubbelriktat strömmande API via Amazon Bedrock, vilket ger utvecklare i realtid interaktionskapacitet över rösterna över rösterna. Amazon has also framed the model as cost-efficient, stating that it is approximately 80% less expensive than OpenAI’s GPT-4o.

Integrated Into Alexa+ and the Utvecklare Stack

element från Nova Sonic är redan inbäddade i Alexa+, Amazons omdesignade röstassistent, som lanserades i februari 2025. Alexa+ introducerar funktioner som minne, multi-turn-konversation och smart hemorkestrering. Panos Panay, Amazons apparater, betonade upplevelsen under lanseringsevenemanget och säger:”När du använder Alexa+ kommer du att känna det.”

Alexa+ kostar 20 $ per månad för icke-prime-användare och ingår i Prime-medlemskap. Vissa utlovade funktioner, som att beställa takeout via GrubHub eller Story Generation för barn, är emellertid fortfarande försenade. Äldre eko-enheter kanske inte stöder modellens bearbetningskrav, vilket begränsar utrullningen. Internt fortsätter assistenten att förlita sig på Anthropics Claude AI för språkmodellering, efter Amazons investeringar på 4 miljarder dollar i slutet av 2024.

för utvecklare, Nova Sonics tillgänglighet genom Bedrocks API: er 4 miljarder dollar i realtidsförmågor i röstresponsgenerering-ett viktigt steg utöver statisk transkription-baserad röst. Den signalerar Amazons avsikt att tillhandahålla byggstenarna för anpassade konversationssystem, snarare än att släppa en enstor-pass-all-agent.

En del av en bredare AI-översyn

Nova Sonic är bara en del av Amazons växande Nova AI-ekosystem. I december 2024 introducerade Amazon Nova-modellfamiljen-Nova Micro, Lite, Pro och Premier-som sträcker sig över text, bild och videogenering. NOVA Pro-modellen publicerade konkurrensresultat i riktmärken som GSM8K (94,8%noggrannhet i matematik), Python-kodgenerering (89,0%) och multireselen (86,9%).

för visuell innehållskapande, Nova Canvas och Nova Reel tillåter användare att generera bilder och korta filmer med säkerhetsfilmer som säkerhetsformor som Watermarte. Reel stöder till exempel för närvarande sex sekunders klipp med framtida stöd för två minuters sekvenser under utveckling. Dessa kreativa verktyg är utformade för företagsanvändning och innehåller granskning för att ta itu med problem kring syntetiskt missbruk av medier.

Amazon utvidgade allmänhetens tillgång till sina modeller genom Nova Act SDK och Nova.amazon.com, där utvecklare kan testa NOVA-modellerna direkt. NOVA-lagen möjliggör skapandet av AI-agenter som kan fungera i webbläsare-klicka, skriva och navigera sidor genom ett visuellt medvetet gränssnitt. Till skillnad från Googles modulära kedja-av-agenter-ram, prioriterar Amazons SDK utvecklarkontroll över förbyggd koordinationslogik.

Kommande resonemangsmodell kan stänga loopen

för att konkurrera på en djupare kognitiv nivå, Amazon arbetar med en nova-Branded förorsakad modell för mid-202. Den kommande modellen syftar till att överbrygga snabbt, realtidssamtal med mer tankeväckande, analytisk bearbetning. Internt är det positionerat till rivaliserande Claude 3.7 Sonnet, OpenAi’s O3-Mini och Googles Gemini 2.5 Pro.

Denna utveckling markerar också Amazons rörelse för att minska förtroendet för tredjepartspartners som Anthropic och istället bygga en vertikalt integrerad AI-stack-från sina anpassade träningar till applicering till applicering av awra och Alexa. Om det lyckas kan det ge företaget stramare kontroll över dataflöde, latens och kostnadsoptimering jämfört med API-första konkurrenter som OpenAI.

konkurrerande röster: openai, xai och sesam ai

Amazons återinförande i röst ai kommer amid en burst av experiment över hela tiden. OpenAI har breddat räckvidden för sitt avancerade röstläge och lagt till webbaserad åtkomst och uppdateringar som minskar avbrott och möjliggör naturliga pauser i konversationen. Microsoft gjorde under tiden sina copilot-röstfunktioner och tänkte djupare verktyg gratis för alla användare i februari 2025.

På den experimentella kanten är Sesame Ais experimentella röstassistent driver gränser genom att efterlikna mänskliga tveksamheter och tonliga oegentligheter så övertygande att vissa testare beskrev det som”eerily mänskligt.”Medan realismen var imponerande, väckte den också etiska oro över AI-efterföljande och emotionell manipulation.

Omvänt tar Xai’s Grok 3-röstläge en radikalt annorlunda väg, vilket gör att användare kan möjliggöra en svamp-spänd, känslomässigt reaktiv röstassistent. Marknadsförs som ett”Free Speech”-alternativ, uppoffrar funktionen räckor och måttlighet för att möjliggöra mycket uttrycksfulla, ibland skurrande svar-och samla en skarp kontrast till Amazons mer reglerade tillvägagångssätt.

Nova Sonic syftar till att slå en medelväg-prioritera uttrycksförmåga och lyhördhet samtidigt som säkerhetsfunktioner och företagsbricklighet. Huruvida den saldot kan vinna över båda utvecklarna och slutanvändarna återstår att se, särskilt eftersom förväntningarna kring konversation AI fortsätter att växla.

Categories: IT Info