Amazon contestă status quo-ul în voice AI cu Nova Sonic, un nou model de vorbire-vorbire care interpretează nu doar ceea ce spun utilizatorii, ci cum o spun. Proiectat pentru a gestiona inflexiunea vocală, tonul și cadența în timp real, Nova Sonic sări în întregime conducta tradițională de vorbire-text. În schimb, ascultă și răspunde direct într-un discurs sintetic expresiv, oferind utilizatorilor sentimentul unei conversații asemănătoare omului.
Amazon spune că Nova Sonic este un model generativ de fundație de vorbire care este conceput pentru a înțelege nu doar ceea ce spun oamenii, ci și modul în care o spun și pretinde performanță sub 200 de milisecunde în condiții ideale. De asemenea, Amazon raportează că modelul a fost instruit la peste 100.000 de ore de vorbire, acoperind sute de stiluri de vorbitori, vârste și accente. Pe referința multilingvă Librispeech, a obținut o rată de eroare de 4,2% în cadrul englezei, franceze, italiene, germane și spaniole.
În ceea ce privește accesibilitatea, Nova Sonic este acum disponibilă printr-o API-ul de streaming bidirecțional prin intermediul Amazon Bedrock, oferind dezvoltatorilor capabilități de interacțiune în timp real în aplicații vocale. Amazon a încadrat, de asemenea, modelul ca fiind eficient din punct de vedere al costurilor, afirmând că este cu aproximativ 80% mai puțin costisitor decât GPT-4O. Stack
Elementele din Nova Sonic sunt deja încorporate în Alexa+, asistentul vocea reproiectat de Amazon, lansat în februarie 2025. Alexa+ introduce funcții precum memoria, conversația cu mai multe rânduri și orchestrarea pentru casă inteligentă. Panos Panay, dispozitivele Amazon, a subliniat experiența în timpul evenimentului de lansare, afirmând: „Când utilizați Alexa+, veți simți-o. Cu toate acestea, unele caracteristici promise, cum ar fi comanda de preluare prin GrubHub sau Story Generation for Children, sunt încă întârziate. Este posibil ca dispozitivele Echo mai vechi să nu suporte cerințele de procesare ale modelului, limitând lansarea. Pe plan intern, asistentul continuă să se bazeze pe Claude AI Antropic pentru modelarea limbii, în urma investițiilor Amazon de 4 miliarde de dolari la sfârșitul anului 2024.
Pentru dezvoltatori, disponibilitatea Nova Sonic prin API-ul Bedrock introduce capacități în timp real în generarea de răspuns vocal-un pas important dincolo de UI-urile de voce bazate pe transcripție statică. Acesta semnalează intenția Amazon de a oferi blocuri de construcții pentru sisteme de conversație personalizate, în loc să elibereze un agent de dimensiuni unice.
O parte a unei revizii AI mai largi
Nova Sonic este doar o parte a ecosistemului nova AI în creștere al Amazon. În decembrie 2024, Amazon a introdus familia Nova Model-Nova Micro, Lite, Pro și Premier-care au textul, imaginea și generarea video. Modelul Nova Pro a înregistrat scoruri competitive în repere de referință, cum ar fi GSM8K (94,8%precizie în matematică), generarea de coduri Python (89,0%) și raționament în mai multe etape (86,9%).
pentru crearea de conținut vizual, Nova Canvas și Nova Reel permit utilizatorilor să genereze imagini și videoclipuri cu formă scurtă cu caracteristici de siguranță precum padurile de salvare și atribuire. Reel, de exemplu, acceptă în prezent clipuri de șase secunde cu sprijin viitor pentru secvențe de două minute în dezvoltare. Aceste instrumente creative sunt concepute pentru utilizarea întreprinderilor și încorporează audibilitatea pentru a aborda problemele legate de utilizarea necorespunzătoare a mediei sintetice.
Amazon a extins accesul public la modelele sale prin Nova Act SDK și Nova.amazon.com, unde dezvoltatorii pot testa direct modelele Nova. Nova Act permite crearea de agenți AI care pot funcționa în interiorul browserelor web-clic, tastarea și navigarea paginilor printr-o interfață conștientă vizual. Spre deosebire de cadrul modular al lanțului de agenți Google, SDK-ul Amazon prioritizează controlul dezvoltatorilor asupra logicii de coordonare pre-construită.
Modelul de raționament viitor poate închide bucla
pentru a concura la un nivel cognitiv mai profund, Amazon lucrează la un model de raționament de la Nova-Brand, setat pentru eliberare la lansare la mijlocul anului 2025. Următorul model are ca scop să pună la punct conversația rapidă, în timp real, cu o prelucrare analitică mai atentă. Pe plan intern, este poziționat pentru rivalul Claude 3.7 Sonet, OpenAI O3-MINI și Google Gemini 2.5 Pro.
Această dezvoltare marchează, de asemenea, mișcarea Amazon pentru a reduce dependența de parteneri terți, precum antropici și, în schimb, construiește o stivă AI integrată vertical-de la chipsurile sale de trainu personalizate la straturile de aplicare în cadrul AWS și Alexa+. Dacă va avea succes, ar putea oferi companiei un control mai strict asupra fluxului de date, latenței și optimizării costurilor în comparație cu concurenții API, precum OpenAI.
vocile concurente: OpenAI, XAI și Sesame Ai
reintrarea Amazon în voce AI vine în funcție de o explozie de experimentare în sector. OpenAI a lărgit amploarea modului său de voce avansat, adăugând acces bazat pe web și actualizări care reduc întreruperile și permit pauze naturale în conversație. Între timp, Microsoft și-a făcut caracteristicile vocale de copilot și se gândește la instrumente mai profunde pentru toți utilizatorii în februarie 2025.
Pe marginea experimentală, asistentul de voce experimental al lui Sesame AI împinge limitele, imitând ezitările umane și neregularitățile tonale, astfel încât unii testatori au descris-o drept „eeril uman”. În timp ce realismul a fost impresionant, a ridicat, de asemenea, îngrijorări etice cu privire la impersonarea AI și manipularea emoțională.
În schimb, modul vocea Grok 3 al lui Xai face un traseu radical diferit, permițând utilizatorilor să permită un asistent vocal cu dantelă profanat, reactiv emoțional. Comercializată ca o alternativă „liberă de exprimare”, caracteristica sacrifică gardele și moderația pentru a permite răspunsuri extrem de expresive, uneori, care se ocupă de un contrast puternic cu abordarea mai reglementată a Amazonului.
Nova Sonic își propune să lovească o teren de mijloc-expresivitate expresivitate și reacție, menținând în același timp caracteristici de siguranță și scalabilitate de bază a întreprinderii. Rămâne de văzut dacă acest echilibru poate câștiga atât asupra dezvoltatorilor, cât și a utilizatorilor finali, mai ales că așteptările din jurul AI conversațional continuă să se schimbe.