Az Amazon a Nova Sonic-nal, a Nova Sonic-nal, a Voice AI-vel, egy új beszéd-beszédmodellvel vitatja, amely nemcsak azt értelmezi, amit a felhasználók mondanak, hanem azt is, hogy mondják. A vokális inflexió, a hang és a ütem valós időben történő kezelésére tervezték, a Nova Sonic teljesen kihagyja a hagyományos beszéd-szöveges csővezetéket. Ehelyett közvetlenül az expresszív szintetikus beszédben hallgat és reagál, és a felhasználóknak egy emberszerű beszélgetés értelmét adja. Az Amazon arról is beszámol, hogy a modellt több mint 100 000 órás beszédre képzették, amely több száz hangszóróstílusra, korra és akcentusra terjed ki. A többnyelvű Librispeech referenciaértékén 4,2%-os szó hibaarányt ért el angol, francia, olasz, német és spanyol nyelven. Az Amazon a modellt költséghatékonynak is megfogalmazta, kijelentve, hogy ez körülbelül 80%-kal olcsóbb, mint az Openai GPT-4O. A Stack fejlesztője
A Nova Sonic elemei már beágyazódnak az Alexa+-ba, az Amazon átalakított hangsegédjébe, amely 2025 februárjában indult. Az Alexa+ bemutatja azokat a funkciókat, mint a memória, a több fordulási beszélgetés és az intelligens otthoni zenekar. A Panos Panay, az Amazon eszközök vezetője hangsúlyozta a tapasztalatokat az indító rendezvény során, kijelentve: „Amikor az Alexa+-ot használja, akkor ezt fogja érezni.”
Alexa+ havonta 20 dollárba kerül a nem prime felhasználók számára, és szerepel a fő tagságba. Néhány ígért funkció azonban, például a Grubhubon keresztüli átvétel megrendelése vagy a gyermekek történetgenerálása, továbbra is késik. Lehet, hogy a régebbi ECHO eszközök nem támogatják a modell feldolgozási követelményeit, korlátozva a bevezetést. Az asszisztens belsőleg továbbra is az antropikus Claude AI-re támaszkodik a nyelvmodellezésre, miután az Amazon 4 milliárd dolláros beruházását 2024 végén. Jelzi az Amazon azon szándékát, hogy az egyedi beszélgetési rendszerek építőköveit biztosítsa, ahelyett, hogy mindenki számára megfelelő ügynököt engedne. 2024 decemberében az Amazon bemutatta a Nova Model családot-a Nova Micro, a Lite, a Pro és a Premier-, amelynek szöveget, képet és videó generációja. A Nova Pro modell versenyképes pontszámokat tett közzé olyan referenciaértékekben, mint a GSM8K (94,8%-os pontosság a matematikában), a Python-kód generációja (89,0%) és a többlépcsős érvelés (86,9%). Például a Reel jelenleg a hat másodperces klipeket támogatja, amelyek jövőbeni támogatást nyújtanak a fejlesztés két perces szekvenciáinak. Ezeket a kreatív eszközöket a vállalati használatra tervezték, és beépítik az auditálhatóságot a szintetikus média visszaéléssel kapcsolatos aggodalmak kezelésére. A Nova Act lehetővé teszi az AI-ügynökök létrehozását, amelyek a böngészőkben működhetnek-kattintva, gépelhetnek és navigálnak az oldalakon egy vizuálisan tudatos felületen keresztül. Ellentétben a Google moduláris ügynöki láncának keretével, az Amazon SDK prioritást élvez a fejlesztők ellenőrzésével az előkészített koordinációs logika felett. A közelgő modell célja, hogy áthidalja a gyors, valós idejű beszélgetést, átgondoltabb, analitikusabb feldolgozással. Belsőleg a Claude 3.7 szonett, az Openai O3-Mini és a Google Gemini 2.5 Pro. Ha sikeres, akkor a vállalat szigorúbb irányítást nyújthat az adatáramlás, a késleltetés és a költségoptimalizálás felett az API-First versenytársakhoz képest, mint például az Openai. Az Openai kibővítette fejlett hang módjának elérhetőségét, hozzáférést és frissítéseket adva, amelyek csökkentik a megszakításokat, és lehetővé teszik a természetes szüneteket a beszélgetés során. Időközben a Microsoft 2025 februárjában minden felhasználó számára mélyebb eszközöket készített, és a kísérleti szélén a Sesame Ai kísérleti hangsegédje az ember-szerű habozások és a tonális szabálytalanságok után a Kísérleti Szélben mélyebb eszközöket ingyenes. Miközben a realizmus lenyűgöző volt, etikai aggodalmakat is felvetett az AI megszemélyesítésével és az érzelmi manipulációval kapcsolatban. A „szólásszabadság” alternatívaként forgalmazva, a szolgáltatás áldozatokat és moderálást áldoz fel, hogy lehetővé tegye a rendkívül kifejező, néha zavaró válaszokat-egy éles ellentétben az Amazon szabályozottabb megközelítésével. Még nem kell látni, hogy ez az egyensúly nyerhető-e mindkét fejlesztővel és a végfelhasználókkal szemben, különösen mivel a beszélgetési AI körüli elvárások továbbra is eltolódnak.